AI 4개모델, 수능 얼만큼 풀까…챗GPT 1위지만 국어점수 하위권
연합뉴스 연세대 교수팀과 AI 4개 모델 측정
챗GPT 수학에서 1개 틀리는 등 우수한 성적
2위는 중국 딥시크로 수학 점수는 매우 낮아
2026학년도 대학수학능력시험 다음날인 14일 대구 수성구 한 여고 3학년 교실에서 수험생들이 가채점하고 있다. 연합뉴스
2026학년도 대학 수능 시험이 끝난 가운데, 생성형 인공지능(AI)은 우리 수능시험을 어느 정도 풀 수 있을까.
수학과 영어에서는 재능을 보였지만 국어점수가 형편없이 나와 전반적인 수능점수가 낮았다.
연합뉴스가 15일 연세대 인공지능융합대 첨단융합공학부 김시호 교수 연구팀과 함께 △챗GPT(GPT-5) △제미나이(2.5 플래시) △퍼플렉시티(소나) △중국 AI 모델 딥시크 무료 버전을 대상으로 수능 국어·영어·수학 영역을 풀어보게 했다.
시험 환경은 실제 수능과 동일하게 구현하기 위해 모든 AI 챗봇 모델에게 인터넷 검색을 금지하고 스스로 문제를 풀도록 했다.
다만 국어 영어 듣기 문제는 딥시크·퍼플렉시티가 음성을 인식하지 못해 대본을 제공했다.
기호·수식이 많은 수학 문항은 수식 표현 방식인 ‘LaTeX(라텍)’으로 변환해 입력했으며, 문제에서 제시된 표나 이미지는 PDF 파일로 제공했다.
그 결과 가장 높은 성적을 받은 모델은 챗GPT였다. 챗GPT는 작년보다 어렵게 출제됐다고 평가받는 수학에서 단 한 문제만 틀릴 정도로 우수한 성적을 보였다.
‘확률과 통계’를 선택했을 때 4점짜리 문제 1개만 틀리며 96점을 받았고 ‘미적분’ 선택 시 92점 ‘기하’ 선택 시 84점을 얻었다.
그러나 챗GPT는 국어 영역에서 부진했다. ‘언어와 매체’ 선택과목이 0점이었다. 이에 따라 ‘화법과 작문’ 선택시 53점, ‘언어와 매체’ 선택 시 37점을 기록했다.
영어는 듣기 37점, 독해 49점으로 총 86점을 받아 수능 2등급 수준의 성적을 거뒀다.
2위는 중국의 AI 모델 딥시크가 차지했다.
딥시크는 국어와 영어 영역에서 GPT보다 높은 성적을 거뒀으나, 수학에서는 ‘찍기’가 의심될 정도로 낮은 점수를 받아 총점이 떨어졌다.
영어는 93점으로 1등급 수준의 점수였고, 국어는 70점 초반대로 3등급 수준이었다.
제미나이는 수학에서 높은 정답률을 보였지만, 국어 점수는 하위권 수준에 머물렀다.
총점이 가장 낮은 모델은 퍼플렉시티였다. 퍼플렉시티는 시험 도중 갑자기 답변을 하지 않는 등 오류가 자주 발생하며 정확한 시험 시간을 측정할 수 없었다. 또 시험 도중 인터넷 검색을 하는 등 수능 규정으로 보면 부정행위에 해당하는 모습을 보이기도 했다.
나머지 3개 AI 모델은 모든 과목에서 시험을 15분 내로 끝내며 초고속으로 문제를 풀었다.
입시 전문가는 이번 수능에서 어떤 모델도 4년제 대학 합격을 기대할 만큼의 성적을 거두지는 못했다고 평가했다.
임성호 종로학원 대표는 “국어·영어·수학 총점을 보면 소위 인서울 진입은 사실상 불가능하다. 상황에 따라 4년제 대학 합격도 쉽지 않은 점수”라고 평가했다.
특히 딥시크를 제외한 모델들이 국어 영역에서 매우 부진했다. 반면 챗GPT는 수학 영역에서 최상위권을 노려볼 만한 점수를 기록했다.
김시호 교수 연구팀도 챗GPT의 수학 성적이 2년 만에 9등급 수준에서 1등급 수준으로 도약했다고 밝혔다.
김시호 교수는 “AI 모델들이 굉장히 발전했지만, 국어에서 여전히 약한 모습을 보이는 등 우리가 생각하는 아주 높은 수준의 문제까지는 해결 못 하는 것으로 보인다”며 “이러한 점에서 국내서 시도하는 소버린(주권) AI 개발에서 수능이 좋은 지표로 활용될 수 있을 것 같다”고 말했다.
김덕준 기자 casiopea@busan.com