'코쿼드 1.0' AI 프로그램 한국어 독해능력 순위표.© 뉴스1
'코쿼드 1.0' AI 프로그램 한국어 독해능력 순위표.© 뉴스1

사람보다 한국어 독해력이 뛰어난 한국어 인식 인공지능(AI) 프로그램이 46개나 되는 것으로 나타났다.

20일 LG에 따르면, LG사이언스파크가 개발한 AI 프로그램이 AI 학습용 한국어 표준데이터셋 '코쿼드(KorQuAD)1.0' 기계독해 평가에서 95.39점을 받아 1위를 기록했다. 사람이 동일한 독해 문제를 풀었을 때 받은 점수(91.2점)보다 높은 결과다. 기계독해 평가의 기준점이 되는 '사람'은 4년제 대학을 졸업한 성인 6명을 말한다.

올해 초 평가에서는 95.15점을 기록한 AI 스타트업 스켈터랩스가 1위를 차지했다. 스켈터랩스는 이번 평가에서 2위로 밀렸다.

기계 독해는 AI가 '질문하고 답하기'를 반복적으로 학습해, 스스로 문제를 분석하고 질문에 최적화된 답안을 찾아내는 기술이다.

예를 들어 '제주도는 대한민국의 남해상에 위치하는 섬으로 대한민국에서 가장 큰 섬이다. 행정구역 상 제주특별자치도에 속한다. 섬의 면적은 1833.2㎢인데 이는 남한 면적의 1.83%에 해당한다. 2020년 주민등록 인구는 약 67만명으로 대한민국의 섬 중에서 가장 인구가 많다'와 같은 지문을 주고 '제주도에서 살고 있는 사람은?'이라고 물으면 AI가 맥락을 이해해 "67만명"이라고 대답하는 식이다.

독해평가는 AI가 약 10분 동안 수천개의 비정형화된 주관식 질문에 답하는 방식으로 진행되며, 답변의 정밀도와 재현율에 따라 점수를 높게 산출한다.

AI 프로그램의 한국어 독해평가는 LG CNS가 개발한 AI학습용 한국어 표준데이터셋인 '코쿼드'(KorQuAD)로 진행된다. '코쿼드'는 국내 유일 표준데이터다.

AI 중 언어 지능은 '자연어 처리'(NLP)에서 '자연어 이해'(NLU)로 진화하고 있다. '자연어 이해'는 질문자의 의도까지 파악할 수 있는 능력을 평가하는 것으로 '기계독해'(MRC)를 통해 학습한다.

이러한 기계독해 연구는 얼마나 다양한 데이터셋을 확보하는가가 핵심이다. LG CNS는 국내 AI개발자들을 위해 상당한 시간과 인력을 투자, 언어지능 AI 연구에 반드시 필요한 한국어 표준데이터 10만개를 개발하고 이를 무료로 공개했다.

AI개발자들은 누구나 자체 개발 AI 언어모델을 제출해 코쿼드에서 성능을 공식적으로 평가 받을 수 있다.

지금까지 97개 인공지능 프로그램이 평가를 받았는데, 이중 46개가 인간보다 높은 점수를 받았다. LG, 스켈터랩스가 1,2위를 기록한데 이어 삼성SDS, 한국전자통신연구원(ETRI), 네이버 등에서 에서 개발한 프로그램들은 두각을 나타냈다. 익명의 개인개발자 AI도 상위권에 포함돼 있다.

특히 엑소브레인은 한때 '한국판 알파고'로 불리며 2016년 EBS 프로그램인 장학퀴즈에 출연해 인간과 퀴즈대결을 벌여 화제가 됐다. 당시 엑소브레인은 '인간 퀴즈왕' 4명과 벌인 퀴즈대결에서 승리했다.

한편 LG는 해당 기술을 고객 상담 '챗봇'에 적용할 계획이다. 고도화된 챗봇 서비스는 질문 유형에 따라 정해진 답변을 취사선택해 응대하는 기존 챗봇과 달리 질문 의미를 이해해 사람이 상담하는 것처럼 자연스러운 답변이 가능하다고 보고 있다.

AI 기술로 한국어 제품 설명서, 웹페이지 등 방대한 양의 길고 복잡한 문서를 빠르고 정확하게 이해해 필요한 핵심 정보를 단시간 안에 찾아낼 수 있기 때문이다.

LG사이언스파크 AI추진단은 지난달에도 세계 최고 권위의 컴퓨터 비전 학회인 '2020 CVPR'(Computer Vision and Pattern Recognition)이 개최한 '연속학습 기술 경연대회'에서 1위를 차지한 바 있다.

LG사이언스파크 AI추진단은 그룹 차원의 AI 전담 조직으로 AI 전략 수립과 선행 기술 연구를 진행하고 있다.

배경훈 LG사이언스파크 AI추진단장은 "AI 분야에서 세계적인 경쟁력 확보를 위해 연구 개발 투자를 늘리고, 과감한 오픈 이노베이션과 인재영입 등을 적극 추진하겠다"고 전했다.

저작권자 © AI라이프경제 무단전재 및 재배포 금지