인공지능(AI) 토익앱 산타토익을 운영하는 뤼이드(Riiid가 AI 학습 데이터베이스 '에드넷(EdNet)'을 구축하고 수년간 축적해온 1억건 이상의 문제풀이 및 학습 데이터를 공개한다고 2일 밝혔다. 이를 통해 AI교육시장에 우수인력 진입을 유도하고, 궁극적으로는 뤼이드의 성장을 견인하는 산업 환경을 만든다는 계획이다.
뤼이드 AI 연구진은 최근 글로벌 논문 공유사이트인 아카이브(arXiv)에 이같은 내용을 담은 논문(EdNet: A Large-Scale Hierarchical Dataset in Education)을 공개했다. 에드넷은 불특정 다수의 정오답, 풀이 시간, 목표점수, 실제점수 등 각 유저의 정보가 포함된 개방형 학습 데이터베이스다. 이곳에는 뤼이드가 산타토익을 통해 축적한 78만 학습자의 1억3000만건 문제풀이 데이터가 포함된다.
뤼이드 관계자는 "데이터와 함께 수집 과정, 처리 방법 등을 함께 제공하여 데이터의 유효성을 입증하고 이해도를 높였다"며 "누구든 에드넷을 통해 대량의 학습 데이터를 내려받아 AI 모델을 개발하는데 활용할 수 있다"고 설명했다.
자사의 정오답 예측 모델 알고리즘도 오픈소스로 공개한다. 누구든 뤼이드 모델이 어떻게 프로그램 되어있는지 확인하고 정확도나 유효성을 실험해 볼 수 있다. 뤼이드는 에드넷에 추가 데이터를 매년 공개하고 AI관련 콘테스트도 개최할 계획인데, 이를 통해 보다 많은 우수인력이 AI교육시장에 진입하도록 유도한다는 계획이다.
알고리즘 공개가 오히려 기업의 성장을 이끌 수 있다는 믿음이 배경이 됐다. 뤼이드 관계자는 "해외에서는 자사 데이터를 공개해 비즈니스 경쟁력을 강화한 사례가 많다"고 언급했다. 예컨대 2009년 미국 스탠포드와 프린스턴대학 연구진이 구축한 이미지 데이터베이스 '이미지넷'은 AI의 이미지 식별능력 고도화의 기폭제가 됐다.
장영준 뤼이드 대표는 "이미지넷이 컴퓨터 비전 AI 기술 발전에 절대적인 역할을 한 것처럼 에드넷도 교육 AI 발전을 이끌고 궁극적으로 뤼이드의 더 큰 성장을 견인할 것"이라고 말했다.
[박의명 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
기사에 대해 의견을 남겨주세요.