[미디어펜=김견희 기자]LG AI연구원은 자연어 처리(NLP) 분야 세계 최고 권위 학회 중 하나인 북미 전산언어 학회(NAACL) 2025에서 ‘최고논문상(Best Paper Award)’을 수상했다고 30일 밝혔다.
|
 |
|
▲ 김승원(왼쪽 위부터 시계방향)카네기멜론대 박사과정 연구생, 서민준 KAIST 교수, 이경재 LG AI연구원 데이터 스쿼드(Data Squad)리더, 이문태 LG AI연구원 초지능랩(Super Intelligence Lab)장. /사진=LG 제공 |
이번 수상은 NAACL가 올해 등재된 1400여 편의 논문 가운데 단 한 편만 선정한 최고 영예로, LG AI연구원이 한국의 인공지능(AI) 기술 경쟁력을 입증했다는 평가가 나온다.
LG AI연구원은 지난해 NAACL 2024에서도 인공지능 모델의 문화적 편견 분석을 주제로 한 논문으로 ‘소셜임팩트상’을 수상한 바 있다. 올해는 생성형 AI 모델 성능을 평가하는 새로운 벤치마크 연구 논문으로 최고논문상을 받으며 2년 연속 수상의 성과를 거뒀다.
최고논문상은 자연어 처리 분야에서 새로운 연구 방향을 제시하거나 주요 문제를 해결한 논문 중 가장 혁신적이고 중요한 연구에 수여된다.
수상 논문 제1저자인 김승원 카네기멜런대 박사과정 연구생은 LG AI연구원 초지능랩 인턴 과정 중 이문태 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 한국과학기술원 교수 연구팀과 함께 생성형 AI 성능 평가 벤치마크 ‘빅젠 벤치(BIGGEN BENCH)’를 개발했다. 이번 연구에는 연세대, 코넬대, 일리노이대, 매사추세츠 공대, 워싱턴대 등 국내외 연구진이 폭넓게 참여했다.
빅젠 벤치는 △지시사항 수행 △논리적 추론 △도구 사용 능력 △안전성 △다언어·문화 이해 등 생성형 AI 모델의 핵심 역량을 9개 항목으로 구분하고, 총 765개의 세부 평가 과제로 구성돼 있다. 기존 벤치마크가 ‘유용성’, ‘무해성’ 등 추상적 개념 위주였던 한계를 극복하고, 실제 사람의 평가 방식에 가깝도록 설계된 점이 특징이다.
LG AI연구원은 빅젠 벤치를 활용해 103개 생성형 AI 모델을 평가했으며, 전문가 집단과의 교차 검증을 통해 높은 수준의 신뢰도와 타당도를 입증했다.
이문태 초지능랩장은 “빅젠 벤치는 생성형 AI의 다양한 능력을 객관적이고 종합적으로 평가할 수 있도록 설계됐다”며 “기존 벤치마크의 한계를 보완하고 인간의 평가 기준에 부합한다는 점에서 의미가 크다”고 말했다.
서민준 교수는 “빅젠 벤치는 실사용 관점에서 AI 모델의 실용성을 지표화할 수 있다는 점이 가장 큰 장점”이라며 “해당 벤치마크에서 좋은 결과를 얻는다는 것은 실제 사용에서도 우수한 성능을 보인다는 의미”라고 설명했다.
한편 LG AI연구원은 이번 연구 과정에서 평가자 역할을 하는 생성형 AI 모델 ‘프로메테우스-2(Prometheus-2)’도 오픈소스로 공개했다. 프로메테우스-2는 GPT-4와 유사한 평가 신뢰도를 보여 상용 모델 수준의 성능을 갖췄다는 평가를 받았다. 연구원은 빅젠 벤치를 기반으로 생성형 AI 개발 과정에서 자동화된 세부 성능 평가 기술도 후속 연구로 진행 중이다.
NAACL 2025는 4월 29일(현지시간)부터 내달 4일까지 미국 뉴멕시코주 앨버커키에서 열린다.
[미디어펜=김견희 기자]
▶다른기사보기