[미디어펜=배소현 기자] KT가 한국어에 최적화된 자체 개발 초거대언어모델(LLM) '믿:음 2.0'을 공개하며 새 정부가 천명한 소버린(주권)AI에 앞장서겠다는 의지를 밝혔다.
|
 |
|
▲ KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있는 모습./사진=KT 제공 |
KT는 3일 온라인 브리핑을 통해 '한국적 AI'라는 KT AI 철학을 담은 '믿음 2.0'을 소개했다.
신동훈 KT Gen Al 랩장에 따르면 믿음 2.0은 △115억 파라미터 규모의 '믿음 2.0 베이스' △23억 파라미터 규모의 '믿음 2.0 미니' 2종이며 모두 한국어와 영어를 지원한다.
특히 110억 파라미터 이상 한국어 범용 LLM을 누구나 상업적으로 쓸 수 있도록 오픈소스 형태로 공개한 것은 KT가 처음이다.
'믿음 2.0 베이스'와 '믿음 2.0 미니'는 오는 4일 오픈소스 플랫폼 허깅페이스를 통해 공개되며 누구나 상업적 활용이 가능하다.
신 랩장은 모델 설계 철학에 대해 "한국적인 뉘앙스와 감정 표현, 역사적 시각, 예의범절 등까지 반영하려 노력했다"며 "단순 생성형 AI가 아니라, 한국적 가치와 실용성을 갖춘 모델"이라고 말했다.
이어 '믿음'이 자사와 고려대학교가 공동 개발한 한국어 AI 역량 평가 지표인 '코-소버린' 벤치마크에서 유사 국내 모델을 비롯해 글로벌 최고 수준의 오픈소스 모델을 능가했다고 설명했다.
또한 믿음 2.0은 '한국적AI' 라는 철학을 바탕으로 데이터 수집과 모델 설계 전 과정에 걸쳐 철저한 기준을 작용했다.
신 랩장은 "고품질 데이터를 확보하기 위해 도서, 법률, 특허, 사전 등 산업·공공·문화 분야의 한국어 데이터를 수집했고, 라이선스 이슈가 있는 데이터는 모두 제거했다"며 "데이터 정제와 품질 관리를 위해 전수 검사와 필터링을 진행했으며 부족한 영역은 데이터 합성 기법으로 보완했다"고 밝혔다.
그러면서 "모델 학습에 사용된 모든 기술은 외부의 힘을 빌리지 않고 KT의 자체 기술로 구축됐다"며 "저작권 측면에서도 투명성과 책임감을 갖고 접근했다"고 강조했다.
학습된 정보 중 사실과 다른 내용을 교정하거나 삭제하는 기술인 'RAI(Responsible AI)' 원칙도 강조했다. KT는 믿음 2.0 개발 전 과정에 RAI 거버넌스를 적용했다고 설명했다.
KT는 또 마이크로소프트(MS)와의 협업을 통해 GPT 기반 한국형 모델도 준비 중이며 이를 순차 공개할 예정이다.
신 랩장은 "GPT 같은 초고성능 모델이 필요한 복잡한 작업에는 해당 모델을 제공하되, 상대적으로 간단한 업무나 특정 상황에는 믿음 모델이 효율적인 대안이 될 수 있다"며 "사용자 상황과 목적에 맞게 다양한 모델을 선택할 수 있도록 상호보완적인 라인업 전략을 추진 중"이라고 밝혔다.
아울러 KT는 정부의 '독자 AI 파운데이션 모델' 개발 프로젝트에도 본격적으로 참여할 계획이다.
신 랩장은 "(해당 프로젝트는) 저희가 갖고 있는 AI 철학과도 방향이 맞닿아 있다"며 "한국적인 가치와 문화를 담아내기 위해 데이터 얼라이언스, 1년여 간의 노력을 거쳐 저희가 구축한 데이터들이 독자 AI 파운데이션 모델을 구축하는 데 큰 강점이 될 것이라고 생각한다"이라고 말했다.
끝으로 KT는 믿음 2.0이 소버린AI를 대표할 수 있다고 강조했다. 신 랩장은 "KT 소버린AI는 4가지 철학으로 서비스를 개발한다"며 △데이터 주권 △사용자 선택권 보장 △한국적 가치 △책임 있는 운영 등 네 가지 원칙을 강조했다.
그러면서 “KT가 국내 사용자에게 고성능 한국적 AI에 대한 새로운 대안을 제시하고, 글로벌 경쟁력을 갖추는 중요한 발판이 될 것”이라고 피력했다.
[미디어펜=배소현 기자]
▶다른기사보기