카카오, 통합 멀티모달 언어모델 'Kanana-o' 공개…음성, 텍스트, 이미지 처리 혁신

Welaunch
·
3개월 전

카카오, 통합 멀티모달 언어모델 'Kanana-o' 공개…음성, 텍스트, 이미지 처리 혁신

소식발행일
관심: 9
533
태그
사이트: https://www.kakaocorp.com/page/

신청

카카오(대표이사 정신아)가 자사의 최신 인공지능(AI) 모델인 통합 멀티모달 언어모델 ‘Kanana-o’와 오디오 언어모델 ‘Kanana-a’의 성능과 개발 후기를 공식 테크블로그를 통해 공개했다. 카카오는 이번 모델을 통해 AI의 기술 경쟁력을 한층 강화하며, 멀티모달 AI 기술의 새로운 가능성을 열었다. ‘Kanana-o’는 국내 최초로 텍스트, 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델이다. 이 모델은 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 정확하게 처리할 수 있으며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답할 수 있는 구조로 설계됐다. 카카오는 이 모델을 개발하기 위해 ‘모델 병합(Model Merging)’ 기술을 활용, 이미지 처리에 특화된 모델 ‘Kanana-v’와 오디오 이해 및 생성에 특화된 모델 ‘Kanana-a’를 통합했다. 이후 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 ‘병합 학습(Joint Training)’을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 훈련시켰다. 이를 통해 기존 LLM(대형 언어모델) 구조에서 이미지 이해 능력과 음성 인식 및 합성, 감정 이해 등 고도화된 오디오 능력을 확장한 모델을 구현했다. ‘Kanana-o’는 음성 감정 인식(Speech Emotion Recognition) 기술을 통해 사용자의 의도를 정확하게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공한다. 음성의 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하여 대화 맥락에 맞는 감정적이고 자연스러운 음성 응답을 생성하는 특징을 보인다. 카카오는 이 모델에 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영했다. 또한 제주도, 경상도 등 지역 방언도 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성하는 능력을 갖추었다. 현재는 독자적인 한국어 음성 토크나이저 개발을 진행 중으로, 이는 더욱 정교한 음성 처리 기술을 가능하게 한다. 특히 ‘Kanana-o’는 스트리밍 방식의 음성 합성 기술을 적용해 사용자가 긴 대기 시간 없이 즉각적인 응답을 받을 수 있다. 예를 들어, 이미지와 함께 “이 그림에 어울리는 동화를 만들어 줘”라고 입력하면, Kanana-o는 해당 이미지를 이해하고 사용자의 억양과 감정 등을 분석하여 실시간으로 자연스럽고 창의적인 이야기를 생성한다. ‘Kanana-o’는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사한 성능을 기록했으며, 특히 감정 인식 능력에서는 한국어와 영어 모두에서 뛰어난 성능을 보였다. 이미지와 음성을 통합적으로 이해하는 ‘이미지-음성 QA(질의응답)’ 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 입증했다. 카카오는 향후 ‘Kanana-o’를 통해 ▲다중 턴(Multi-turn) 대화 처리 ▲Full-duplex(양방향 데이터 동시 송수신 기술) 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 지속적인 연구 개발을 이어갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 구현할 예정이다. 김병학 카카오는 "Kanana 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며, "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하고, 지속적인 연구 결과 공유를 통해 국내 AI 생태계 발전에 기여할 계획"이라고 말했다. 한편, 카카오는 지난해 자사 AI 모델 'Kanana'의 라인업을 공개했으며, 공식 테크블로그를 통해 다양한 모델들의 성능과 개발기를 공개하고 있다. 또한, 2월에는 ‘Kanana Nano 2.1B’ 모델을 오픈소스로 깃허브(GitHub)에 배포했으며, 연구 성과를 아카이브(ArXiv)에 공개하기도 했다. Welaunch 이나은 기자 스타트업 뉴스 플랫폼, 위런치 © 2024 Welaunch. All Rights Reserved 보도자료/기고 : editor@welaunch.kr 광고/제휴 문의: we@welaunch.kr

Welaunch

다른소식

Welaunch·3개월 전

카카오, 통합 멀티모달 언어모델 'Kanana-o' 공개…음성, 텍스트, 이미지 처리 혁신

Welaunch
·
3개월 전