에피소드

24개 언어 이해하는 AI 음성인식 기술 개발

<KISTI의 과학향기> 제3810호   2022년 12월 05일
국내 연구진이 한국어와 영어, 중국어, 일본어뿐만 아니라 독일어, 프랑스어, 스페인어, 러시아어 등 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다. 디지털 전환의 시대, 음성인식을 바탕으로 인공지능(AI) 비서, AI 튜터 등 다양한 AI 서비스 확산에 큰 도움이 될 전망이다.
 
한국전자통신연구원(ETRI)은 세계 주요 24개 언어를 음성으로 인식, 문자로 변환할 수 있는 ‘대화형 인공지능(Conversational AI) 기술’을 개발했다고 밝혔다. ETRI가 개발한 음성인식 기술의 성능은 구글(Google) 등 글로벌 기업과 비교해 한국어에서는 우위, 타 언어에서는 대등한 수준이다.
 
기존 음성인식 기술을 개발하기 위해서는 대규모 학습데이터가 필요해 다국어 확장과 음성인식 성능 확보가 쉽지 않았다. 연구진은 자기 지도학습, 의사 레이블, 대용량 다국어 사전 학습 모델, 음성 데이터의 오디오 데이터 생성(TTS) 증강 기술 등을 통해 언어 확장의 어려움을 해결했다. 또한, 연구진은 기존에 흔히 활용되던 종단형(End-to-End) 음성인식 기술의 단점을 개선해 활용성을 높였다. 느린 응답속도의 문제는 스트리밍 추론 기술을 개발, 실시간 처리가 가능하도록 개선했다. 아울러, 의료와 법률, 과학기술 등 특정한 도메인에 대한 음성인식 특화가 쉽도록 하이브리드 종단형 인식 기술도 개발해 적용했다.
 
연구진은 이번 다국어 확대와 응답속도 지연 해결 등 신기술 적용을 통해 음성인식 기술 활용 범위를 확대, 사업화를 추진할 예정이라고 밝혔다. 특히, 올해 안으로 지원 언어를 30여 개로 확대하고, 국내·외 전시 참여와 기업체 설명회를 통해 동남아와 남미, 아랍권 등을 대상으로 사업화를 적극 추진할 예정이다.
 
김상훈 ETRI 복합지능연구실 책임연구원은 “국내기술로 글로벌 선도업체와 대등한 수준의 음성인식 기술을 개발했다는 데 의의가 있다”며 “본 기술이 우리나라 인공지능 분야의 글로벌 경쟁력을 높이고 기술자주권을 확보하는 데 큰 도움이 되길 바란다”고 말했다.
 
평가하기
추천 콘텐츠
인기 에피소드
쿠키를 지원하지 않는 브라우저이거나 브라우저 설정에서 쿠키를 사용하지 않음으로 설정되어 있는 경우 사이트의 일부 기능(로그인 등)을 이용할 수 없으니 유의해 주시기 바랍니다.
메일링 구독신청하기