- 과학향기 Story
- 에피소드
에피소드
24개 언어 이해하는 AI 음성인식 기술 개발
<KISTI의 과학향기> 제3810호 2022년 12월 05일국내 연구진이 한국어와 영어, 중국어, 일본어뿐만 아니라 독일어, 프랑스어, 스페인어, 러시아어 등 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다. 디지털 전환의 시대, 음성인식을 바탕으로 인공지능(AI) 비서, AI 튜터 등 다양한 AI 서비스 확산에 큰 도움이 될 전망이다.
한국전자통신연구원(ETRI)은 세계 주요 24개 언어를 음성으로 인식, 문자로 변환할 수 있는 ‘대화형 인공지능(Conversational AI) 기술’을 개발했다고 밝혔다. ETRI가 개발한 음성인식 기술의 성능은 구글(Google) 등 글로벌 기업과 비교해 한국어에서는 우위, 타 언어에서는 대등한 수준이다.
기존 음성인식 기술을 개발하기 위해서는 대규모 학습데이터가 필요해 다국어 확장과 음성인식 성능 확보가 쉽지 않았다. 연구진은 자기 지도학습, 의사 레이블, 대용량 다국어 사전 학습 모델, 음성 데이터의 오디오 데이터 생성(TTS) 증강 기술 등을 통해 언어 확장의 어려움을 해결했다. 또한, 연구진은 기존에 흔히 활용되던 종단형(End-to-End) 음성인식 기술의 단점을 개선해 활용성을 높였다. 느린 응답속도의 문제는 스트리밍 추론 기술을 개발, 실시간 처리가 가능하도록 개선했다. 아울러, 의료와 법률, 과학기술 등 특정한 도메인에 대한 음성인식 특화가 쉽도록 하이브리드 종단형 인식 기술도 개발해 적용했다.
연구진은 이번 다국어 확대와 응답속도 지연 해결 등 신기술 적용을 통해 음성인식 기술 활용 범위를 확대, 사업화를 추진할 예정이라고 밝혔다. 특히, 올해 안으로 지원 언어를 30여 개로 확대하고, 국내·외 전시 참여와 기업체 설명회를 통해 동남아와 남미, 아랍권 등을 대상으로 사업화를 적극 추진할 예정이다.
김상훈 ETRI 복합지능연구실 책임연구원은 “국내기술로 글로벌 선도업체와 대등한 수준의 음성인식 기술을 개발했다는 데 의의가 있다”며 “본 기술이 우리나라 인공지능 분야의 글로벌 경쟁력을 높이고 기술자주권을 확보하는 데 큰 도움이 되길 바란다”고 말했다.
추천 콘텐츠
인기 에피소드
-
- 망막의 모든 영역을 2.3초 안에 이미징하는 기술
- 2.3초 안에 망막의 모든 영역을 3차원으로 이미징할 수 있는 기술이 나왔다. KAIST 기계공학과/KI헬스사이언스연구소 오왕열 교수 연구팀이 세계 최초로 사람 망막의 넓은 영역에서 초점 위치뿐만이 아니라 초점에서 벗어난 위치에서도 세포 수준 고해상도 이미징이 가능한 기술을 개발했다. 망막은 안구의 렌즈를 통해 이미징해야 하기 때문에 안구 렌즈의 ...
-
- 지퍼에 옷이 끼었을 때 쉽게 빼는 법 / 왜 우리집 얼음은 투명하지 않을까?
- ◈ 지퍼에 옷이 끼었을 때 쉽게 빼는 법이불커버나 바지의 지퍼에 천이 끼어 고생해 본 분들이 가끔 있을 것이다. 대개 지퍼는 한번 물리면 좀처럼 빠지지 않고 같은 자리에서 반복해서 물리게 된다. 이 때 간단한 일자 드라이버를 준비하여, 지퍼와 끼인 천 사이에 넣고 헝겊을 잡아 당긴다. 포인트는 드리이버를 약간 비틀면 되는데, 이렇게 하면 지퍼의 슬라이...
-
- 세균 유전자 언제든지 억제할 수 있는 바이오 도구 개발
- KAIST 생명화학공학과 이상엽 특훈교수팀은 그람 음성균과 양성균 모두를 포함한 다양한 박테리아에서 표적 유전자를 효과적으로 억제할 수 있는 신규 sRNA 도구를 개발했다. 박테리아는 우리 일상에서 김치, 된장, 술 등 식품에 활용되어 왔을 뿐만 아니라 최근에는 대사 공학을 통해 플라스틱, 영양제, 사료, 의약품 등을 생산하는 산업용 세포 공장으...