본문 바로가기

스트라베이스 Reports

Google DeepMind, "WaveNet"으로 문자음성변환(TTS) 기술의 신기원 개막...인간과 유사한 기계 음성의 시대 예고

Google DeepMind, "WaveNet"으로 문자음성변환(TTS) 기술의 신기원 개막...인간과 유사한 기계 음성의 시대 예고

 

링크: http://bit.ly/2dEEJve

 

 

[News]
인공지능(AI) 바둑 프로그램 AlphaGo로 프로 바둑기사와의 대결에서 승리하며 AI의 가능성에 대한 논란을 증폭시킨 바 있는 Google 산하 AI 기업 DeepMind가 최근 텍스트를 음성으로 변환하는 문자음성변환(Text-to-Speech, TTS) 기술의 신기원을 열 잠재력을 지닌 새로운 AI 시스템 "WaveNet"을 선보이며 다시 한 번 세간을 떠들썩하게 하고 있다.
심층 신경망(Deep Neural Network, DNN)을 기반으로 하는 "WaveNet"은 오디오 신호의 파형(waveform)을 분석하는 신경망의 훈련 및 학습 과정을 통해 기존 TTS 기술과 비교해 인간에 훨씬 근접한 음성을 생성해 내며 인간과 AI가 마치 인간과 인간이 대화하듯 대화하는 환경을 구현해 낼 것으로 기대를 모으고 있다.

 

[News Plus]
2010년 설립된 영국의 DeepMind는 지난 2014년 5억 3,300만 달러의 인수가로 Google의 손에 들어갔다. 인간과 유사한 방식으로 비디오 게임을 하는 방법을 학습하는...

 

<Table 1> Google DeepMind의 심층 신경망(DNN) 기반 오디오 생성 시스템 "WaveNet" 개요
<Figure 1> "WaveNet"과 기존 TTS 시스템, 인간 음성에 대한 사운드 품질 측정 테스트 결과

 

[View Point]
기존 TTS 기술의 한계를 뛰어 넘으며 인간 음성에 근접한 "WaveNet"의 등장으로 인간과 AI의 대화가 AI 운영체제와 주인공이 주고 받는 대화를 중심으로 하는...

 

<Figure 2> "WaveNet"의 신경망 구조