https://arxiv.org/abs/2006.04558
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech (Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu)
포님에서 웨이브까지 2. 이쪽은 이전 fastspeech처럼 duration이나 pitch 같은 정보를 다른 도구로 추출한 다음 이걸 gt로 해서 예측해서 결합하도록 만들었음. tts는 이제 웨이브를 바로 내놓는 방식이 대세인 듯.
#end2end #tts