https://arxiv.org/abs/2005.03271
RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and Solutions (Chung-Cheng Chiu, Arun Narayanan, Wei Han, Rohit Prabhavalkar, Yu Zhang, Navdeep Jaitly, Ruoming Pang, Tara N. Sainath, Patrick Nguyen, Liangliang Cao, Yonghui Wu)
ASR 모델이 학습 데이터와 도메인이 다르거나 음성 길이가 다른 경우에 대해 (심지어 스트리밍 모델도) 일반화가 안 되는 문제에 대한 분석. 역시 딥러닝은 도메인 싸움. regularization 추가 투입으로 해소. 그런데 구글은 ASR에 RNN-T를 정말 많이 쓰는 듯.
#transducer #out_of_distribution #domain #regularization #asr