騰訊 AI Lab 副主任、西雅圖人工智能研究室負責人俞棟日前發表觀點:即使語音識別在過去取得了一定進步,如今機器也已經在電話聊天這樣的任務上達到甚至超過人的識別水準,但是離真正的人與機器的自由交流還有一定差距。
俞棟還介紹了如今語音識別的四個前沿方向,包括更有效的序列到序列直接轉換的模型、雞尾酒會問題、持續預測與適應的模型以及前后端聯合優化。
值得一提的是,騰訊AI Lab于2016年4月成立。作為騰訊公司級AI實驗室,AI Lab專注于基礎研究和應用探索的結合,語音識別正是其四大基礎研究方向之一。騰訊西雅圖研究室由AI Lab副主任、語音識別及深度學習領域專家俞棟博士領導,偏向語音識別及自然語言理解兩大領域的基礎研究。
俞棟是在參加全球機器智能峰會(GMIS 2017)期間透露上述觀點的。他在發表《語音識別領域的前沿研究(Frontier Research of Speech Recognition)》的演講時分享了語音識別領域的四個前沿研究方向。
他認為,如今語音識別的環境,以及聲音衰減度等問題都是制約語音識別技術進一步發展的問題。“如今我們研究的語音識別問題越來越沒有環境、說話風格、口音、詞匯等限定(不像以前有非常多的限制),這極大地增加了語音識別的難度,同時研究的前沿也從近場麥克風轉向遠場麥克風。兩者的區別在于,在遠場情況下,當人的聲音傳達到麥克風時,聲音衰減很厲害。所以以前在近場麥克風很難見到的一些困難,在遠場麥克風場景下就變得很明顯。如果不解決這些問題,用戶在很多的應用場合仍然會覺得語音識別效果欠佳?!庇釛澲赋觥?/p>
俞棟還介紹了如今語音識別的四個前沿方向,包括更有效的序列到序列直接轉換的模型、雞尾酒會問題、持續預測與適應的模型以及前后端聯合優化。以雞尾酒會問題為例,俞棟指出,人在雞尾酒會這樣非常嘈雜的環境中能夠把注意力集中在某一個人的聲音上,屏蔽掉周圍的說話聲或噪音,非常好地聽懂他要關注的那個人的說話聲音?,F在絕大部分的語音識別系統還沒有這個能力。
這個問題在近場麥克風并不明顯,這是因為人聲的能量對比噪聲非常大,而信噪比下降得很厲害,所以這個問題就變得非常突出,成為了一個非常關鍵、比較難解決的問題。(原標題:騰訊AI LAB副主任俞棟:語音識別有四大前沿方向)