谷歌推出了一項新技術,當服務無法維持穩定的WaveNetEQ連接時,可以提高Duo通話的音頻質量。它是基于谷歌的DeepMind部門的技術,該部門的目標是用人工噪音代替音頻抖動,這種噪音聽起來就像人類說話一樣,是通過機器學習產生的。
如果你曾經在網上打過電話,那么你很有可能經歷過音頻抖動。當作為調用的一部分發送的音頻數據包在傳輸過程中丟失,或出現延遲或順序錯誤時,就會發生這種情況。谷歌說99%的Duo呼叫都經歷過數據包丟失:20%的丟失超過3%的音頻,10%的丟失超過8%。有很多音頻需要替換。
每個呼叫應用程序都必須以某種方式處理這種丟包,但谷歌表示,這些丟包隱藏(PLC)過程可能很難填補60毫秒或更長的空白,聽起來既不像機器人,也不重復。WaveNetEQ的解決方案是基于DeepMind的神經網絡技術,它已經對來自48種不同語言的100多個使用者的數據進行了訓練。
將WaveNetEQ與NetEQ(一種常用的PLC技術)進行了比較。嘗試替換60ms丟包時的聲音。不過,這個系統可以替換的音頻是有限制的。谷歌的技術旨在取代短音,而不是完整的單詞。因此,120毫秒后,它會逐漸消失,并產生靜音。谷歌說,它對系統進行了評估,以確保沒有引入任何重要的新聲音。另外,所有的處理都需要在設備上進行,因為谷歌Duo調用默認是端到端加密的。一旦通話的真實音頻恢復,WaveNetEQ將無縫地回到現實中。
這是一個巧妙的小技術,當互聯網讓他們失望時,打電話應該更容易理解。由于Pixel 4手機在12月的功能下降,該技術已經可以用于在Pixel 4手機上撥打Duo電話。谷歌表示,它正在將這項技術推廣到其他未命名的手機上。
-
谷歌
+關注
關注
27文章
6179瀏覽量
105744 -
神經網絡
+關注
關注
42文章
4777瀏覽量
100995
發布評論請先 登錄
相關推薦
評論