要聞

電梯里也能實現清晰語音通話騰訊針對弱網環境主導制定新一代語音編碼標準

每日經濟新聞 2024-06-27 11:34:31

每經記者王帆每經編輯文多

6月26日，《每日經濟新聞》記者獲悉，新一代實時語音編碼行業標準AVS3P10即將正式發布。這是一項基于AI神經網絡等技術的全新行業標準，解決的是弱網環境下的語音通信質量問題。該標準由騰訊提議啟動、推進和維護，經AVS（數字音視頻編解碼技術標準工作組）多家成員單位共同貢獻。

過往的音頻傳輸場景中，在有限的帶寬條件下，想要將聲音高質量傳遞到接收方，關鍵在于壓縮原始數據、去除冗余信息的語音編碼技術。然而，基于EVS、OPUS等現有主流音頻編解碼標準，當碼率降低到10kbps以下時，語音質量下降明顯，影響用戶體驗。這也造成了在電梯、地庫、隧道等弱網環境下實時語音通話不暢的難題。

而本次制定的新標準AVS3P10，解決上述痛點的技術路徑是：首先通過建立語音信號處理和深度神經網絡，捕捉音頻的核心特征，實現大幅度壓縮、降低傳輸的數據量；再借助深度學習網絡，重建語音信號，恢復出高質量的聲音。在保持高清音質的同時，大幅降低了音頻傳輸的帶寬需求，讓用戶在各種場景下都能享受到既清晰又省流量的音頻體驗。

《每日經濟新聞》記者注意到，AI技術此前在實時語音傳輸領域已有語音增強、回聲消除、降噪、變聲、語音識別與合成等研究和應用。例如，字節跳動火山引擎流媒體音頻團隊曾發布包括語音增強、基于AI編解碼、回聲消除、無監督自適應語音增強等方面的相關研究成果；阿里巴巴釘釘蜂鳴鳥音頻實驗室提出了一種基于頻—時調制譜的改進型窄帶濾波網絡（STSubNet）和“一模型，多任務”方案，聯合消除實時語音通信中常見的三種干擾音（回聲，噪音和混響）。

而騰訊上述標準和技術的發布，意味著AI在實時語音傳輸新增了一個應用場景和技術路徑。

值得一提的是，這一標準以騰訊首款神經網絡語音編解碼器Penguins為原型，該技術在2021年起逐步落地到騰訊會議車載模式、弱網模式、QQ語音通話等多個產品場景中。那么，為何騰訊會選擇推動一項自研技術成為行業標準，并把關鍵核心技術開放出來？

在6月26日的媒體群訪中，騰訊云副總裁、騰訊會議天籟實驗室主任商世東回應記者稱：“這一標準的制定和技術的開放，能推動整個實時語音通信行業為用戶提供更好的技術和產品。”商世東認為，騰訊不怕開放技術，因為技術在具體產品里面怎么使用，以及怎么做到效果和體驗最好，取決于很多技術開發細節，這不是拿到開放的源代碼就能輕易做到的。“對于同行來說，他們看到這個技術的領先性后，最快在市場上推出產品的方法就是和騰訊一起合作，實現一加一大于二的效果。”他表示。

騰訊標準化高級工程師張亞軍認為：“標準化是行業達成共識的形式和方法，也能解決產品設備互聯互通的問題。制定標準的過程需要產業鏈上的各個廠商都加入討論，比如芯片廠商、終端廠商、互聯網APP廠商。并不是說某一家企業技術足夠厲害，它就可以吃得下整個‘蛋糕’。標準化可以讓大家一起做大‘蛋糕’，一起來推動我們行業的發展。”他還表示，另一方面，雖然標準是開放的，但標準里的技術方案是有相應的專利和IP保護的，因此開放對于騰訊來說并沒有太大顧慮。

封面圖片來源：視覺中國

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。