遮天辰东小说笔趣阁,手机推荐排行榜,管理书籍排行榜

作為國內智能語音與人工智能產業領導者，科大訊飛在北京國家會議中心召開了以“AI復始，萬物更新”為主題的2015年年度發布會。在發布會上，科大訊飛介紹了訊飛超腦計劃的最新進展，并發布了數款讓人印象深刻的創新型產品。特別值得一提的是，在發布會現場，科大訊飛全球首次將演講人的演講，同步轉寫成文字在大屏幕顯示，敢于接受現場數千參會者和數千萬觀看視頻直播觀眾的檢驗，系統的轉寫效果之好讓大家直呼驚艷。此次發布會轉寫系統就是依托于訊飛全球領先的中文語音識別系統。今天，我們就為大家從技術上揭秘科大訊飛的新一代語音識別系統。

劉慶峰董事長現場演講內容同步轉寫成文字顯示在屏幕上

眾所周知，自2011年微軟研究院首次利用深度神經網絡(Deep Neural Network, DNN)在大規模語音識別任務上獲得顯著效果提升以來，DNN在語音識別領域受到越來越多的關注，目前已經成為主流語音識別系統的標配。然而，更深入的研究成果表明，DNN結構雖然具有很強的分類能力，但是其針對上下文時序信息的捕捉能力是較弱的，因此并不適合處理具有長時相關性的時序信號。而語音是一種各幀之間具有很強相關性的復雜時變信號，這種相關性主要體現在說話時的協同發音現象上，往往前后好幾個字對我們正要說的字都有影響，也就是語音的各幀之間具有長時相關性。

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖1：DNN和RNN示意圖

相比前饋型神經網絡DNN，循環神經網絡(Recurrent Neural Network, RNN)在隱層上增加了一個反饋連接，也就是說，RNN隱層當前時刻的輸入有一部分是前一時刻的隱層輸出，這使得RNN可以通過循環反饋連接看到前面所有時刻的信息，這賦予了RNN記憶功能，如圖1所示。這些特點使得RNN非常適合用于對時序信號的建模，在語音識別領域，RNN是一個近年來替換DNN的新的深度學習框架，而長短時記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統簡單RNN梯度消失等問題，使得RNN框架可以在語音識別領域實用化并獲得了超越DNN的效果，目前已經在業界一些比較先進的語音系統中使用。

除此之外，研究人員還在RNN的基礎上做了進一步改進工作，圖2是當前語音識別中的主流RNN聲學模型框架，主要還包含兩部分：深層雙向LSTM RNN和CTC(Connectionist Temporal Classification)輸出層。其中雙向RNN對當前語音幀進行判斷時，不僅可以利用歷史的語音信息，還可以利用未來的語音信息，可以進行更加準確的決策；CTC使得訓練過程無需幀級別的標注，實現有效的“端對端”訓練。

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖2：基于LSTM RNN的主流聲學模型框架

目前，國際國內已經有不少學術或工業機構掌握了RNN模型，并在上述某個或多個技術點進行研究。然而，上述各個技術點單獨研究時一般可以獲得較好的結果，但是如果想將這些技術點融合在一起的時候，則會碰到一些問題。例如，多個技術結合在一起的提升幅度會比各個技術點幅度的疊加要小。又例如，傳統的雙向RNN方案，理論上需要看到語音的結束（即所有的未來信息），才能成功的應用未來信息來獲得提升，因此只適合處理離線任務，而對于要求即時響應的在線任務（例如語音輸入法）則往往會帶來3-5s的硬延遲，這對于在線任務是不可接受的。再者，RNN對上下文相關性的擬合較強，相對于DNN更容易陷入過擬合的問題，容易因為訓練數據的局部不魯棒現象而帶來額外的異常識別錯誤。最后，由于RNN具有比DNN更加復雜的結構，給海量數據下的RNN模型訓練帶來了更大的挑戰。

鑒于上述問題，科大訊飛發明了一種名為前饋型序列記憶網絡FSMN(Feed-forward Sequential Memory Network)的新框架。在這個框架中，可以把上述幾點很好的融合，同時各個技術點對效果的提升可以獲得疊加。值得一提的是，我們在這個系統中創造性提出的FSMN結構，采用非循環的前饋結構，在只需要180ms延遲下，就達到了和雙向LSTM RNN相當的效果。下面讓我們來具體看下它的構成。

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖3：FSMN結構示意圖

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖4：FSMN中隱層記憶塊的時序展開示意圖（左右各看一幀）

圖3即為FSMN的結構示意圖，相比傳統的DNN，我們在隱層旁增加了一個稱為“記憶塊”的模塊，用于存儲對判斷當前語音幀有用的歷史信息和未來信息。圖4畫出了雙向FSMN中記憶塊左右各記憶一幀語音信息（在實際任務中，可根據任務需要，人工調整所需記憶的歷史和未來信息長度）的時序展開結構。

從圖中我們可以看出，不同于傳統的基于循環反饋的RNN，FSMN記憶塊的記憶功能是使用前饋結構實現的。這種前饋結構有兩大好處：首先，雙向FSMN對未來信息進行記憶時，沒有傳統雙向RNN必須等待語音輸入結束才能對當前語音幀進行判斷的限制，它只需要等待有限長度的未來語音幀即可，正如前文所說的，我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果；其次，如前所述，傳統的簡單RNN因為訓練過程中的梯度是按時間逐次往前傳播的，因此會出現指數衰減的梯度消失現象，這導致理論上具有無限長記憶的RNN實際上能記住的信息很有限，然而FSMN這種基于前饋時序展開結構的記憶網絡，在訓練過程中梯度沿著圖4中記憶塊與隱層的連接權重往回傳給各個時刻即可，這些連接權重決定了不同時刻輸入對判斷當前語音幀的影響，而且這種梯度傳播在任何時刻的衰減都是常數的，也是可訓練的，因此FSMN用一種更為簡單的方式解決了RNN中的梯度消失問題，使得其具有類似LSTM的長時記憶能力。

另外，在模型訓練效率和穩定性方面，由于FSMN完全基于前饋神經網絡，所以不存在RNN訓練中因mini-batch中句子長短不一需要補零而導致浪費運算的情況，前饋結構也使得它的并行度更高，可最大化利用GPU計算能力。從最終訓練收斂的雙向FSMN模型記憶塊中各時刻的加權系數分布我們觀察到，權重值基本上在當前時刻最大，往左右兩邊逐漸衰減，這也符合預期。進一步，FSMN可和CTC準則結合，實現語音識別中的“端到端”建模。

最后，和其他多個技術點結合后，訊飛基于FSMN的語音識別框架可獲得相比業界最好的語音識別系統40%的性能提升，同時結合我們的多GPU并行加速技術，訓練效率可達到一萬小時訓練數據一天可訓練收斂。后續基于FSMN框架，我們還將展開更多相關的研究工作，例如：DNN和記憶塊更深層次的組合方式，增加記憶塊部分復雜度強化記憶功能，FSMN結構和CNN等其他結構的更深度融合等。在這些核心技術持續進步的基礎上，科大訊飛的語音識別系統將不斷挑戰新的高峰！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語音識別

語音識別

+關注

關注
38

文章
1739

瀏覽量
112660
深度學習

深度學習

+關注

關注
73

文章
5503

瀏覽量
121162

科大訊飛發布訊飛星火4.0 Turbo大模型及星火多語言大模型

近日，科大訊飛正式推出了其最新研發成果——訊飛星火4.0 Turbo大模型。這一發布不僅標志著

發表于 10-24 13:58 ?386次閱讀

科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

10月24日，在科大訊飛全球1024開發者節上，科大訊飛董事長劉慶峰正式發布了

發表于 10-24 11:39 ?451次閱讀

科大訊飛AI總部園區正式啟用

近日，安徽省科技創新領域迎來又一重大里程碑，科大訊飛AI總部園區（訊飛小鎮）正式宣告啟用，標志著

發表于 09-03 16:06 ?638次閱讀

科大訊飛發布訊飛星火大模型V4.0

在科技創新的浪潮中，科大訊飛再度引領潮流，于北京隆重發布了訊飛星火大模型V4.0及其在多領域的人工智能應用。此次更新不僅標志著

發表于 07-01 10:33 ?877次閱讀

車載語音識別系統語音數據采集標注案例

車載語音識別系統是指利用機器學習算法實現的一種自然語言處理技術，載語音識別系統通過辨別聲音的語調

發表于 06-19 15:52 ?362次閱讀

車載<b class='flag-5'>語音</b><b class='flag-5'>識別系統</b><b class='flag-5'>語音</b>數據采集標注案例

車載語音識別系統語音數據采集標注案例

車載語音識別系統是指利用機器學習算法實現的一種自然語言處理技術，載語音識別系統通過辨別聲音的語調

發表于 06-19 15:49 ?515次閱讀

科大訊飛星火大模型新添功能，語音臺歷即將面世

　4月26日，科大訊飛宣布訊飛星火大模型V3.5春季更新，新增功能包括：支持長文本、長圖文、長語音

發表于 04-28 11:30 ?508次閱讀

科大訊飛華中總部已封頂年內交付使用

科大訊飛華中總部已封頂年內交付使用科大訊飛華中總部位于武漢經開區車谷資本島，投資額50億；計

發表于 04-16 14:49 ?1554次閱讀

科大訊飛子公司訊飛醫療正式申請港交所上市

科大訊飛旗下控股子公司訊飛醫療已于1月26日正式向港交所遞交上市申請，計劃在香港主板上市。這是科大

發表于 02-04 13:57 ?1289次閱讀

科大訊飛發布“訊飛星火V3.5”：基于全國產算力訓練的全民開放大模型

科大訊飛，作為中國領先的智能語音和人工智能公司，近日宣布推出首個基于全國產算力訓練的全民開放大模型“訊飛

發表于 02-04 11:28 ?1509次閱讀

科大訊飛發布星火語音大模型

科大訊飛行業資訊

北京中科同志科技股份有限公司
發布于 :2024年01月31日 09:17:28

恩智浦發布新一代智能語音技術組合的語音識別引擎

恩智浦發布新一代智能語音技術組合的語音識別引擎。本文將探討開發人員在嵌入式語音控制設計中面臨的挑

發表于 01-26 09:15 ?761次閱讀

舒適打字體驗與強大功能合一：科大訊飛AI智能鍵盤D1的優勢解析

，能有效提高我們的工作效率。二、語音輸入，解放雙手在忙碌的工作中，我們經常需要快速輸入大量文字。科大訊飛AI智能鍵盤D1配備了高效的語音

發表于 01-03 11:04 ?636次閱讀

科技創新與智能助力：揭秘科大訊飛智能鍵盤D1的獨特魅力

魅力，從多個功能角度進行介紹，并探討其適用于年會采購、企業送禮以及辦公采購等場景。 ? 一、語音翻譯：打破語言壁壘智能鍵盤D1搭載了科大訊

發表于 01-03 11:02 ?648次閱讀

科大訊飛AI機械鍵盤D1的前瞻性設計：告別傳統，迎接智能化時代

隨著科技的飛速發展，智能化時代已經來臨。作為新一代的辦公利器，科大訊飛AI智能鍵盤D1以其前瞻性的設計，將辦公體驗提升到了全新的高度。一、

發表于 12-29 16:22 ?846次閱讀