電子發燒友網報道(文/李彎彎)語音識別是人工智能的重要分支之一,早在2010年開始就得到發展,并且逐漸在各個領域成熟應用。不過AI語音芯片和算法的研發仍然面臨眾多難題,不少企業為此堅持研究,不斷對技術和產品進行迭代升級,以求取得突破。
啟英泰倫是國內領先的AI語音芯片企業,日前,該公司正式發布了全新的第三代智能語音芯片系列,相比于上一代產品,這款芯片創下了算力更高、高度集成和算法新高的記錄,進一步解決了業界長久以來難以突破的難題。
AI語音芯片研發面臨哪些難題
近幾年,AI語音芯片在智能家居、智能車載、智能穿戴等領域的滲透率快速提升,未來隨著技術的不斷迭代,AI語音芯片在各領域的滲透率和市場規模將會持續擴大。
智能家居方面,當前隨著AI語音芯片的價格已經大幅下降,越來越多的廠商傾向于采用AI語音芯片,來替代傳統的AP及MCU芯片和IOT芯片,如今AI語音芯片在風扇、茶吧機、取暖桌、空調、插座等眾多領域已經開始大規模批量應用。根據調研數據預測,未來5年AI語音芯片在智能家居領域的市場規模將能達到每年2.5億顆。
智能汽車方面,目前智能汽車中的語音交互多是在云端進行識別處理,然而云端的方式存在無法實時響應、網絡無連接時不能使用等問題,因此業界認為端側語音芯片將會很好的補充云端芯片的不足,預計未來端側AI語音芯片在車載領域的市場需求每年能達到1億顆左右。
智能穿戴方面,未來隨著芯片尺寸越來越小,成本越來越低,AI語音芯片在穿戴設備上的應用將會越來越多,預計該市場對AI語音芯片的市場需求每年會在千萬顆左右。
除了上述市場之外,AI語音芯片還可以在醫療設備、機器人、工業檢測等領域得到應用,整體來看,預計未來幾年AI語音芯片的市場規模將會快速發展到每年5到10億顆,隨著應用不斷拓寬和滲透率不斷提升,市場規模可能還將持續不斷提升。
雖然存在較大的市場,然而企業在AI語音識別芯片和算法的研發也面臨眾多需要不斷攻克的難題,在此次發布會上,啟英泰倫創始人兼CEO何云鵬提到了幾點:
1、各種應用場景存在復雜的背景噪聲,會影響識別,比如廚電的煙機噪聲、炒菜聲,客廳的電視聲、音樂聲,會場的多人聲、賣場的高音喇叭聲等;2、人類語言種類繁多,如果考慮各地的方言口音,幾乎沒辦法通過大數據訓練模型,來滿足所有地域口音的識別;3、人類語言的表達非常豐富,要想在設備端實現對任意語言表達的意圖理解,也十分困難。
同時,電子設備的發展往往要求在性能或價格上,能夠不斷改進,這些對于AI語音芯片的研發來說,都是比較大的挑戰。
算法、芯片上不斷升級,攻克一個個難題
如何解決這些難題呢?一直以來,啟英泰倫堅持在芯片和算法兩方面不斷發力,力求攻克一個個業內難題。截至目前,啟英泰倫的技術平臺BNPU(腦神經網絡處理器)已經迭代三次,從BNPU1.0,BNPU2.0,到BNPU3.0。何云鵬表示,每一代BNPU的問世,都是離線語音芯片和算法的一次突破和語音應用的助推。
具體來看,集成BNPU1.0的一代芯片C11006/CI1002,實現的是端側語音識別,這是行業首款集成神經網絡處理器的語音AI芯片,是離線語音產業應用興起的標志;集成BNPU2.0的二代芯片CI1102/CI1103及CI1122,不僅實現了離線語音識別功能,還實現了離線聲紋識別和命令詞自學習等功能。
每顆芯片的迭代,集成度不斷增加,成本快速下降,算法功能不斷提升。據何云鵬介紹,集成度上,二代系列芯片集成了Audio CODEC、Flash等單元,增加了雙麥陣增強處理能力;成本上,一代芯片CI1006成本價為50到90元,CI1102下降到30到40元,二代芯片CI1102/CI1103為15元到25,CI1122下降到了10元到15元之間;算法上,正常安靜家居環境下,識別都達到98%以上,65dB左右中強環境噪聲下也能實現較好的識別效果。
發布全新三代芯片,端側NLP技術實現自然語音交互
盡管過去幾年在算法和芯片上不斷提升,逐漸解決了業界面臨的一些難題,然而整個行業仍然存在極難克服的問題,比如:1、離線語音仍然是以命令詞為主,對于用戶來說,如果命令詞多的話,就會很難記住;2、電視新聞,多人聲環境,以及噪聲強度達到75dB以上的復雜強噪聲環境的識別存在困難;3、離線命令詞自學習的效果,與大數據訓練模型效果仍然存在明顯差距,這使得方言問題沒有得到徹底解決。
為了攻克這些難題,啟英泰倫經過三年時間研發,最終帶來BNPU3.0版本,并基于此發布了三代兩大系類芯片,一大系列是三代智能語音MCU13;另一大系列是智能語音IOT 23。
相比之前的芯片,三代系列芯片具有更高算力、更高集成度,更高性能。首先看CI13系列芯片,算力方面,該系列內置BNPU 3.0,支持DSP指令擴展的RISC CPU兩大內核,主頻高達240MHz,具有640KB SRAM,而二代芯片主頻是160MHz,內置BNPU2.0,512KB SRAM。
集成度方面,CI13系列芯片集成了Audio Codec模擬MIC接口、數字PDM麥克DMIC接口、通用ADC及MCU常見串口、PWM、GPIO等接口,還集成了4線NOR Flash、3路LDO PMU、高精度RC振蕩器等。
通過接上MIC,簡單的語音識別應用,外圍電路僅需十幾個電阻電容,多數情況下可以不需要加晶振;通過串口可以擴展上位機MCU,或WiFi、BLE、2.4G等射頻芯片;通過通用ADC或IIC可以輸入溫度、濕度等傳感器信號;通過PWM或其它GPIO,可以實現對開關控制、電機控制、SPI屏或段碼屏顯示控制、紅外收發控制等。這樣,CI13系列芯片既可以作為語音識別或語音信號處理的專用芯片,也可以作為帶語音識別功能的MCU主控芯片。
算法方面,CI13系列芯片幾乎支持全部信號處理和識別技術,包括單麥自適應降噪、降混響、回聲消除、DOA、波束形成、盲源分離、語音活動檢測等傳統信號技術。
除了具有二代芯片的語音識別、聲紋識別外,三代CI13系列芯片還支持基于深度學習的降噪技術(深度降噪)、人聲分離技術(深度分離)、以及離線NLP技術。深度降噪技術能在信噪比-5dB 到-10dB的環境噪聲下將人聲提取出來,實現良好識別。
端側NLP技術在原來的聲學模型、語言模型的基礎上增加了意圖模型,該意圖模型采用聯合規則和統計訓練的模型來實現端側語音識別+語義理解。端側NLP技術具備上下文關聯、多輪對話、意圖理解等云端NLP的功能,該技術的突破,使得設備徹底不需要依賴云端,也可以實現自然隨心的語音交互。
接下來看三代芯片CI23系列CI2305 和CI2306,CI23系列芯片在語音功能和性能與CI13系列芯片相同,主要增加集成了WiFi和BLE,形成語音+WiFi+BLE三合一單芯片,其中CI2305支持離線語音+IOT,CI2306還支持將語音上傳,實現離線語音+在線語音+IOT功能。
何云鵬認為對設備控制交互在本地計算會更好,這樣可以解決云端計算帶來的響應延遲太大體驗差,斷網無法使用及用戶隱私泄露風險,以及云端建設和運營成本太高等問題。
除了不斷升級芯片算法性能,降低芯片方案成本,啟英泰倫還持續提升應用開發平臺和合作生態建設,努力降低AI語音應用的門檻。
據啟英泰倫介紹,經過近7年發展,公司已經積累B端客戶超過5000名,平臺開發者超過了1萬名,使用啟英泰倫智能語音平臺的在校AI學員超過10萬名。現在,離線語音方案的年裝機量超過2000萬,并正快速向上億年裝機量發展。
小結
經過過去這些年的發展,語音交互逐漸進入人們的生活,并帶來極大的便利,然而不可否認的是,背景噪聲大影響語音識別的準確性,命令詞太多容易記不住等問題依然存在,而啟英泰倫發布的第三代語音芯片,通過算力、集成度、算法的不斷升級,完美解決了這些問題,隨著各項難題的進一步突破,預計未來AI語音芯片將會在更多的場景中得到更好的應用。
啟英泰倫是國內領先的AI語音芯片企業,日前,該公司正式發布了全新的第三代智能語音芯片系列,相比于上一代產品,這款芯片創下了算力更高、高度集成和算法新高的記錄,進一步解決了業界長久以來難以突破的難題。
AI語音芯片研發面臨哪些難題
近幾年,AI語音芯片在智能家居、智能車載、智能穿戴等領域的滲透率快速提升,未來隨著技術的不斷迭代,AI語音芯片在各領域的滲透率和市場規模將會持續擴大。
智能家居方面,當前隨著AI語音芯片的價格已經大幅下降,越來越多的廠商傾向于采用AI語音芯片,來替代傳統的AP及MCU芯片和IOT芯片,如今AI語音芯片在風扇、茶吧機、取暖桌、空調、插座等眾多領域已經開始大規模批量應用。根據調研數據預測,未來5年AI語音芯片在智能家居領域的市場規模將能達到每年2.5億顆。
智能汽車方面,目前智能汽車中的語音交互多是在云端進行識別處理,然而云端的方式存在無法實時響應、網絡無連接時不能使用等問題,因此業界認為端側語音芯片將會很好的補充云端芯片的不足,預計未來端側AI語音芯片在車載領域的市場需求每年能達到1億顆左右。
智能穿戴方面,未來隨著芯片尺寸越來越小,成本越來越低,AI語音芯片在穿戴設備上的應用將會越來越多,預計該市場對AI語音芯片的市場需求每年會在千萬顆左右。
除了上述市場之外,AI語音芯片還可以在醫療設備、機器人、工業檢測等領域得到應用,整體來看,預計未來幾年AI語音芯片的市場規模將會快速發展到每年5到10億顆,隨著應用不斷拓寬和滲透率不斷提升,市場規模可能還將持續不斷提升。
雖然存在較大的市場,然而企業在AI語音識別芯片和算法的研發也面臨眾多需要不斷攻克的難題,在此次發布會上,啟英泰倫創始人兼CEO何云鵬提到了幾點:
1、各種應用場景存在復雜的背景噪聲,會影響識別,比如廚電的煙機噪聲、炒菜聲,客廳的電視聲、音樂聲,會場的多人聲、賣場的高音喇叭聲等;2、人類語言種類繁多,如果考慮各地的方言口音,幾乎沒辦法通過大數據訓練模型,來滿足所有地域口音的識別;3、人類語言的表達非常豐富,要想在設備端實現對任意語言表達的意圖理解,也十分困難。
同時,電子設備的發展往往要求在性能或價格上,能夠不斷改進,這些對于AI語音芯片的研發來說,都是比較大的挑戰。
算法、芯片上不斷升級,攻克一個個難題
如何解決這些難題呢?一直以來,啟英泰倫堅持在芯片和算法兩方面不斷發力,力求攻克一個個業內難題。截至目前,啟英泰倫的技術平臺BNPU(腦神經網絡處理器)已經迭代三次,從BNPU1.0,BNPU2.0,到BNPU3.0。何云鵬表示,每一代BNPU的問世,都是離線語音芯片和算法的一次突破和語音應用的助推。
具體來看,集成BNPU1.0的一代芯片C11006/CI1002,實現的是端側語音識別,這是行業首款集成神經網絡處理器的語音AI芯片,是離線語音產業應用興起的標志;集成BNPU2.0的二代芯片CI1102/CI1103及CI1122,不僅實現了離線語音識別功能,還實現了離線聲紋識別和命令詞自學習等功能。
每顆芯片的迭代,集成度不斷增加,成本快速下降,算法功能不斷提升。據何云鵬介紹,集成度上,二代系列芯片集成了Audio CODEC、Flash等單元,增加了雙麥陣增強處理能力;成本上,一代芯片CI1006成本價為50到90元,CI1102下降到30到40元,二代芯片CI1102/CI1103為15元到25,CI1122下降到了10元到15元之間;算法上,正常安靜家居環境下,識別都達到98%以上,65dB左右中強環境噪聲下也能實現較好的識別效果。
發布全新三代芯片,端側NLP技術實現自然語音交互
盡管過去幾年在算法和芯片上不斷提升,逐漸解決了業界面臨的一些難題,然而整個行業仍然存在極難克服的問題,比如:1、離線語音仍然是以命令詞為主,對于用戶來說,如果命令詞多的話,就會很難記住;2、電視新聞,多人聲環境,以及噪聲強度達到75dB以上的復雜強噪聲環境的識別存在困難;3、離線命令詞自學習的效果,與大數據訓練模型效果仍然存在明顯差距,這使得方言問題沒有得到徹底解決。
為了攻克這些難題,啟英泰倫經過三年時間研發,最終帶來BNPU3.0版本,并基于此發布了三代兩大系類芯片,一大系列是三代智能語音MCU13;另一大系列是智能語音IOT 23。
相比之前的芯片,三代系列芯片具有更高算力、更高集成度,更高性能。首先看CI13系列芯片,算力方面,該系列內置BNPU 3.0,支持DSP指令擴展的RISC CPU兩大內核,主頻高達240MHz,具有640KB SRAM,而二代芯片主頻是160MHz,內置BNPU2.0,512KB SRAM。
集成度方面,CI13系列芯片集成了Audio Codec模擬MIC接口、數字PDM麥克DMIC接口、通用ADC及MCU常見串口、PWM、GPIO等接口,還集成了4線NOR Flash、3路LDO PMU、高精度RC振蕩器等。
通過接上MIC,簡單的語音識別應用,外圍電路僅需十幾個電阻電容,多數情況下可以不需要加晶振;通過串口可以擴展上位機MCU,或WiFi、BLE、2.4G等射頻芯片;通過通用ADC或IIC可以輸入溫度、濕度等傳感器信號;通過PWM或其它GPIO,可以實現對開關控制、電機控制、SPI屏或段碼屏顯示控制、紅外收發控制等。這樣,CI13系列芯片既可以作為語音識別或語音信號處理的專用芯片,也可以作為帶語音識別功能的MCU主控芯片。
算法方面,CI13系列芯片幾乎支持全部信號處理和識別技術,包括單麥自適應降噪、降混響、回聲消除、DOA、波束形成、盲源分離、語音活動檢測等傳統信號技術。
除了具有二代芯片的語音識別、聲紋識別外,三代CI13系列芯片還支持基于深度學習的降噪技術(深度降噪)、人聲分離技術(深度分離)、以及離線NLP技術。深度降噪技術能在信噪比-5dB 到-10dB的環境噪聲下將人聲提取出來,實現良好識別。
端側NLP技術在原來的聲學模型、語言模型的基礎上增加了意圖模型,該意圖模型采用聯合規則和統計訓練的模型來實現端側語音識別+語義理解。端側NLP技術具備上下文關聯、多輪對話、意圖理解等云端NLP的功能,該技術的突破,使得設備徹底不需要依賴云端,也可以實現自然隨心的語音交互。
接下來看三代芯片CI23系列CI2305 和CI2306,CI23系列芯片在語音功能和性能與CI13系列芯片相同,主要增加集成了WiFi和BLE,形成語音+WiFi+BLE三合一單芯片,其中CI2305支持離線語音+IOT,CI2306還支持將語音上傳,實現離線語音+在線語音+IOT功能。
何云鵬認為對設備控制交互在本地計算會更好,這樣可以解決云端計算帶來的響應延遲太大體驗差,斷網無法使用及用戶隱私泄露風險,以及云端建設和運營成本太高等問題。
除了不斷升級芯片算法性能,降低芯片方案成本,啟英泰倫還持續提升應用開發平臺和合作生態建設,努力降低AI語音應用的門檻。
據啟英泰倫介紹,經過近7年發展,公司已經積累B端客戶超過5000名,平臺開發者超過了1萬名,使用啟英泰倫智能語音平臺的在校AI學員超過10萬名。現在,離線語音方案的年裝機量超過2000萬,并正快速向上億年裝機量發展。
小結
經過過去這些年的發展,語音交互逐漸進入人們的生活,并帶來極大的便利,然而不可否認的是,背景噪聲大影響語音識別的準確性,命令詞太多容易記不住等問題依然存在,而啟英泰倫發布的第三代語音芯片,通過算力、集成度、算法的不斷升級,完美解決了這些問題,隨著各項難題的進一步突破,預計未來AI語音芯片將會在更多的場景中得到更好的應用。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
芯片
+關注
關注
456文章
51090瀏覽量
425959 -
啟英泰倫
+關注
關注
1文章
48瀏覽量
1488
發布評論請先 登錄
相關推薦
2024年星閃進入規模商用快車道
2023年是星閃商用元年,2024年星閃進入規模商用快車道,預計到年底星閃應用將超過100個品類。我們相信星閃一定會為千行百業的無數應用場景帶來全新的創新機遇。
成都市經信局市新經濟委黨組書記趙春淦一行調研啟英泰倫
7月2日,成都市經信局市新經濟委黨組書記趙春淦率隊,成都市經信局副局長蒲斌、機關黨委書記丁琴等領導陪同調研了成都人工智能企業-啟英泰倫。此次調研旨在了解
**十萬級口語識別,離線自然說技術,讓智能照明更懂你**
固定詞條等。針對這些問題,啟英泰倫現已推出成熟的可應用于照明設備的離線自然說方案,該方案已在多家智能照明廠商最新產品上實現應用落地。
照明
發表于 04-29 17:09
評論