隨著人工智能技術的發展,支持遠場語音交互的智能家居產品越來越受到大眾青睞。近日,智能投影領先品牌堅果發布了全球首款支持遠場語音交互的人工智能4K投影儀——J7S智能投影儀,這款投影儀采用阿里人工智能實驗室與聲智科技聯合為其開發的專為智能投影定制的遠場智能語音交互技術,讓傳統的按鍵交互變成免遙控器,一句話即可控制的自然語音交互。
低功耗高集成算法,極速喚醒識別體驗
作為業界首款支持遠場語音識別的智能投影儀,堅果J7S智能投影儀在堅果J7旗艦投影儀的基礎上進行了全新升級,內置Mstar6A838四核A53架構旗艦級智能電視芯片,支持4K高清片源解碼播放。在原有功能的基礎上增加了AI遠場語音、MEMC運動補償等功能,新增兒童觀影模式,并在畫質色彩、散熱、系統等諸多方面進行優化升級,帶給用戶更智能更貼心的大屏使用體驗。
為打造4K高清觀影效果,堅果J7S智能投影儀在播放高清視頻過程中將CPU的運行資源絕大部分都用于進行視頻處理。因此,這就要求聲學處理算法需要在CPU占用少、算力低等諸多高要求的情況下,為用戶提供流暢的智能交互體驗。
根據CPU算力要求,聲智科技重新優化算法,訓練模型,提升喚醒率和喚醒速度,不斷降低CPU占用率,最終推出了新一代SoundAI Azero低功耗遠場語音喚醒識別算法,該算法計算量小且內存占用量少,成功應對更復雜的應用場景并提高準確度,保證CPU的順暢運行,為用戶提供高清視頻播放的前提下打造極速的喚醒和識別速度體驗。搭載聲智科技SoundAI Azero系統的堅果J7S已達到將機器應答時間控制在400~500毫秒的領先水平,從喚醒到內容的全鏈條響應速度已實現全球領先的1.4s內,確保了更人性化的智能交互速度。
獨家優化降噪喚醒技術,流暢人機交互體驗
堅果J7S智能投影儀內置聲智科技遠場智能交互系統SoundAI Azero,采用4麥環形麥克風陣列設計,以及針對投影儀應用場景優化的遠場語音識別、噪聲抑制、語音喚醒等核心算法,首次有效解決了智能投影儀應用場景中信號失真、回聲抵消等問題,打造無障礙人機交互體驗。
投影儀因其特殊的結構設計,在遠場聲學處理過程中需要應對密封性不足、自噪聲干擾大等問題,以提高喚醒和識別的準確率。為實現音視頻播放時的立體聲效果,堅果J7S智能投影儀內置2枚5W的高品質對稱式揚聲器,搭配高保真四向發聲環繞技術,但也對語音信號的拾取造成了極大干擾。同時,為了具有更好的散熱性能,堅果J7S采用了渦輪增壓散熱設計,風扇運行時的噪聲會干擾到交互時的識別率和喚醒率。
針對智能投影儀真實應用環境中的特殊噪聲,聲智科技遠場智能交互系統SoundAI Azero推出了一系列優化的語音喚醒核心算法和識別算法,包括聲源測向、波束形成、噪聲抑制、抗強噪聲喚醒(AKS)和回聲抵消等,在保護主方向語音不失真的前提下,抑制環境中的語音等非穩態噪聲以及空調等其他平穩噪聲的干擾,增強語音清晰度,賦予堅果J7S以更靈敏的人機交互能力。
場景化語音識別技術,賦能智能語義理解
智能投影儀在真實應用場景中,不可避免地要面對用戶指令中的網絡熱詞,這就對語音識別和語義理解能力提出了更高要求,要求設備可以快速的識別特定詞并作出準確解讀。
聲智科技SoundAI Azero系統為堅果J7S智能投影儀提供的遠場語音識別解決方案,采用貝葉斯學習框架,基于神經網絡,提取用戶語音數據特征,進行聲學和語言建模,動態生成最優識別結果,讓用戶可享受便捷的語音識別服務。
同時,智能投影儀的識別更偏向于影音娛樂領域,為此,聲智科技運用了場景化任務識別數據系統,強化場景特點的訓練與學習,結合用戶習慣,讓對用戶語言的識別與解讀更合情理。聲智科技ASR算法的識別效果已達到行業領先水平,可支持各類媒體類熱詞,將誤識別率控制在極低水平內,譬如不會將“黃金瞳”誤識別為“黃巾同”。
在高精度的語音識別基礎之上,如何對轉化為文本的用戶指令信息進行高效準確的解碼,是自然語言處理技術的應用價值所在。聲智科技遠場智能交互系統SoundAI Azero的自然語言處理解決方案,基于雙向循環神經網絡和條件隨機場模型,提取實體信息,對文本進行分詞處理,通過規則匹配生成有效信息邏輯排列,運用樹形結構模型,聯系上下文邏輯,推理出用戶的意圖,實現“聽你所言,知你所想”的完美體驗。
隨著智能交互技術在越來越多的硬件產品中落地,萬物互聯的生態圈將得到進一步豐富,越來越多的智能交互場景落地。聲智科技將持續專注聲學語音技術和場景語義技術的創新與應用,攜手合作伙伴,共建智慧未來。
-
人工智能
+關注
關注
1791文章
47279瀏覽量
238493 -
語音交互
+關注
關注
3文章
286瀏覽量
28015 -
智能投影
+關注
關注
0文章
30瀏覽量
7353
發布評論請先 登錄
相關推薦
評論