無論是《2011太空漫游》中的 HAL 還是《星球大戰》中的 C-3PO,人們長期以來一直幻想著能夠與機器對話。
從智能手機助手到智能家居系統,再到車載語音控制系統,語音識別技術如今似乎已成為生活中不可或缺的一部分。但在某些場景,表現得并不如人意。“肌肉”和“雞肉”、“北麓”和“北路”,語言的歧義性、語境的依賴性,以及溝通雙方所需的共同知識背景,都是當前需要克服的難題。
美國學者愛德華·霍爾在1976年的著作《超越文化》中,提出了“高語境文化”與“低語境文化”的概念。高語境文化,被認為是一種注重細節、強調推斷和推理、強調群體認同和文化多樣性的文化。中文,是其中典型的代表。因此,在電影《流浪地球》中我們可以看到這樣的場景,MOSS與劉培強的交流中,多次強調避免使用比喻、反問和暗示,以減少理解上的誤差。
不僅是中文,不同語言之間在語音、語法、詞匯上的差異,以及個體獨特的口音和發音習慣,都為語音識別技術帶來了額外的挑戰。
在語音識別技術的應用已相當成熟、跨文化交流增多的今天,如何進一步提高語音識別的準確率,改善人機交互體驗,為人與人之間交流打破國界、地域的阻礙?
深耕語音技術領域25年,在AI技術飛速躍遷的今天,科大訊飛發布了語音識別大模型,將語音識別的準確率和多語種識別的效果,提升到了一個新的高度。
01無處不在,語音識別持續進化
技術角度來看,語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智能等基礎學科和前沿學科。簡而言之,它的核心任務是將輸入的語音信號轉換為與之匹配度最高的文字序列。
1952年,貝爾實驗室研制出世界上第一個能識別10個英文數字發音的實驗系統,揭開了人類使用計算機識別語音的序幕。進入90年代,伴隨個人電腦和互聯網普及,語音識別逐漸走出實驗室,走進公眾視野。2009年之后,深度神經網絡(DNN)的引入,使得語音識別的準確率顯著提升,相關產品開始大規模普及,技術進入新的發展階段,深入到我們日常生活的方方面面。
大模型技術引爆的人工智能新一輪應用熱潮,其感知能力、認知能力、生成能力正重構人機交互方式,不斷刷新用戶期待,在千行百業落地應用。語音識別作為最早落地的人工智能技術之一,也悄然發生著變革。
經過海量數據訓練、擁有強大自然語言理解能力的大模型,給語音研究帶來了新的技術邏輯,創造了語音技術發展的全新機會。
通過學習更多的語言知識和上下文信息,大模型能實現更精準的語義理解,準確識別出語音內容;同時,基于更統一的多任務建模能力,通過在中文、英文和其他語種的語料上進行訓練,有助于提升語料稀缺小語種的效果。
科大訊飛作為語音領域的佼佼者,如今正在引領著語音識別技術的未來發展。
02語音行業翹楚,首發星火語音大模型
智能語音是萬物互聯機器溝通的入口,也是人工智能賦能千行萬業、浸潤千家萬戶的秘鑰。
25年前創業之初,科大訊飛的夢想和使命就是要實現人機信息溝通無障礙,并始終保持初心,長期致力于智能語音技術的源頭創新及產業化應用。
從2010年國內首批開展深度神經網絡語音識別研究,到全球首個中文語音識別深度神經網絡(DNN)上線、循環神經網絡(RNN)語音識別全面升級、全球首創基于全序列卷積神經網絡(DFCNN)的語音識別,再到近幾年持續探索無監督預訓練、多模態在語音識別上的應用,訊飛不斷挑戰語音識別實際應用中的技術難題。
2023年,在有“最難語音識別任務”之稱的語音領域權威賽事——國際多通道語音分離和識別大賽CHiME中,訊飛在大牛如云的參賽隊伍中,力壓群雄,第四次拿下冠軍。
除中英以外,科大訊飛已具備其他69種語言的語音識別能力,其中有35個語種準確率超過90%(數據來源于實際應用)。同時,訊飛開放平臺還在新加坡、俄羅斯、印度、日本等國家部署了海外站點,將語音識別、語音合成等技術,開放給海內外開發者。
大模型時代浪潮下,科大訊飛基于深厚的技術積累,2024年1月31日正式推出星火語音大模型,引領萬物互聯時代的人機交互革命。在語音識別方面,中文、英語、法語、俄語等首批37個主流語種的語音識別效果超過OpenAI Whisper V3。其中,13個重點語種識別率達94%,24個主要語種識別率達90%。
03高準確率+高識別率 語音識別大模型上線
讓更多人能享受到新技術帶來的便利,近期,基于星火語音大模型的語音識別大模型已在訊飛開放平臺上線,面向開發者開放調用,可以將短音頻(≤60秒)精準識別成文字,除中文普通話和英文外,支持37個語種自動判別,說話過程中可以無縫切換語種,實時返回對應語種的文字結果,并提供公有云接口及私有化部署方案。
與傳統的語音識別產品相比,語音識別大模型有著獨特的優勢:
高識別率,高準確率
基于統一建模的星火多語種語音識別大模型,極大提升了語音識別準確度,真實還原語音內容,提高信息獲取效率
多語種自動判別
支持中文、英語、日語、韓語、俄語、法語等37個語種的自動判別,在說話過程中可以無縫切換語種,助力跨文化交流更自由
指定語種準確率更高
對于已明確語種的場景,也可以指定語種進行識別,進一步提升正確率
智能標點
數字、標點、大小寫和識別結果同步預測,使口語表達變規整,帶來更流暢的閱讀體驗
在開發者資源方面,除了基礎的WebAPI,訊飛開放平臺還提供了不同平臺的SDK,包括Android、Linux、iOS、Windows,幫助開發者將語音識別大模型能力快速集成到產品中。
目前,語音識別大模型能力已搭載在訊飛星火APP和訊飛翻譯機等產品中。
打開訊飛星火APP,用語音與星火進行對話,你所說的語音會快速被識別為精準的文字,讓你直觀感受到語音識別大模型帶來的高準確率和高識別率。
持續進步的語音識別技術正進一步拓展人機交互的場景邊界,在客戶服務、語音搜索、游戲娛樂、會議記錄、教育培訓等領域,為人類帶來更加便捷、高效和智能的生活方式。
正如梅拉妮·米歇爾在《AI 3.0》書中強調,自動語音識別是深度學習在自然語言處理中的第一個重大成就,也是迄今為止人工智能在所有領域中取得的最重要的成就。這不僅是對語音識別技術的認可,更是對未來人機交互無限可能的預示。
點擊閱讀原文,免費領取語音識別大模型試用包,至高20萬次服務量(中文)。
文末彩蛋
2023年,科大訊飛與統信軟件宣布達成戰略合作,充分發揮各自技術和產品優勢,共同探索新的商業模式,推動AI技術在各行各業的深度應用。
統信軟件是全球主流操作系統產品與服務提供商,統信UOS桌面版發貨量累計超過600萬,服務器版發貨量增速更是位列行業前列。
近日,訊飛星火、訊飛智文已正式上架統信應用商店,讓全球用戶可通過統信應用商店一鍵輕松暢享AI樂趣,感受前所未有的便捷應用與服務體驗。
-
AI
+關注
關注
87文章
30897瀏覽量
269111 -
語音識別
+關注
關注
38文章
1739瀏覽量
112662 -
科大訊飛
+關注
關注
19文章
801瀏覽量
61262
原文標題:對標Open AI Whisper,語音識別進入下一個 level
文章出處:【微信號:訊飛開放平臺,微信公眾號:訊飛開放平臺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論