近年來,人工智能技術(shù)快速發(fā)展,與其他行業(yè)的結(jié)合也成為業(yè)界不斷探索的方向。在人工智能基礎(chǔ)和工具方面,AI平臺(tái)已成為降低人工智能門檻的關(guān)鍵因素;而在人工智能應(yīng)用方面,作為最成熟的應(yīng)用方向之一,智能語音已在智能家居、智能車載等領(lǐng)域有了迅猛發(fā)展。以騰訊為代表的巨頭企業(yè),憑借強(qiáng)大的技術(shù)積累和在社交聊天、游戲娛樂等垂直領(lǐng)域定制化服務(wù)的豐富經(jīng)驗(yàn),在AI平臺(tái)和智能語音兩方面都推出了豐富的解決方案。
9 月 15 日,以“破局人工智能:AI平臺(tái)及智能語音應(yīng)用解析”為題的沙龍?jiān)谏虾Ee辦,本次活動(dòng)由 CSDN、騰訊云聯(lián)合主辦。
本次分享從人工智能技術(shù)的大背景切入,根據(jù)技術(shù)發(fā)展現(xiàn)狀講述AI平臺(tái)如何降低人工智能門檻,幫助企業(yè)快速構(gòu)建AI能力;以及深度學(xué)習(xí)在語音識(shí)別上的應(yīng)用,語音技術(shù)在智能音箱等場(chǎng)景中的應(yīng)用和解決方案,并探討智能語音的未來發(fā)展趨勢(shì)。
騰訊云大數(shù)據(jù)的高級(jí)研究員羅冬日講述了“深度學(xué)習(xí)在語音識(shí)別上的應(yīng)用”。為什么現(xiàn)在語音識(shí)別的準(zhǔn)確率得到大幅提升?他給出了三點(diǎn)原因:
一是互聯(lián)網(wǎng)存儲(chǔ)了大量的語音數(shù)據(jù);
二是GPU/CPU硬件的計(jì)算速度有量級(jí)的提升;
三是深度學(xué)習(xí)算法方面的應(yīng)用。
關(guān)于深度學(xué)習(xí)在聲學(xué)模型上的應(yīng)用,羅冬日主要講述了 DNN、LSTM、CLDNN 三種深度學(xué)習(xí)網(wǎng)絡(luò)。
首先是 DNN,輸入一幀數(shù)據(jù),然后得到發(fā)音單元的分類結(jié)果;LSTM 單元會(huì)利用到分割時(shí)間點(diǎn)的一些數(shù)據(jù)源輔助判斷當(dāng)前數(shù)據(jù)如何分類,當(dāng)然雙向的 LSTM 效果會(huì)更好;CLDNN 是比較成熟和穩(wěn)定的一種結(jié)構(gòu),在卷積網(wǎng)絡(luò)后面再接 LSTM,后來再接 Dense,有一些高效的企業(yè)會(huì)提出更加新的網(wǎng)絡(luò),最后的識(shí)別效果也會(huì)更好。
此外,還有端到端的識(shí)別方法,如 CTC、encoder—decoder+attention 以及 Google 的 LAS 模型。
羅冬日提到,雖然現(xiàn)在語音廠商們都稱語音識(shí)別的準(zhǔn)確率達(dá)到了 97%,但這是在安靜的情況下,如果是高噪音環(huán)境、口音識(shí)別或帶情緒的聲音情形下,還需采用更高質(zhì)量的陣列麥克風(fēng),更多的遠(yuǎn)場(chǎng)數(shù)據(jù),以及語義理解的輔助。
騰訊高級(jí)產(chǎn)品架構(gòu)師倪捷講述了智能語音擴(kuò)展數(shù)字化服務(wù)。他認(rèn)為,語音在數(shù)字化的時(shí)代重要性主要是用戶不斷追求更好人機(jī)交互體驗(yàn)的結(jié)果。
基于騰訊云的語音識(shí)別、語音合成等語音類能力,他介紹了一些實(shí)際應(yīng)用的解決方案。首先是直播安全的解決方案,除了基于圖像層面的鑒別外,還包括語音甚至音頻聲音識(shí)別的能力。其次是智慧法庭解決方案。以前的書記員需要做庭審記錄,但會(huì)遇到可讀性不強(qiáng)的問題,而語音識(shí)別技術(shù)則可對(duì)庭審記錄準(zhǔn)確轉(zhuǎn)寫,并且便于后續(xù)做檔案檢索。
還有客服質(zhì)檢,由于現(xiàn)在話務(wù)員跟客戶的對(duì)話質(zhì)量不可控,這就需要基于客服錄音做質(zhì)檢,但靠人工質(zhì)檢的方式耗時(shí)長(zhǎng),資源消耗大,而通過語音轉(zhuǎn)寫等技術(shù),在文字層面上就可通過關(guān)鍵詞或者特定業(yè)務(wù)邏輯對(duì)客服做評(píng)分。
攜程的客服服務(wù)使用的正是騰訊的語音識(shí)別技術(shù),其數(shù)據(jù)智能部總監(jiān)張童皓在隨后的演講中就旅游場(chǎng)景中的客服質(zhì)檢做了重點(diǎn)介紹。
他展示了智能質(zhì)檢的識(shí)別過程。通過標(biāo)注數(shù)據(jù)拿出來跟場(chǎng)景相關(guān)的關(guān)鍵詞做比對(duì),并對(duì)無用詞進(jìn)行刪除,通過雙向 LSTM+注意力機(jī)制,如果發(fā)現(xiàn)它跟現(xiàn)有的價(jià)格標(biāo)簽關(guān)聯(lián)度很高,就可以得出一個(gè)關(guān)聯(lián)關(guān)系。在這個(gè)過程當(dāng)中有可能關(guān)聯(lián)出降價(jià),然后打出來價(jià)格倒掛的標(biāo)簽,當(dāng)用戶在攜程上下了訂單后,如果發(fā)現(xiàn)酒店的價(jià)格比線上便宜很多,這個(gè)時(shí)候會(huì)打電話投訴。
他展望了智能質(zhì)檢的未來,利用 AI 技術(shù)未來可能會(huì)有一個(gè)永不離崗的資深高能質(zhì)檢員,使用 5 臺(tái)服務(wù)器,便可實(shí)現(xiàn)每日通話全覆蓋,已分類問題全時(shí)覆蓋,并對(duì)突發(fā)問題快速檢索;另外要打造出智能培訓(xùn)師,進(jìn)行高分低分對(duì)比,提煉金牌話術(shù);另外還有可能打造出實(shí)時(shí)輔導(dǎo)員,像在線知識(shí)庫那樣,讓坐席人員解決問題更有效率。
騰訊語音識(shí)別中心的專家研究員王珺則分享了智能音箱的語音識(shí)別技術(shù)。她講述了智能音箱語音交互技術(shù)的麥克風(fēng)陣列、聲紋識(shí)別、語音識(shí)別、語義理解和 TTS 五大鏈條,并對(duì)每個(gè)步驟做了前沿技術(shù)介紹。
關(guān)于基于喚醒詞的關(guān)鍵技術(shù),目前最新的技術(shù)有哪些缺陷?王珺表示,首先是拓展性差,并且專用隱層或?qū)S闷糜?xùn)練的方法不能有效捕獲目標(biāo)說話人特征。自適應(yīng)到目標(biāo)說話人的波束形成深度學(xué)習(xí)方法,目前最先進(jìn)的技術(shù)都要求平均至少 10s 的自適應(yīng)語音,遠(yuǎn)超真實(shí)應(yīng)用場(chǎng)景可接受的自適應(yīng)語音(例如喚醒詞)長(zhǎng)度,可用性差,不易落地。
而騰訊的基于喚醒詞信息的目標(biāo)說話人語音提取技術(shù)的攻關(guān)目標(biāo),在性能上更優(yōu),包括在信號(hào)的失真比、主觀語音質(zhì)量評(píng)估、干擾說話人數(shù)、魯棒性。而且從系統(tǒng)實(shí)時(shí)性,模型參數(shù)復(fù)雜度全方面評(píng)估,另外還包括拓展性、擴(kuò)用性、深度研究?jī)r(jià)值等方面。
王珺還分享了端到端語言識(shí)別的 Attention 建模方法的關(guān)鍵技術(shù)點(diǎn),最前沿的序列到序列技術(shù)各有它們的優(yōu)缺點(diǎn):CTC 的方法是序列到序列前沿技術(shù)的經(jīng)典方法,它的優(yōu)勢(shì)是從左到右的序列到序列的模型,比較簡(jiǎn)單,解碼速度快;同時(shí)它的缺陷是模型建立的前提是假設(shè)當(dāng)前幀的輸出和之前的輸出標(biāo)注獨(dú)立。
基于 Attention 的優(yōu)點(diǎn)是什么?王珺解釋,它不需要假設(shè)與之前輸出標(biāo)注獨(dú)立,對(duì)下一層的預(yù)測(cè)可以用到聲學(xué)模型和語言模型的分析有自帶的語言模型方法。但是也有非常明顯的缺陷,Attention 缺乏從左到右的對(duì)齊限制。而CTC與Attention結(jié)合的方法可以得到正確的對(duì)齊結(jié)果。目前研究人員也在盡力的縮小它和經(jīng)典混合系統(tǒng)的差距。
騰訊高級(jí)產(chǎn)品經(jīng)理郭律探討了機(jī)器學(xué)習(xí)平臺(tái)與人工智能的關(guān)系。簡(jiǎn)單而言,把海量數(shù)據(jù)通過機(jī)器學(xué)習(xí)的手段來進(jìn)行處理,所形成的模型就是人工智能。所謂機(jī)器學(xué)習(xí)的本質(zhì),解決的就是“精細(xì)”問題。這其中有4個(gè)約束條件:
第一是業(yè)務(wù)場(chǎng)景,把業(yè)務(wù)問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的建模問題;
第二是海量數(shù)據(jù)的機(jī)器學(xué)習(xí),從原理上面基于統(tǒng)計(jì)來實(shí)現(xiàn);
第三是數(shù)據(jù)質(zhì)量的問題;
第四是數(shù)據(jù)閉環(huán),不斷讓模型學(xué)習(xí)新的數(shù)據(jù)。
除了業(yè)務(wù)和數(shù)據(jù),郭律認(rèn)為 AI 能力不可或缺的元素有兩個(gè),一個(gè)是人才,另一個(gè)是技術(shù)能力,包含計(jì)算資源等能力。但是相對(duì)而言 AI 工程化、建模的人才,AI 的計(jì)算資源和計(jì)算能力,包括計(jì)算資源和框架,其實(shí)相差不多。
他認(rèn)為AI 具有多樣性,但 AI 人才和計(jì)算能力具有通用性。他們按 AI 的人才成熟度的不同,歸納為 4 類:
第一是 AI Geek,從底層計(jì)算資源搭建到計(jì)算框架的引入,一直到算法編寫層面,包括模型調(diào)優(yōu)都能夠獨(dú)立進(jìn)行編碼。
第二是 AI 研究者,他們自己會(huì)寫比較高級(jí)的算法。
第三種是 AI 從業(yè)者,他們知道整個(gè)建模的流程,也能夠用一些開源的算法做一些模型訓(xùn)練。
第四種是 AI 應(yīng)用者,他們是 AI 非從業(yè)人員,希望使用人工智能解決業(yè)務(wù)痛點(diǎn),大部分人都屬于這一類。
因此,針對(duì)不同的用戶層次,需要提供不一樣機(jī)器學(xué)習(xí)產(chǎn)品和服務(wù)。郭律以騰訊的智能鈦機(jī)器學(xué)習(xí)平臺(tái)服務(wù)為例給出了不同用戶所需要的差異化服務(wù),比如 TI-A 是深度學(xué)習(xí)加速器,主要為專業(yè)級(jí)用戶進(jìn)行模型訓(xùn)練加速,同時(shí)在模型訓(xùn)練完之后,可以部署成服務(wù)對(duì)外進(jìn)行在線預(yù)測(cè),解決了從模型落地到具體應(yīng)用場(chǎng)景的問題。TI-ONE,智能一站式機(jī)器學(xué)習(xí)平臺(tái),它有一個(gè)可視化的 UI,客戶可以一目了然地看到整個(gè)建模工作流,而且里面有豐富的內(nèi)置算法組件。TI-S 的特點(diǎn)是全自動(dòng),只需要給出數(shù)據(jù),就可以反饋出可用的模型,并部署成一個(gè)應(yīng)用。
此外,郭律還介紹了智能鈦機(jī)器學(xué)習(xí)平臺(tái)服務(wù)具體的功能。該平臺(tái)對(duì)企業(yè)而言意味著降低了企業(yè)獲得 AI 能力的門檻,可以幫助企業(yè)打造自己的 AI 生態(tài),它能幫助形成“數(shù)據(jù)+模型”雙閉環(huán),支持模型自更新。
以下為騰訊的三款機(jī)器學(xué)習(xí)平臺(tái)產(chǎn)品詳細(xì)介紹:
▌TI-ONE
智能鈦一站式機(jī)器學(xué)習(xí)(TI OneStop,TI-ONE)適合 AI 初學(xué)者,同時(shí)又兼顧專業(yè)用戶需求的一站式機(jī)器學(xué)習(xí)平臺(tái)。
全流程一站式服務(wù)
TI-ONE 提供從數(shù)據(jù)預(yù)處理到模型部署的全流程服務(wù),各個(gè)環(huán)節(jié)無縫銜接、流暢易用,從此用戶不再需要為完成一個(gè)機(jī)器學(xué)習(xí)任務(wù)在不同的產(chǎn)品間切換,并疲于各種兼容性的問題。
拖拽式任務(wù)流
通過圖形化界面的拖拉拽操作,組件與節(jié)點(diǎn)間自動(dòng)連線,數(shù)據(jù)流向自動(dòng)生成,繪制任務(wù)流暢便捷。
多框架支持
支持多種機(jī)器學(xué)習(xí)框架,方便用戶按照自己的習(xí)慣與需求自由選擇框架來搭建任務(wù)。
豐富內(nèi)置算法
TI-ONE 平臺(tái)內(nèi)置豐富的各類算法,從數(shù)據(jù)預(yù)處理流程到各類機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,AI 初學(xué)者們可以通過組件的拖拽在任務(wù)流中直接使用,無論是機(jī)器學(xué)習(xí)的回歸預(yù)測(cè)、深度學(xué)習(xí)的圖片分類、目標(biāo)檢測(cè),用戶不再需要編寫晦澀難懂的算法代碼即可解決各場(chǎng)景需求。當(dāng)然,專業(yè)級(jí)用戶也可選擇自定義算法的上傳。
靈活的調(diào)度模式
在完成了任務(wù)流的搭建,在任務(wù)調(diào)度環(huán)節(jié),TI-ONE 支持對(duì)參數(shù)進(jìn)行數(shù)值型與枚舉型的預(yù)設(shè)定,自動(dòng)完成多次任務(wù),同時(shí)提供定時(shí)調(diào)度功能滿足周期性的調(diào)度,大大減少手動(dòng)多次調(diào)度的重復(fù)性工作量,在完成了多次運(yùn)行后,用戶可前往歷史實(shí)例模塊,快速橫向比對(duì)所有模型,選擇最優(yōu)結(jié)果。
結(jié)果可視化
運(yùn)行產(chǎn)生的模型結(jié)果,鼠標(biāo)懸浮即可顯示,同時(shí) TI-ONE 內(nèi)置豐富的模型評(píng)估方式和圖標(biāo)形式,讓用戶直觀地對(duì)比多個(gè)結(jié)果,模型優(yōu)劣一眼可辨。
一鍵部署服務(wù)
TI-ONE 提供了一鍵式部署工具,用戶可以將訓(xùn)練好的模型部署成 Application,然后裝載成多個(gè)實(shí)例,一個(gè)實(shí)例還可以有多個(gè)版本。第三方的用戶使用 REST API 便可輕松實(shí)現(xiàn)調(diào)用。
如此就完成了用 TI-ONE 構(gòu)建任務(wù)流到發(fā)布模型服務(wù)的全流程。
▌TI-A
智能鈦機(jī)器學(xué)習(xí)加速器(TI Accelerator,TI-A)是專為 AI 算法工程師設(shè)計(jì)的專業(yè)級(jí)機(jī)器學(xué)習(xí)平臺(tái)。旨在為用戶提供專業(yè)級(jí)的大規(guī)模訓(xùn)練工具,并提供極致的性能優(yōu)化。
命令行操作
區(qū)別于 TI-ONE 圖像化的界面風(fēng)格,TI-A 提供命令行的操作界面,為專業(yè)級(jí)用戶提供熟悉的工作環(huán)境。
大規(guī)模訓(xùn)練
幾乎所有算法工程師團(tuán)隊(duì)都面臨過大規(guī)模訓(xùn)練時(shí)速度太慢、計(jì)算集群成本高、IT 維護(hù)步驟復(fù)雜等困境。通過 TI-A 用戶可以一鍵構(gòu)建分布式 Tensorflow 框架,同時(shí)內(nèi)部封裝了 CNN、DNN、LSTM 等模型的分布式訓(xùn)練版本,大規(guī)模訓(xùn)練從此不再和“繁瑣”相綁定。
高性能
TI-A 基于 Tensorflow 框架進(jìn)行性能優(yōu)化,對(duì)比原生框架不論是單機(jī)性能,還是多級(jí)多卡的性能都有顯著的加速比提升,為用戶提供更極致的性能體驗(yàn)。
▌TI-S
如何使整個(gè)機(jī)器學(xué)習(xí)過程更加自動(dòng)化,減少數(shù)據(jù)科學(xué)家和 AI 算法專家在整個(gè)機(jī)器學(xué)習(xí)過程中的繁重勞動(dòng)力,同時(shí)讓更多沒有 AI 背景的人也可以輕松使用 AI 技術(shù),一直是機(jī)器學(xué)習(xí)領(lǐng)域熱議的課題。如何能夠把完整的機(jī)器學(xué)習(xí)工作流做成云端易用的產(chǎn)品,讓用戶僅需要在界面上拖拽樣本數(shù)據(jù)就可以完成數(shù)據(jù)處理、特征抽取、模型訓(xùn)練等全流程?
即將推出的智能鈦?zhàn)詣?dòng)機(jī)器學(xué)習(xí)(TI SelfLearning,TI-S)將全面支持結(jié)構(gòu)化數(shù)據(jù)、圖像等領(lǐng)域的 AI 建模,使非 AI 專業(yè)人士能夠通過 TIS 獲得人工智能決策的能力。
TI-S 整體流程圖
TI-S 提供從數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參、模型評(píng)估、模型預(yù)測(cè)到結(jié)果分析的一站式服務(wù),全流程覆蓋,實(shí)現(xiàn)從訓(xùn)練至預(yù)測(cè)的完整閉環(huán),讓用戶無需算法經(jīng)驗(yàn)也能基于場(chǎng)景數(shù)據(jù)生成模型,真正降低 AI 技術(shù)落地各行業(yè)的門檻。
同時(shí),智能鈦?zhàn)灾餮邪l(fā)的自動(dòng)數(shù)據(jù)清洗、自動(dòng)擇參、自動(dòng)調(diào)參、自動(dòng)特征選擇、自動(dòng)算法選擇等技術(shù),亦能高效輔助解決 AI 專業(yè)人員在工作各環(huán)節(jié)中繁瑣、耗時(shí)的問題。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47497瀏覽量
239197 -
智能音箱
+關(guān)注
關(guān)注
31文章
1783瀏覽量
78671
原文標(biāo)題:從概念到應(yīng)用,騰訊視角深入“解剖”AI平臺(tái)和語音技術(shù)
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論