鄢志杰談深度學習要基于問題來選擇工具
大小:0.03 MB 人氣: 2017-10-13 需要積分:1
標簽:深度學習(119547)
鄢志杰將在12月11日下午的深度學習分論壇進行題為“Deep Learning 助力客服小二:數據技術及機器學習在客服中心的應用”的主題演講,分享基于DNN、CNN、RNN(LSTM)及其各種組合模型的語音識別、自然語言處理技術在客服領域的應用。鄢志杰在接受采訪時表示,他的分享內容將包括Deep Learning 判斷小二對問題定位的一致性、采用Deep Learning自動識別用戶問題等,iDST在數據技術及機器學習方面的嘗試,已經在阿里巴巴集團及螞蟻金服助力客服小二,向客服機器人的引入邁出了第一步。不過,他認為,客服機器人不是要取代人工,而是要學習人、幫助人。比如阿里巴巴客服中心的很多Machine Learning的工作,都是去學習客服小二是如何服務的,沒有客服小二,學習無從入手。
談到深度學習的挑戰,鄢志杰表示,近年來在DL領域不管三七二十一加數據、加運算能力、增加模型規模的brute-force方法從某種意義上講是相當成功的。DL在Feature Engineering上的成功也帶來了似乎不需要再關注問題本身、不需要任何Domain Knowledge,只需要把Raw Feature扔進Deep Model訓練一下就能打敗歷史上所有模型的假象——這恰恰只是說明了我們很多人對DL的理解還比較膚淺。他認為,DL目前的挑戰之一就是需要重新去嚴肅的思考我們要解的問題、了解我們的模型、分析我們的數據,而不是一味的強調“大數據”、“大模型”、“大計算”。
此外,對于機器學習開源工具的選擇,鄢志杰認為,工具就是工具,不必抱有“宗教信仰”,比較合適的態度也許是更關注你要解的問題,基于問題來選擇工具。
鄢志杰
阿里巴巴iDST語音組高級專家
鄢志杰,阿里巴巴 iDST(Institute of Data Science and Technologies)語音組高級專家。在加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業于中國科學技術大學訊飛語音實驗室,獲博士學位。研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習算法等。在語音及文本識別領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,并擁有多項美國及PCT專利,目前是 IEEE senior member。其研究成果被轉化并應用于微軟公司及阿里巴巴集團的多項產品中。
以下為鄢志杰采訪實錄:
CSDN:請介紹一下您自己以及當前的主要工作。
鄢志杰:我主要在阿里云iDST負責語音技術方面的工作,為集團和螞蟻金服各個業務部門,以及外部客戶提供各種與語音有關的服務,包括語音識別、語音合成、說話人識別/驗證、對話系統等。由于語音領域是Deep Learning的最重要的試金石之一,我們也應用各種機器學習算法到更廣泛的領域,如客服問題定位等等當中去。
CSDN:在您的語音識別工作中采用了哪些DL模型?從這些模型在標準數據集上實現的精度,到實現在淘寶客服的實際應用,還需要做哪些方面的工作?
鄢志杰:語音識別領域是DL最重要的應用領域之一,很多DL算法都首先在語音識別上得到實踐。因此,我們所采用的DL模型也較多,包括DNN、CNN、RNN(LSTM)及其各種組合。當前語音識別研究的重心早已從學術界向工業界傾斜,因此通常所說的標準數據集一般規模較小,主要是為快速驗證算法來使用。像客服語音識別這樣的實際應用場景,還需要做以下幾個方面的工作:
沉淀數據,構造feedback loop,即能夠形成數據的閉環,將線上實際數據很快應用到模型迭代更新中去;提高模型訓練的周轉率,降低訓練時間,通過大規模并行計算實現高速DL模型訓練;構造高水平的云端線上服務,包括高效的解碼器、自動部署、運維等等。
CSDN:您的工作也涉及到文本分析,如何看待DL在文本分析領域的進展和前景?
鄢志杰:DL在文本領域有非常令人興奮的進展。從早前的“看圖說話”、“sequence-to-sequence翻譯、語言生成”,到最近的“看圖回答問題”等等,DL在文本上的應用正向縱深發展,應該說前景是很廣闊的。我們自己也在這方面有一些工作,包括客服問題聚類、分類、對話理解、語言生成等。
CSDN:基于數據技術和ML,您認為客服機器人技術將能夠取代多少的人工工作?時間節點如何?
鄢志杰:我個人有一個理念,就是永遠不去取代人工,而是讓客服機器人去學習人、幫助人。就像我們在客服中心的很多Machine Learning的工作,都是去學習客服小二是如何服務的,沒有客服小二,學習無從入手。例如,我們會將客服小二的真實IVR服務進行語音識別,從沉淀下來的數據中去做Machine Learning,去做各種后續的工作。我認為客服機器人的價值在于可以減少人工,讓客服中心可以隨公司業務智能的擴展,而不是一味擴大人的規模,使得服務質量無法保證。
CSDN:當前的開源DL工具越來越多,您嘗試過哪些工具?最喜歡什么樣的工具?最終選擇的標準是什么?
鄢志杰:我們擁抱開源。開源的、得到大家認可而發展起來的東西肯定是好東西。在語音領域目前最活躍的開源工具是Kaldi,是微軟的前同事Povey從幾年前開始一步步做起來、逐漸變得流行的。我們也是通過改造Kaldi來搭建我們系統的某些環節的,改造的工作一方面是使之適應工業界需求(如大規模的GPU多機多卡訓練)、一方面是基于它的codebase來快速的做創新性研究。我認為工具就是工具,不必抱有“宗教信仰”,比較合適的態度也許是更關注你要解的問題,基于問題來選擇工具。這也正是我們開發GPU多機多卡 Machine Learning Middleware的原因。這個Middleware的功能就是把各種各樣的開源DL訓練工具通過很少的修改,就變成可以利用多機多卡的大規模并行化訓練工具。這樣一來,我們就可以迅速消化、吸收,并改造層出不窮的新的DL開源工具。
CSDN:DL的領軍人物Yann LeCun曾經多次談到DL的挑戰,如推理機制、無監督學習等等,您如何看待DL的挑戰?
鄢志杰:DL近年來發展得太快了,也太熱了。有一些brute-force的研究方法太過成功,容易給人造成誤導。傳統的機器學習講究對問題的分析、對數據本身的理解、“Occam‘s razor”是研究者樂于奉行的原則。我們看到近年來在DL領域,不管三七二十一加數據、加運算能力、增加模型規模的brute-force方法從某種意義上講是相當成功的。DL在Feature Engineering上的成功也帶來了似乎不需要再關注問題本身、不需要任何Domain Knowledge,只需要把Raw Feature扔進Deep Model訓練一下就能打敗歷史上所有模型的假象。我個人認為這恰恰只是說明了我們很多人對DL的理解還比較膚淺。多年后回過頭來看,也許會發現,現在的我們只不過是正處在DL野蠻發展的初級階段而已。
在我所在的語音領域,現在要找一個篇非DL的論文已經很難了。今年開InterSpeech國際會議的時候,聲學所一名同學做Oral Presentation,一上臺就說今天我全篇沒有DL,沒想到贏得臺下一片掌聲。我覺得DL目前的挑戰之一就是需要重新去嚴肅的思考我們要解的問題、了解我們的模型、分析我們的數據,而不是一味的強調“大數據”、“大模型”、“大計算”。
CSDN:您對目前的DL硬件系統的滿意度如何?對于DL的硬件平臺的發展,您有什么期待?
鄢志杰:很樂于看到Intel找到了一個不同以往的對手NVIDIA,此外也看到DL在其它一些硬件(如FPGA等)上的發展。因為DL的推動,硬件在這方面的運算能力、通訊能力近年來都得到了很大的進步,期待硬件廠商給我們更強大的支撐。
CSDN:請談談您在這次大會上即將分享的話題。
鄢志杰:我會介紹數據技術、Machine Learning在阿里巴巴集團和螞蟻金服客服系統中的好幾個很接地氣的應用。我們通過自動語音識別將IVR系統的客服對話數據全部轉換成文本,這些文本可以用于客服質檢、用于提升客服小二對問題解答的一致性,還可以讓機器學習客服人員是如何一步步定位用戶的問題,并做出解答的。客服本來是一個非常傳統的領域,對客服系統刻板的印象就是人海戰術、手寫規則等等。但由于機器學習的加入,這個領域正發生奇妙的變化。新一代的客服背后站著的是數據科學家,現在講的都是Data-driven、Deep Learning等等。這些嘗試應該說只是一個開始,是我們后續通向機器人客服的必由之路。
CSDN:哪些聽眾最應該了解您所分享的主題?這些話題可以幫助聽眾解決哪些問題?
鄢志杰:一些對語音識別、文本分析、自然語言處理等DL話題感興趣的聽眾應該會想來聽聽。我希望給大家一些全新的角度——原來DL還可以幫助客服這樣的傳統領域。
CSDN:您最希望在BDTC上聽到什么樣的分享話題?
鄢志杰:最新的來自Machine Learning Community的聲音,以及DL的一些落地。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%