“如果機器在某些現(xiàn)實的條件下,能夠非常好地模仿人回答問題,讓提問者在相當(dāng)長時間里誤認(rèn)它不是機器,那么機器就可以被認(rèn)為是能夠思維的?!?/p>
—— 阿蘭·圖靈
人機對話是人類對人工智能最初的設(shè)想,也一直是人工智能領(lǐng)域的目標(biāo)之一。
即使我們經(jīng)常聽到“這個問題我還沒有學(xué)會”,但是不可否認(rèn),人工智能已經(jīng)基本實現(xiàn)”可以說話”了。那么,機器人是怎樣學(xué)習(xí)的呢?這就需要提到人工智能需求下誕生的一個新職業(yè),也是人工智能背后的“隱形者”——數(shù)據(jù)標(biāo)注專員。
眾所周知,我們教小孩子認(rèn)識海豚,就要拿海豚的圖片告訴他,這是海豚。久而久之,他記住了海豚的特征,當(dāng)他去動物園看到了海豚,就知道那是海豚。類比機器人,為了讓機器人“像人一樣說話”,我們先要教它學(xué)習(xí),通過大量的學(xué)習(xí)之后,它才能對事物做出分辨。
在 AI 領(lǐng)域,教機器人學(xué)習(xí)必須有大量的訓(xùn)練集和測試集,訓(xùn)練集通俗說就像是我們學(xué)習(xí)時做的習(xí)題集,測試集像我們考試做的試題。測試集和訓(xùn)練集里的數(shù)據(jù)必須是支持算法可用的標(biāo)注數(shù)據(jù),而將采集的原始數(shù)據(jù)變成算法可用數(shù)據(jù)的過程叫做“數(shù)據(jù)標(biāo)注”。即對采集來的文本、圖片、語音數(shù)據(jù)進行梳理、整理、定性的過程。而數(shù)據(jù)標(biāo)注專員就成了為人工智能的發(fā)展供應(yīng)重要且源源不斷的“數(shù)據(jù)燃料”的人。
云知聲就有一個龐大的數(shù)據(jù)標(biāo)注團隊從事數(shù)據(jù)服務(wù)工作,并且,僅有的數(shù)據(jù)標(biāo)注團隊還在云知聲的東南總部廈門公司哦。團隊的小伙伴幾乎每天默默戴著耳機對著電腦 7-8 小時,真的是此處無聲勝有聲!
數(shù)據(jù)標(biāo)注是一項重復(fù)且繁瑣的工作,如果把人工智能比作金字塔,最頂端的是人工智能應(yīng)用(比如機器人、無人駕駛等),而最底端的則是數(shù)據(jù)服務(wù),數(shù)據(jù)服務(wù)既是根基,也是人工智能必要且必不可少的一環(huán)。
數(shù)據(jù)標(biāo)注工作真的像是工廠里的流水線操作嗎?只是重復(fù)性地對數(shù)據(jù)進行標(biāo)注嗎?
云知聲數(shù)據(jù)標(biāo)注團隊的負責(zé)人許建說,目前人工智能領(lǐng)域?qū)τ跀?shù)據(jù)采集和標(biāo)注的需求量非常大,數(shù)據(jù)采集后首先進行數(shù)據(jù)清洗,清洗之后才是數(shù)據(jù)標(biāo)注,標(biāo)注要求盡可能地詳盡、清楚,最后的審查階段對標(biāo)記的數(shù)據(jù)進行正確率、精確度、完備性等方面的審查。實際是,數(shù)據(jù)質(zhì)量會影響到算法效果,一旦標(biāo)注人員出現(xiàn)了錯誤,也會影響到機器犯錯。
目前主要有語音、圖像、文本、視頻數(shù)據(jù)的采集標(biāo)注。云知聲日常所涉及的是語音的標(biāo)注,與智能產(chǎn)品進行語音交互和我們平時與人的交流對話相似,在生活中,你可能突然問你身邊的人,“小云,現(xiàn)在幾點了”,現(xiàn)在 3 點 15 分”,“小云”就是喚醒詞,“現(xiàn)在幾點了”就是命令詞,喚醒詞和命令詞均要采集。
為了讓即便帶有背景嘈雜聲、或是略帶方言口音也能準(zhǔn)確識別,這背后有一個數(shù)量龐大的數(shù)據(jù)訓(xùn)練集支撐。每個語音命令需要采集至少 100 人的語音數(shù)據(jù),既要羅列出所有可能的句子,又要搜集盡可能多的人不同的說話方式,覆蓋到地域、性別、各年齡段。
比如我們的 Pandora A1 客房智能管家,當(dāng)查詢酒店服務(wù)時,就有多種表達方式,“提供什么服務(wù)”、“包括哪些服務(wù)”、“有哪些服務(wù)”、“有什么服務(wù)”等。同時,會有嚴(yán)格的性別、年齡段、口音采集人數(shù)占比,以保證最終的精準(zhǔn)識別。
對每一個采集的詞句,都要做到精細標(biāo)注,采集的語音需要符合相應(yīng)的技術(shù)要求,標(biāo)注的時間點要精準(zhǔn)控制在 100 毫秒以內(nèi)。數(shù)據(jù)標(biāo)注的速度決定了 AI 產(chǎn)品的研發(fā)速度,提高標(biāo)注的效率也就顯得很重要。
為了配合數(shù)據(jù)標(biāo)注團隊的工作廈門展廳還藏著一個神秘的聲學(xué)實驗室,這里可以說是整個公司最安靜的地方了。
聲學(xué)實驗室的主要用途是采集原始聲音數(shù)據(jù),為了貼近產(chǎn)品實際使用場景,整個裝修布置符合家居場景。
實驗室采用減振隔聲墻體,房間被墻體隔開,墻面、吊頂與外部房間沒有任何剛性連接,完全與外界隔絕。墻內(nèi)的吸聲材料主要由多孔的玻璃纖維板組成,具有較好的聲音吸收能力,除了吸聲材料外,聲學(xué)實驗室四周還布置了窗簾,可以讓聲音充分?jǐn)U散,使整個空間內(nèi)的聲場均勻分布。地板采用的是地磚和吸聲地毯,實現(xiàn)實驗室與建筑基座的分隔,無反射和回聲。
聲學(xué)實驗室內(nèi)五臟俱全—標(biāo)準(zhǔn)麥克風(fēng)、高保真音箱、聲卡……應(yīng)有盡有。
許建說,為了達到設(shè)備在實際應(yīng)用場景中達到最優(yōu)效果,在聲學(xué)實驗室采集時就要模擬真實環(huán)境,需要覆蓋不同的噪音、信噪比、距離和角度。
為了保證支持遠講的語音產(chǎn)品出廠前的效果,在前期的采集階段就要把產(chǎn)品在實際應(yīng)用中受到的噪音干擾和不同距離、角度的聲音效果考慮進去。
像我們有些設(shè)備是支持 5 米遠講識別的,就要求錄音人距離錄音設(shè)備一米、三米、五米距離的錄音數(shù)據(jù),同時會設(shè)置 0° 、 -30° 、 -60° 等不同角度的設(shè)備疊加采集。經(jīng)常在采集的過程中根據(jù)場景需要加入音樂噪聲、電視噪聲、辦公噪聲、室外噪聲等,模擬出真實場景的噪音干擾。
人工智能的發(fā)展,催生了數(shù)據(jù)標(biāo)注這個新職業(yè),隨著人工智能大規(guī)模的落地應(yīng)用,至少在未來的五六年內(nèi),人工智能像是一個嗷嗷待哺的嬰兒,等待著數(shù)據(jù)的喂養(yǎng)。數(shù)據(jù)標(biāo)注專員賦予冷冰冰的機器以鮮活的“生命”,教他們我們的知識,讓他們變得有“溫度”。
-
機器人
+關(guān)注
關(guān)注
211文章
28418瀏覽量
207103 -
智能語音
+關(guān)注
關(guān)注
10文章
783瀏覽量
48773 -
語音交互
+關(guān)注
關(guān)注
3文章
286瀏覽量
28017
發(fā)布評論請先 登錄
相關(guān)推薦
評論