繼“讓機(jī)器聽(tīng)懂你的聲音”,鈦坦白又請(qǐng)來(lái)六位鈦客,探討如何讓機(jī)器看懂這個(gè)世界。本文根據(jù)浙江大學(xué)CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室副教授、Rokid科學(xué)家顧問(wèn)張宏鑫在鈦坦白的分享整理。
張教授是浙江大學(xué)理學(xué)博士、香港科技大學(xué)計(jì)算機(jī)系博士后。曾先后在微軟亞洲研究院、德國(guó)亞琛工大等做訪問(wèn)合作研究。近年來(lái)已完成論文30余篇,其中多篇論文被SCI/EI/ISTP收錄,并獲得了較高的文獻(xiàn)引用率。在浙江大學(xué) CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室,系統(tǒng)并深入地研究了數(shù)字幾何處理、計(jì)算機(jī)圖形硬件加速、三維重建、可視化和計(jì)算機(jī)視覺(jué)的理論,將離散微分方程、卷積理論成功應(yīng)用于快捷三維造型。與阿里云合作研發(fā)了渲染云系統(tǒng),并參與了Rokid家庭陪伴機(jī)器人的研發(fā)。
以下是張宏鑫教授在鈦坦白的分享:
大家好,我是浙江大學(xué)CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室的張宏鑫,也是Rokid機(jī)器人研發(fā)團(tuán)隊(duì)科學(xué)家顧問(wèn),感謝各位聽(tīng)眾,也感謝鈦媒體給了我這么一個(gè)機(jī)會(huì),和眾多人工智能行業(yè)的大佬們一起來(lái)做這個(gè)分享。
我雖然做機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用研究已經(jīng)十多年了,但還算不上一個(gè)真正的搞機(jī)器學(xué)習(xí)或者人工智能的專家,勉強(qiáng)可以算是一個(gè)資深的玩家,因?yàn)槲易约旱难芯颗d趣其實(shí)主要在圖形學(xué)和計(jì)算機(jī)視覺(jué)交叉的領(lǐng)域,后來(lái)慢慢擴(kuò)展到對(duì)數(shù)據(jù)的可視化分析。借此機(jī)會(huì),我想通過(guò)我個(gè)人的一些經(jīng)歷,反映我們這一代人的想法,進(jìn)而講一些我對(duì)人工智能的粗淺認(rèn)識(shí),供大家研討。
緣起
我們這代人屬于70后,我記得我最小時(shí)候最喜歡看的一個(gè)動(dòng)畫片是《鐵臂阿童木》,最早看的科幻電影應(yīng)該是《星球大戰(zhàn)》三部曲,當(dāng)時(shí)對(duì)電影里面的R2D2等等機(jī)器人特別特別的著迷,這些片子使得我們這代人對(duì)智慧機(jī)器人有了最早的直觀認(rèn)識(shí)。但是說(shuō)實(shí)話,最早并不知道什么叫“人工智能”,只是單純的覺(jué)得這是科學(xué),這些可愛(ài)的機(jī)器人總有一天會(huì)出現(xiàn)在我們的生活當(dāng)中,會(huì)成為我們?nèi)祟惖暮门笥选?/p>
機(jī)緣巧合,直到兩年前的一天,我的好朋友——Rokid公司的創(chuàng)始人Misa找到我,說(shuō)“我們做機(jī)器人吧”,我沒(méi)有任何猶豫脫口說(shuō)“好吧,我們一起干!”于是,和Rokid的團(tuán)隊(duì)一起開(kāi)始了這個(gè)有趣的探索之旅。在這個(gè)探索的過(guò)程當(dāng)中,發(fā)現(xiàn)有很多的研究問(wèn)題大有可為,所以現(xiàn)在也算是樂(lè)在其中。
種子
回想起來(lái),從小學(xué)到中學(xué)隨著年齡的增長(zhǎng),我非常喜歡看幾本雜志分別是《科學(xué)畫報(bào)》、《飛碟探索》還有《奧秘》,也很喜歡背后的物理跟數(shù)學(xué)。然后再大一點(diǎn)的話,喜歡看《無(wú)線電》。但是后來(lái)發(fā)現(xiàn),《無(wú)線電》里面很多簡(jiǎn)單的小制作還可以,但是復(fù)雜的制作的話需要很多儀器,對(duì)于一個(gè)初中生、高中生來(lái)說(shuō)是買不起的。所以覺(jué)得不如退一步,因?yàn)閿?shù)學(xué)自己還不錯(cuò)吧,就以數(shù)學(xué)為基本工具來(lái)探索這個(gè)世界。后來(lái)也比較幸運(yùn),考上了浙江大學(xué),就讀數(shù)學(xué)系,算是了卻了自己的心愿。也就是在大學(xué)里,有一次很偶然的機(jī)會(huì)認(rèn)識(shí)了Misa同學(xué),因?yàn)樗臀乙粯雍芟矚g彈吉他,沒(méi)想到兩個(gè)人因?yàn)閺椉谝黄?,斷斷續(xù)續(xù)合作了很多年。
在大學(xué)三年級(jí)的時(shí)候,大概是1996年前后,有一個(gè)很有趣的事情。當(dāng)時(shí)的數(shù)學(xué)系主任是陳叔平教授,他有一次找我們一幫學(xué)生來(lái)聊天,問(wèn)我們對(duì)什么東西感興趣。輪到我講的時(shí)候,腦子里就突然冒出了三個(gè)字——機(jī)器人。然后我就對(duì)陳老師說(shuō),我很想做機(jī)器人。陳老師當(dāng)時(shí)愣了好一會(huì)兒,微笑著鼓勵(lì)我說(shuō),“以后要多學(xué)習(xí)專業(yè)知識(shí),和自動(dòng)化還有計(jì)算機(jī)的老師多合作”,也許就是因?yàn)閹熼L(zhǎng)的這種鼓勵(lì),后來(lái)促使我花了很多時(shí)間去學(xué)計(jì)算機(jī)的技術(shù),并輔修了偏工程的電氣專業(yè)。
所以說(shuō)在大學(xué)期間的這些經(jīng)歷,在我們70后這一代人的身上埋下了現(xiàn)在做這些智能設(shè)備、智能技術(shù)的種子,才有了今天Rokid的產(chǎn)品。也正是因此,我們?cè)敢馓鲎约旱男∪ψ?,?a target="_blank">電子器件、計(jì)算機(jī)技術(shù),以及很多數(shù)學(xué)的算法邏輯等等元素組合在一起。說(shuō)實(shí)話,是因?yàn)橄矚g彈吉他,喜歡音樂(lè),當(dāng)年我們這幫人才能夠聚攏來(lái),去探索這個(gè)有點(diǎn)離經(jīng)叛道,但有些跨界的美物。
也正是因此,我覺(jué)得人工智能,?能簡(jiǎn)單?解為是一組算法所形成的自動(dòng)化邏輯,它是軟硬件技術(shù)的結(jié)合體,只有實(shí)物化才是王道。
小數(shù)據(jù)時(shí)代
后來(lái)很幸運(yùn),順利保送浙大碩士以及直接轉(zhuǎn)為博士,師從數(shù)學(xué)系的王國(guó)瑾教授。他當(dāng)時(shí)給我的論文題目是《復(fù)雜形體建模與繪制的離散方法研究》。在這個(gè)課題當(dāng)中,其實(shí)我們研究的是一種樣條理論,試圖通過(guò)一種過(guò)程式的細(xì)分曲面方法來(lái)表達(dá)三維場(chǎng)景。所以在當(dāng)時(shí),我廣泛的探索了各種各樣的三維模型如何去進(jìn)行表達(dá),怎么樣去進(jìn)行有效繪制之類的問(wèn)題。
在博士期間,大概2001年左右,我去微軟實(shí)習(xí)了一段時(shí)間。加入了微軟沈向陽(yáng)博士領(lǐng)導(dǎo)的視覺(jué)組,在他那邊做實(shí)習(xí)生。當(dāng)時(shí)到這個(gè)組,給了我一個(gè)專門的問(wèn)題,希望我做重光照(relighting)技術(shù)方面的研究。什么是重光照?具體而言,就是研究從一張圖片或者多張圖片中,首先是恢復(fù)三維場(chǎng)景,然后再根據(jù)這個(gè)三維場(chǎng)景的信息進(jìn)一步猜測(cè)計(jì)算物體的材質(zhì)屬性(補(bǔ):最后是對(duì)三維場(chǎng)景重新打光)。當(dāng)時(shí)來(lái)說(shuō),這是一個(gè)很難的問(wèn)題,而且需要用到很多的計(jì)算機(jī)視覺(jué)技術(shù),包括圖像分割、立體視覺(jué)還有很多數(shù)據(jù)統(tǒng)計(jì)的方法。這些方法都是可以看作是人工智能的一種形態(tài),也是機(jī)器學(xué)習(xí)里面的一些典型方法。當(dāng)時(shí)在微軟,有非常好的氛圍。我記得當(dāng)時(shí)有很多很厲害的人,現(xiàn)在都已經(jīng)成為了研究員、教授,比如說(shuō)孫劍、劉策等等,大家在一起廣泛討論了很多機(jī)器學(xué)習(xí)的方法。
我在微軟的工作屬于“可視計(jì)算”領(lǐng)域??梢曈?jì)算這個(gè)方向?qū)嶋H上是計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)的交叉領(lǐng)域,這兩個(gè)方向其實(shí)可以說(shuō)是天生的一對(duì)。計(jì)算機(jī)圖形學(xué),是一種正向從三維的場(chǎng)景或者數(shù)據(jù)去生成二維圖像的一個(gè)過(guò)程;而計(jì)算機(jī)視覺(jué)恰恰是反過(guò)來(lái)的,是從二維的圖像反向去猜測(cè)或者是預(yù)測(cè)三維的結(jié)果,特別是基于圖像的重建那塊的內(nèi)容,可以說(shuō)圖形學(xué)跟計(jì)算機(jī)視覺(jué)是不可分家。所以,在學(xué)術(shù)界把這兩者加在一起叫“可視計(jì)算”。
微軟期間我印象最深刻的是,從那個(gè)時(shí)候開(kāi)始接觸所謂的小樣本學(xué)習(xí)方法。因?yàn)楫?dāng)時(shí)我們有一個(gè)討論班,例如孫劍、王天樹(shù)、劉策,還有別的一些朋友,包括朱頌春老師,大家在一起討論各種各樣的視覺(jué)方法。期間,我們重點(diǎn)研讀了,SVM發(fā)明人Vapnik博士所寫的一本很有名的書叫《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》。在這本書里面他廣泛研討了SVM方法的理論。全文的宗旨是希望通過(guò)比較小的樣本,就能夠?qū)W習(xí)獲得一個(gè)很好的統(tǒng)計(jì)模型,這個(gè)模型是通過(guò)數(shù)據(jù)進(jìn)行計(jì)算來(lái)獲得的。在當(dāng)時(shí)的這樣一種氛圍底下,其實(shí)大家都在探索各種各樣的機(jī)器學(xué)習(xí)的方法,除了SVM方法以外,還有比較重要的是一些降維的技術(shù)。
博士畢業(yè)后,我在香港科大做了一年的博士后,當(dāng)時(shí)在那邊合作的老師是戴秋蘭教授,跟她一起做的是基于草圖的人機(jī)交互。香港科大在當(dāng)時(shí)如日中天,集合了一大幫來(lái)自于五湖四海的科研人員,有的在那邊做博士后的,也有在那邊當(dāng)教員的。這期間我很榮幸結(jié)識(shí)了張志華老師,大家親切的把他稱為“老張”,他現(xiàn)在在上交大和北大任教。老張既是我的老師,也是我的朋友,我們經(jīng)常飯后一起在香港科大的海邊散步。散步的時(shí)候,他就跟我講好多統(tǒng)計(jì)的方法。為此,我們后續(xù)合作做了一些數(shù)據(jù)降維的工作。最終,其中一個(gè)算法被用于圖形學(xué)中的模型分解跟紋理映射。在當(dāng)時(shí)大家都特別推崇小樣本的統(tǒng)計(jì)方法,用了很多統(tǒng)計(jì)學(xué)里面的理論和計(jì)算技巧。但是當(dāng)時(shí)大家都比較鄙視神經(jīng)網(wǎng)絡(luò)方法,這是挺特有意思的一個(gè)過(guò)程。
大概在2005年到2006年左右的時(shí)候,我有幸訪問(wèn)了德國(guó)亞琛工大,在那邊訪問(wèn)的教授是Leif Kobelt。他當(dāng)時(shí)主要做很多關(guān)于三維網(wǎng)格處理的研究,其課題組的很多技術(shù)其實(shí)最后都輸出給寶馬汽車,因而有很多的橫向課題。在訪問(wèn)Kobelt教授期間,我主要致力于將機(jī)器學(xué)習(xí)技術(shù)進(jìn)一步引入到圖形學(xué)當(dāng)中,用于三維模型的處理和分析。因?yàn)樵诋?dāng)時(shí),我跟浙大CAD實(shí)驗(yàn)室的一位博士生叫許棟,做了一個(gè)很有趣的工作。我們這個(gè)技術(shù),可以在不同的三維模型之間進(jìn)行插值,背后用的計(jì)算理論是網(wǎng)格上的微分方法,我們將其稱為“泊松形狀插值”。
泊松形狀插值的方法,Kobelt教授也非常感興趣,因?yàn)樗l(fā)現(xiàn)這個(gè)技術(shù)也許可以用于寶馬汽車的外形設(shè)計(jì)。后來(lái),我們也逐漸意識(shí)到這一技術(shù),也許是一種物體的本質(zhì)表達(dá)方法。但是怎么樣去驗(yàn)證這件事情不好說(shuō),因?yàn)樾枰罅康臄?shù)據(jù)。因此,從這個(gè)項(xiàng)目開(kāi)始,我就越來(lái)越關(guān)注圖形數(shù)據(jù)庫(kù)方面的一些進(jìn)展。這當(dāng)中我們發(fā)現(xiàn)很多數(shù)據(jù),其實(shí)適合去做一些數(shù)據(jù)驅(qū)動(dòng)的方法。如果能累積較多數(shù)據(jù),不光是能夠去做圖形的形狀分析與搜索,還能夠去驅(qū)動(dòng)一些相關(guān)的物理仿真。
記得有一年,我和一個(gè)叫宋超的博士合作做了一個(gè)關(guān)于物理仿真的技術(shù)。在這個(gè)仿真技術(shù)里邊,我們不光用了是事先采集好的一些形狀數(shù)據(jù),而且還融匯了一個(gè)物理力學(xué)模型。我們把兩者結(jié)合起來(lái),來(lái)做到一個(gè)比較真實(shí),但是速度非??斓奈锢矸抡嫘Ч?。
但當(dāng)時(shí)做了這一系列的研究之后,說(shuō)實(shí)話我們?cè)趯W(xué)術(shù)方面其實(shí)有些迷茫,特別在圖形學(xué)方向。該方向已經(jīng)發(fā)展到一個(gè)非常高的高度,進(jìn)入了一個(gè)平臺(tái)期。所以我們?cè)谧鲆恍﹪L試,想從別的角度去進(jìn)行一些挖掘,看看還有沒(méi)有別的路可以去走。這一點(diǎn)恰恰把我們70年代的人引入到大數(shù)據(jù)的時(shí)代來(lái)了。
大數(shù)據(jù)時(shí)代
大概是在2010年左右,我們前前后后做了三個(gè)不同的項(xiàng)目,我把這三個(gè)項(xiàng)目總結(jié)為三個(gè)“大”。
大計(jì)算
在2010年左右的時(shí)候,阿里云的王堅(jiān)博士找到我們,希望把我們已有的圖形計(jì)算渲染,這種非常復(fù)雜的計(jì)算過(guò)程,搬到阿里云上。后來(lái)這個(gè)項(xiàng)目通過(guò)兩到三年的努力成型后,成為阿里云第一個(gè)上線的saas應(yīng)用。
有一次,我們兩邊合作總共調(diào)集了6500臺(tái)計(jì)算機(jī),或者說(shuō)計(jì)算節(jié)點(diǎn),來(lái)完成一部動(dòng)畫電影的渲染任務(wù),這個(gè)片叫《昆塔傳奇》,是我們杭州本地的一家廣告企業(yè)博彩傳媒拍攝的。我們把這么大規(guī)模的計(jì)算資源調(diào)度起來(lái),做這么一個(gè)復(fù)雜的計(jì)算任務(wù),其實(shí)是非常了不起的。正是因?yàn)槟軌虼笠?guī)模的去調(diào)動(dòng)這種計(jì)算資源的經(jīng)歷,使我后面可以說(shuō)是開(kāi)竅了,讓我很興奮,覺(jué)得這種大的計(jì)算能力真的可以做一些事情。
大并發(fā)
我們?cè)谕瓿闪税⒗镌七@個(gè)項(xiàng)目之后,浙江大學(xué)的相關(guān)領(lǐng)導(dǎo)對(duì)我們很看重,把浙江大學(xué)研究生信息系統(tǒng)的改造項(xiàng)目,交給了我的課題組。為此,我們課題組經(jīng)過(guò)三年的努力,加上研究生院的老師一起,對(duì)整個(gè)研究生院的業(yè)務(wù)系統(tǒng)進(jìn)行了一次改造。
在這個(gè)改造項(xiàng)目當(dāng)中,最難的一點(diǎn)在于我們浙大每年有五千名研究生入學(xué)。然后這五千人一旦入學(xué)之后,會(huì)進(jìn)行一次集中選課,而且這個(gè)選課的流程是比較復(fù)雜的。可以說(shuō)這個(gè)業(yè)務(wù)系統(tǒng),就需要支撐五千個(gè)人同時(shí)進(jìn)到這個(gè)系統(tǒng)進(jìn)行選課。這是一個(gè)高并發(fā)的項(xiàng)目。我們通過(guò)自己的努力,加上一些朋友幫忙,設(shè)計(jì)了一個(gè)很好的基于云的架構(gòu)。目前這個(gè)項(xiàng)目已經(jīng)順利結(jié)題,并已經(jīng)上線。我們浙大五萬(wàn)師生目前每天都在使用這樣一個(gè)系統(tǒng)。
大數(shù)據(jù)
在2010年代,我們接觸的第三個(gè)項(xiàng)目才真正讓我認(rèn)識(shí)到什么叫做大數(shù)據(jù)。當(dāng)時(shí)在杭州本地有一家創(chuàng)業(yè)公司叫做淘淘搜。因?yàn)樘蕴运训腃EO,也恰恰是我們浙大的同事,他有一次來(lái)找我,說(shuō)我們能不能合作,把淘淘搜的圖像庫(kù)給利用起來(lái)。這個(gè)圖像庫(kù)有多大呢?當(dāng)時(shí)的數(shù)據(jù)是大概有四千萬(wàn)張圖像。我們從中抽取了大概兩百萬(wàn)張圖像,主要是四類——衣服、包、鞋子、褲子。我們希望能設(shè)計(jì)出一種新的交互方法,這個(gè)基本上重用了我們之前的一些技術(shù),就是草圖交互,我們希望通過(guò)草圖交互做一個(gè)以圖搜圖的功能。
在整個(gè)項(xiàng)目實(shí)施過(guò)程當(dāng)中,我們其實(shí)也借鑒了很多數(shù)據(jù)庫(kù)的相關(guān)技術(shù),把數(shù)據(jù)庫(kù)里所謂的倒排索引技術(shù),應(yīng)用到了我們圖像索引里面來(lái)。通過(guò)它,我們提供給用戶一個(gè)非常舒服方便的交互界面,使得用戶通過(guò)簡(jiǎn)單的勾勾畫畫,就可以選中相關(guān)的圖象數(shù)據(jù),后來(lái)我們上線了一個(gè)專門的App應(yīng)用放在蘋果的商店里叫“服飾繪”。通過(guò)這個(gè)應(yīng)用,用戶可以進(jìn)行勾畫、搜索最后形成購(gòu)買。
通過(guò)這三個(gè)項(xiàng)目,以及各方面科研,我們有很多深刻的體會(huì)。在2010年代開(kāi)始之后,整個(gè)業(yè)界擁有的計(jì)算能力非常強(qiáng)大了,也有了大規(guī)模的數(shù)據(jù)。而且這些數(shù)據(jù)就是由大規(guī)模的人群產(chǎn)生,因?yàn)楦卟l(fā)往往背后是一個(gè)大規(guī)模的普通用戶人群的出現(xiàn)。
這三者的合力其實(shí)給了我們一些契機(jī),讓我們覺(jué)得數(shù)據(jù)驅(qū)動(dòng)方法已經(jīng)不能只局限于以前的小規(guī)模小樣本的數(shù)據(jù),這個(gè)大數(shù)據(jù)的時(shí)代真的是來(lái)臨了。
但在這個(gè)心里面,其實(shí)一直記得當(dāng)時(shí)有一個(gè)宿愿,就是怎么樣做機(jī)器人這件事情?因?yàn)閷?duì)于機(jī)器人,我們總是覺(jué)得它是很有智慧,很有力量的。它的這種能力的來(lái)源,是不是可以通過(guò)這種大計(jì)算、大并發(fā)與大數(shù)據(jù)的依托去做呢?這是當(dāng)時(shí)放在腦子里的一個(gè)問(wèn)題。
智能家居時(shí)代
正是因?yàn)槲覀冊(cè)?010年左右完成的這一系列項(xiàng)目,使得各方面的合作紛至沓來(lái),我們也有機(jī)會(huì)結(jié)合一些具體的項(xiàng)目來(lái)思考大數(shù)據(jù)如何應(yīng)用到機(jī)器人。后續(xù)我們做了兩個(gè)方面的探索:一個(gè)是在原有可視計(jì)算方面的探索,另一個(gè)是對(duì)人工智能與可視分析方法的探索。而這兩個(gè)探索的背景,是我們觀察到,最近幾年整個(gè)IT行業(yè)已進(jìn)入到智能家居時(shí)代。
可視計(jì)算方面
我們發(fā)現(xiàn)了一個(gè)趨勢(shì),那就是視覺(jué)技術(shù)的重新興起。比方說(shuō)我們?cè)赗okid做了很多新的技術(shù)研發(fā),特別是人臉?lè)矫?。我們從人?a target="_blank">檢測(cè)、人臉識(shí)別、人臉表情、年齡判斷到性別判斷,做了一系列的工作。最近一段時(shí)間,我們?cè)谌四樐挲g識(shí)別方面,在某一個(gè)人臉數(shù)據(jù)庫(kù)上已經(jīng)刷到了世界第一,因?yàn)槲覀冋业搅艘环N新的計(jì)算方法。
另外,我們?cè)谑謩?shì)識(shí)別方面也做了一些很有益的探索。當(dāng)時(shí)我們?cè)谠O(shè)計(jì)Rokid的時(shí)候,有一個(gè)初衷,希望除了人能通過(guò)語(yǔ)言跟Rokid進(jìn)行交互,還能通過(guò)視覺(jué)通道來(lái)做各種各樣場(chǎng)景的交互,手勢(shì)是其中非常重要的一種手段。
人臉也好,手勢(shì)也好,其實(shí)我們發(fā)現(xiàn),思路基本上都是通過(guò)大量數(shù)據(jù)的累積,來(lái)訓(xùn)練合適的模型。這種模型再結(jié)合具體的場(chǎng)景,進(jìn)行進(jìn)一步的改造跟提升,就能使它更加實(shí)用化。這其實(shí)是一個(gè)非常有意義的探索。在這個(gè)過(guò)程當(dāng)中,不僅僅是簡(jiǎn)單去用深度學(xué)習(xí)等大數(shù)據(jù)處理方法,也要把之前小樣本學(xué)習(xí)里面的各種技術(shù),比方說(shuō)各種統(tǒng)計(jì)的方法要綜合利用起來(lái)。
Rokid是家庭里面的伙伴,所以我們覺(jué)得對(duì)Rokid這樣的設(shè)備,對(duì)家庭環(huán)境的認(rèn)知其實(shí)是非常重要的。所以我們結(jié)合相關(guān)項(xiàng)目的需求,著重做了幾件事情:第一個(gè),我們研發(fā)了一個(gè)技術(shù),就是如何從建筑平面圖當(dāng)中能夠快速的重建室內(nèi)三維結(jié)構(gòu)。因?yàn)閷?duì)于整個(gè)家庭環(huán)境來(lái)講,整個(gè)三維結(jié)構(gòu)的建立是非常重要的,而讓一般人去做一個(gè)交互生成一個(gè)三維的建筑平面圖,并不是每個(gè)人都可以完成的。所以比較合適的、折中的方式,就是盡量通過(guò)一些比較容易獲取的手段拿到這個(gè)三維信息。一個(gè)思路是,比如說(shuō)樓道里經(jīng)常有一些建筑平面圖,類似于消防方面的信息,我們的技術(shù)可以通過(guò)這個(gè)圖直接進(jìn)行構(gòu)建。另外一個(gè)思路是,我們也做過(guò)嘗試,就是怎么樣從深度圖像里面去重建三維場(chǎng)景,這也是最近大家比較關(guān)心的一塊內(nèi)容就是SLAM。只有你對(duì)三維場(chǎng)景有認(rèn)知之后,很多家庭的應(yīng)用,場(chǎng)景里面的應(yīng)用就可以真的做起來(lái)了。
還有一個(gè)很有趣的點(diǎn),怎么樣把視覺(jué)的方法跟語(yǔ)音的方法結(jié)合起來(lái),或者說(shuō),做所謂的多模態(tài)識(shí)別?舉個(gè)例子,當(dāng)Rokid看到一個(gè)人的時(shí)候,不光是“見(jiàn)其形”,也是“聞其聲”。只有在此基礎(chǔ)上,我們對(duì)于見(jiàn)到那個(gè)人有更多的認(rèn)知,對(duì)他的了解或者判斷會(huì)更加的準(zhǔn)確。所以其實(shí)在這里是有很多的事情可以去做的,我們最近也在做這方面的一些探索。總的來(lái)說(shuō),這些內(nèi)容是在可視計(jì)算方面與智能家居的一個(gè)結(jié)合點(diǎn)。
人工智能與可視化分析
智能家居時(shí)代跟可視化分析是緊密結(jié)合在一起的。一個(gè)重要原因是在于:像這樣的智能家居設(shè)備,會(huì)產(chǎn)生大量的后臺(tái)日志信息,而如何重用這些信息,本來(lái)就是一件非常有趣的事情。
舉幾個(gè)我們最近幾年研究的案例。比方說(shuō)我們?cè)诤笈_(tái)搜集Rokid的一個(gè)應(yīng)答內(nèi)容,它是一種短文本信息。當(dāng)時(shí)我們?yōu)榱俗鰧?shí)驗(yàn),大概搜集了200萬(wàn)條短文本信息。我們希望通過(guò)這個(gè)短文本信息,能夠做一個(gè)應(yīng)答場(chǎng)景的判斷。比方說(shuō),你跟Rokid講一句話,“若琪,我想聽(tīng)歌”,其實(shí)應(yīng)該是個(gè)音樂(lè)場(chǎng)景;而“若琪,今天天氣怎么樣”是一個(gè)天氣的問(wèn)答場(chǎng)景。后來(lái),我們就是拿了這200萬(wàn)條的數(shù)據(jù),采用了一個(gè)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了訓(xùn)練。在這個(gè)方法當(dāng)中,我們做了一個(gè)特別的嘗試,就是“不分詞”。因?yàn)镽okid的主要用戶是講中文、普通話的人群,所以我們需要對(duì)中文進(jìn)行針對(duì)性的處理。
我們知道,中文處理往往面臨一個(gè)問(wèn)題需要對(duì)中文進(jìn)行分詞。但是實(shí)際上我們后來(lái)發(fā)現(xiàn),中文未必需要進(jìn)行分詞。我們可以把中文里面的每一個(gè)字看成是一個(gè)單元,然后把它作為一個(gè)構(gòu)建神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),來(lái)進(jìn)行一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò)構(gòu)建。通過(guò)這個(gè)網(wǎng)絡(luò)的構(gòu)建,我們就能夠做出一個(gè)很好的分類模型,當(dāng)時(shí)我們用了GPU來(lái)進(jìn)行數(shù)據(jù)的訓(xùn)練之后,大概能達(dá)到97%的準(zhǔn)確率。所以從這個(gè)方面來(lái)說(shuō),是一個(gè)很有意義的嘗試。雖然我本身不是做自然語(yǔ)言處理的,但是因?yàn)檫@些問(wèn)題背后面臨的數(shù)據(jù),在那些問(wèn)題里是相通的。使得我們有機(jī)會(huì)來(lái)做一個(gè)有益的嘗試。
從而我們發(fā)現(xiàn),這個(gè)數(shù)據(jù)本身雖然是大規(guī)模的,但每一條數(shù)據(jù)單位的信息量很少。只有集合在一起,這個(gè)數(shù)據(jù)的價(jià)值才是很高的,才有豐富的內(nèi)涵值得我們?nèi)ネ诰?。在Rokid短文本的訓(xùn)練當(dāng)中,我們還得到了一些啟示:是不是可以對(duì)一般的數(shù)據(jù),也采用類似的自然語(yǔ)言處理的方法,來(lái)進(jìn)行學(xué)習(xí)訓(xùn)練,最后獲得一些好的分析結(jié)果。
當(dāng)時(shí)正好有一位朋友,給了我一個(gè)千萬(wàn)級(jí)的手機(jī)日志數(shù)據(jù)。所以我們?cè)谶@個(gè)數(shù)據(jù)集合上面,做了一些探索。這個(gè)案例里,我首先介紹下這個(gè)數(shù)據(jù)本身。大家知道,現(xiàn)在手機(jī)在運(yùn)行過(guò)程當(dāng)中,后臺(tái)會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)會(huì)由一些專門的日志分析公司進(jìn)行搜集。我所拿到這份數(shù)據(jù)里,是一份每個(gè)手機(jī)里面安裝的應(yīng)用表的數(shù)據(jù)?,F(xiàn)在好多HR在面試人的時(shí)候,經(jīng)常會(huì)問(wèn)對(duì)方要手機(jī),看對(duì)方的手機(jī)里面裝了什么樣的應(yīng)用,因?yàn)榭梢酝ㄟ^(guò)一個(gè)人在手機(jī)里面安裝應(yīng)用,大概能夠分析出這個(gè)人的興趣、愛(ài)好,平常喜歡干些什么。我們就是利用這個(gè)原理,抽取了這么一個(gè)千萬(wàn)級(jí)用戶的應(yīng)用列表,希望通過(guò)這個(gè)應(yīng)用列表來(lái)分析用戶的興趣點(diǎn),也就是通常所說(shuō)的用戶畫像。在這個(gè)應(yīng)用當(dāng)中,其實(shí)我們是把后臺(tái)的日志數(shù)據(jù)通過(guò)某種形式的轉(zhuǎn)化,轉(zhuǎn)化成了一個(gè)個(gè)“文本”。通過(guò)這個(gè)“文本”再做一些語(yǔ)義分析,我們就獲得了人群的聚類信息,相當(dāng)于我們給每個(gè)人或者說(shuō)“文本”做了一個(gè)量化,量化成了一個(gè)向量。
有了這個(gè)量化信息之后,我們?cè)谶@么一個(gè)大規(guī)模的數(shù)據(jù)上面,就可以再進(jìn)一步進(jìn)行可視化。我們分別做了兩種可視化,包括宏觀的和微觀的。通過(guò)這個(gè)可視化,我們可以看到各個(gè)人群的興趣和愛(ài)好,他是不是對(duì)游戲感興趣,或者說(shuō)他是不是對(duì)于QQ、聊天之類的感興趣。這個(gè)其實(shí)是有很大的業(yè)務(wù)場(chǎng)景可以去應(yīng)用的。
這樣的數(shù)據(jù)如果只是數(shù)據(jù)層面去進(jìn)行分析,去進(jìn)行統(tǒng)計(jì)的話,是不直觀的。所以在這項(xiàng)研究當(dāng)中,我們充分利用了最近大家都在談的地理信息可視化方法。我們把所有的數(shù)據(jù)都投在一個(gè)地圖上面,投在這么一個(gè)空間上面,做時(shí)空數(shù)據(jù)的分析。為此,我們找了很多專家,讓他們?nèi)タ次覀兊目梢暬Y(jié)果,大家都覺(jué)得這個(gè)很有意思,因?yàn)榭梢詮倪@個(gè)地理信息的可視化上直接發(fā)現(xiàn)一些端倪和趨勢(shì)。
后來(lái)我們又延續(xù)了這個(gè)思路,分析了杭州市運(yùn)營(yíng)車輛的數(shù)據(jù)。這個(gè)數(shù)據(jù)規(guī)模也差不多是一個(gè)十萬(wàn)級(jí)別車輛的數(shù)據(jù),總共一個(gè)月的信息,我們做了一個(gè)統(tǒng)計(jì)跟可視分析。在這個(gè)案例里邊,我們同樣的是把汽車的軌跡轉(zhuǎn)化成像文本一樣的內(nèi)容。你可以認(rèn)為一條汽車軌跡就是一個(gè)文本,既然是一個(gè)文本的話,我們就可以來(lái)進(jìn)行量化分析,用自然語(yǔ)言的方法來(lái)進(jìn)行處理。通過(guò)這個(gè)量化處理之后,我們就又可以對(duì)每條軌跡做一個(gè)畫像,然后千千萬(wàn)萬(wàn)的軌跡匯聚在一起,我們最后可以對(duì)一天24小時(shí)獲得24個(gè)不同的交通轉(zhuǎn)換圖。有了這個(gè)圖之后,我們就可以進(jìn)一步的來(lái)看看每個(gè)時(shí)段在城市里面各個(gè)關(guān)節(jié)要點(diǎn),是如何在進(jìn)行各種車輛之間的轉(zhuǎn)換的。是不是某時(shí)段從城西到城東去買東西的很多?或者在某一個(gè)區(qū)間段到機(jī)場(chǎng)會(huì)比較繁忙?
這兩個(gè)應(yīng)用案例里面,其實(shí)沒(méi)有用到太多的深度學(xué)習(xí)方法,但是其實(shí)里面也包含了一種人工智能的智慧。因?yàn)槲覀兪菍?duì)這種大規(guī)模的數(shù)據(jù)進(jìn)行了深度的分析,看起來(lái)真的是有一點(diǎn)智能。而在這樣的案例當(dāng)中,人也參與到了整個(gè)的分析過(guò)程當(dāng)中,起到了對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步梳理,設(shè)計(jì)整個(gè)處理過(guò)程的作用。
對(duì)于云計(jì)算,之前我們搞過(guò)那些大計(jì)算的任務(wù),也做過(guò)類似的一個(gè)研究。因?yàn)槲覀冊(cè)谧鲣秩驹频臅r(shí)候,曾經(jīng)遇到過(guò)云計(jì)算后臺(tái)有大規(guī)模的數(shù)據(jù)在那里。對(duì)于整個(gè)并行計(jì)算運(yùn)行的數(shù)據(jù),那些CPU,對(duì)內(nèi)存的占用等各種信息,其實(shí)我們都有,但是靠人是看不過(guò)來(lái)的。然而機(jī)器可以,機(jī)器可以把這些數(shù)據(jù)給記錄下來(lái),然后計(jì)算。所以我們就想了一個(gè)方法,是不是能夠把機(jī)器記錄下來(lái)的數(shù)據(jù)進(jìn)行可視化,再讓人來(lái)做進(jìn)一步的分析。這個(gè)方面的問(wèn)題,其實(shí)我們前前后后做了將近三四年的研究。開(kāi)始的話也沒(méi)有什么眉目,直到最近兩年我們通過(guò)跟UC Davis的馬匡六教授合作,做了一個(gè)有趣的工作,發(fā)表在了今年的IEEE TVCG上面。我們把云計(jì)算各種各樣的指標(biāo)做了一個(gè)綜合,而這些指標(biāo)通過(guò)可視化的系統(tǒng)可以展現(xiàn)出來(lái)。通過(guò)這么一個(gè)可視化的方法,我們把他稱為行為線,英文叫Behavior Line。對(duì)于每一臺(tái)機(jī)器,對(duì)于一個(gè)集群里面的每一個(gè)計(jì)算節(jié)點(diǎn),我們都可以進(jìn)行刻劃,然后通過(guò)這些行為線的匯聚進(jìn)行可視化之后,我們可以分析清楚在一個(gè)集群當(dāng)中很多分布式的計(jì)算任務(wù)是如何進(jìn)行調(diào)度的,他整個(gè)的計(jì)算生命周期當(dāng)中的各種資源是如何進(jìn)行變化的。通過(guò)這種分析,我們可以進(jìn)一步知道,在一個(gè)云計(jì)算集群里面,計(jì)算資源是如何分配,可以如何進(jìn)行優(yōu)化的。
最后一個(gè)案例也是關(guān)于Rokid的,上半年我們做的一項(xiàng)很有趣的工作,把Rokid的很多日志數(shù)據(jù)按照時(shí)間,按照月、星期、天進(jìn)行了一個(gè)可視化,我們把這樣的分析稱為“可視化敘事分析”。因?yàn)槲覀兿M酪粋€(gè)用戶或者一群用戶在使用Rokid的時(shí)候,一天做了哪些事情?在這個(gè)項(xiàng)目當(dāng)中,我們把整個(gè)日志數(shù)據(jù)進(jìn)行了清洗,進(jìn)行各種各樣的整理,也通過(guò)類似前面所講的自然語(yǔ)言處理的方法,進(jìn)行了分類。用戶的行為,通過(guò)這種方法,還真可以顯現(xiàn)出來(lái)他每一天的規(guī)律??梢哉f(shuō)是“躍然圖上”了。
未來(lái)
從我非常個(gè)人的理解來(lái)說(shuō),人工智能是一種基于數(shù)據(jù)的累積,是一種數(shù)據(jù)驅(qū)動(dòng)的方法。這個(gè)跟我個(gè)人的研究經(jīng)歷有關(guān)系。從小數(shù)據(jù)時(shí)代到大數(shù)據(jù)時(shí)代,到后面的智能家居,對(duì)各種各樣應(yīng)用數(shù)據(jù)的處理,我們深深的體會(huì)到這種數(shù)據(jù)驅(qū)動(dòng)方法是無(wú)處不在的。而且人工智能應(yīng)該是人的智慧與機(jī)器智能的融合。因?yàn)樵谖覀兊难芯慨?dāng)中,特別是最近一段我們?cè)诳梢暦治鲱I(lǐng)域的些微進(jìn)展,讓我特別確信這一點(diǎn)。在這個(gè)過(guò)程當(dāng)中,存在人與機(jī)的互動(dòng)。這個(gè)最早在我們開(kāi)始做人機(jī)交互的時(shí)候,其實(shí)我隱隱當(dāng)中已經(jīng)覺(jué)得有這種因素在。因?yàn)樵谶@個(gè)過(guò)程當(dāng)中,機(jī)器往往負(fù)責(zé)的是機(jī)械邏輯方面的一些計(jì)算,各種數(shù)據(jù)的清洗,非常繁復(fù)的工作,而且轉(zhuǎn)得非常快。人負(fù)責(zé)思考,進(jìn)行數(shù)據(jù)的整理,從宏觀方面,從邏輯方面,進(jìn)行進(jìn)一步的分析。同時(shí)這種機(jī)器和人之間的互動(dòng)形成了一個(gè)閉環(huán)。我相信這種閉環(huán)對(duì)于我們這種數(shù)據(jù)科學(xué),對(duì)人工智能,甚至對(duì)因人工智能而所產(chǎn)生的智能家居設(shè)備,它的制造、生產(chǎn)以及設(shè)計(jì)各個(gè)環(huán)節(jié),都會(huì)是有很大的助益的。
最后,我想響應(yīng)一下鈦坦白這個(gè)系列的題目“AI已來(lái)”。我真的覺(jué)得,在最近一段時(shí)間,有林林種種各種各樣的視覺(jué)硬件,比如說(shuō)基于TOF的相機(jī),各種視覺(jué)硬件在不停的冒出來(lái)。同時(shí),因?yàn)樯疃葘W(xué)習(xí)、增強(qiáng)學(xué)習(xí)等,這些算法的重新興起與重新發(fā)展,相關(guān)的一些類腦智能芯片硬件正在出現(xiàn)。這些新的視覺(jué)硬件、新的智能處理器件,對(duì)于發(fā)展機(jī)器人或者人工智能領(lǐng)域,是有極大的促進(jìn)的??梢韵嘈胚@些技術(shù)都將逐漸融匯到像Rokid這樣的智能家居設(shè)備當(dāng)中,讓Rokid,讓這樣的家居設(shè)備能夠通過(guò)這些方法更加懂我們,懂我們?nèi)祟?,然后幫助我們?nèi)祟?。最后跟我們?cè)谝黄?,融為一體,我想這個(gè)才是人工智能的真諦。
另,最近rokid的同事們?cè)谧匀徽Z(yǔ)言處理、語(yǔ)音識(shí)別、遠(yuǎn)距離喚醒、視覺(jué)識(shí)別方面都有了新的突破,大家可以期待。
評(píng)論
查看更多