本文為將門(mén)線上技術(shù)社群直播兩周年&100期特別活動(dòng)第一期、阿里巴巴集團(tuán)副總裁、高級(jí)研究員華先勝老師強(qiáng)勢(shì)回歸的分享回顧。華老師結(jié)合阿里巴巴在電商、城市計(jì)算、工業(yè)、醫(yī)療和設(shè)計(jì)等領(lǐng)域的人工智能技術(shù)和應(yīng)用上的探索和實(shí)踐,通過(guò)每一個(gè)Case Study,和我們一起詳細(xì)探討了如何才能讓人工智能成為實(shí)實(shí)在在創(chuàng)變未來(lái)的持續(xù)力量。
最近我正好看到一個(gè)文件,說(shuō)美國(guó)綜合了很多調(diào)研報(bào)告,總結(jié)了20項(xiàng)在未來(lái)30年將會(huì)改變世界的技術(shù),我自己看了一眼,發(fā)現(xiàn)前面10項(xiàng)基本上都跟人工智能直接、或間接相關(guān)。
所以,看得出來(lái)人工智能在將來(lái)的世界里未來(lái)30年會(huì)扮演非常重要的角色,它將會(huì)影響各行各業(yè)。
那這些行業(yè)到底會(huì)發(fā)生什么樣的變化,是被顛覆、會(huì)被改變、還是會(huì)對(duì)它整個(gè)布局、整個(gè)發(fā)展、整個(gè)狀態(tài)發(fā)生或大或小的變化,我們分享完以后可以回來(lái)再看一下。
前面是一個(gè)引子,接下來(lái)解釋一下今天的題目。無(wú)行業(yè),不AI有兩種解釋方法。
第一,無(wú)行業(yè)不AI。沒(méi)有一個(gè)行業(yè)沒(méi)有AI,也就是說(shuō)所有行業(yè)都會(huì)有AI降臨(這個(gè)可能有些夸張,可以說(shuō)是大部分行業(yè)吧),就是說(shuō)AI將會(huì)滲透到各行各業(yè)里。
第二,無(wú)行業(yè),不AI。就是說(shuō)不深入行業(yè)的話是沒(méi)有成功的AI的。我經(jīng)常聽(tīng)到的、也是經(jīng)常講的一句話,也是在阿里里經(jīng)常討論的一句話,就是說(shuō)今天我們通用的計(jì)算是有的,但通用的AI是沒(méi)有的。所以,AI的技術(shù)要讓它真正的落地,一定是要深入一個(gè)行業(yè),為什么這么說(shuō)、為什么這樣做才可以?后面我們會(huì)根據(jù)實(shí)例來(lái)一步步拆解。
第三,視覺(jué)智能。因?yàn)槲沂亲鲆曈X(jué)的,所以重點(diǎn)從視覺(jué)智能案例一起來(lái)分析。視覺(jué)智能也是這次人工智能的熱點(diǎn),因?yàn)楫吘箯膽?yīng)用的場(chǎng)景看,從今天技術(shù)成熟度來(lái)看,也是視覺(jué)方面做的更為靠前。人的信息獲取絕大部分都是視覺(jué),有人是70%、有人是80%、有人是90%,但至少有70%以上是從視覺(jué)獲取的。所以,這一部分的信息也是最重要的。
第四,探索與實(shí)踐。我今天講的例子還算相對(duì)比較成功的。其實(shí)背后還有很多辛酸、眼淚,今天就不見(jiàn)得給大家分享了,但中間一些坑我可能會(huì)提到。
今天的AI,我套用主席的一句詩(shī)叫“天生一個(gè)仙人洞,無(wú)限風(fēng)光在險(xiǎn)峰”。確實(shí)首先AI非常風(fēng)光,AI行業(yè)的工資也非常高,現(xiàn)在AI的人才也比較難雇。不管是從工資也好、還是融資、估值等之類的角度看,都很風(fēng)光,但這個(gè)風(fēng)光確實(shí)有點(diǎn)像在險(xiǎn)峰上。
所以我后面想接一句“卻是容易翻車處”。要保證不翻車的話,很重要的是要在商業(yè)上要有成功。商業(yè)上的成功很重要的一條是誰(shuí)來(lái)買(mǎi)單。我們不希望只是VC買(mǎi)單,一個(gè)個(gè)往下接盤(pán),看上去好像也有人買(mǎi)單似的,但這個(gè)肯定不是我們希望的,也是不能長(zhǎng)久的。
在商業(yè)上的成功關(guān)鍵是什么呢?刷榜、PR、融資還是估值?我想除了這些以外,還有一個(gè)就是我們今天的主題,即行業(yè)壁壘。
我講行業(yè)壁壘的時(shí)候,并不是著重說(shuō)我們需要跟這個(gè)行業(yè)誰(shuí)誰(shuí)誰(shuí)有什么關(guān)系,也不僅僅是行業(yè)的知識(shí)。
今天我講的行業(yè)壁壘是我們對(duì)行業(yè)深入的理解,對(duì)行業(yè)的數(shù)據(jù)、對(duì)行業(yè)的問(wèn)題、對(duì)行業(yè)的用戶非常深入地理解它,為解決這個(gè)行業(yè)真正的問(wèn)題,為這個(gè)行業(yè)的用戶、客戶帶來(lái)真正不可帶替代的價(jià)值。從這個(gè)角度來(lái)講,它會(huì)成為一個(gè)壁壘,而且這個(gè)壁壘我個(gè)人認(rèn)為可能會(huì)是更重要的壁壘。
前面說(shuō)了一些自己的觀點(diǎn),后面我們還是從具體例子看一下。
視覺(jué)設(shè)計(jì)
這個(gè)其實(shí)做的人會(huì)比較少一點(diǎn)。曾經(jīng)Google的DeepMind做過(guò)這個(gè),今天我講的是更能夠商用的,更有商業(yè)價(jià)值的一種設(shè)計(jì),而不是看著好玩的。
設(shè)計(jì)行業(yè),我們這里主要講二維設(shè)計(jì)平面設(shè)計(jì),但實(shí)際上還有三維、還有動(dòng)畫(huà)、視頻等。這個(gè)行業(yè)據(jù)說(shuō)有4000萬(wàn)從業(yè)人員,他有很多工具,離線工具、在線工具,還有很多模塊、很多素材,據(jù)說(shuō)中國(guó)整個(gè)市場(chǎng)容量是3000億,其實(shí)還是蠻大的。
現(xiàn)在這個(gè)行業(yè)基本上都是人工來(lái)做,效率還是比較低的。有很多工作并不需要頂級(jí)設(shè)計(jì)師來(lái)完成,但又不是說(shuō)隨便一個(gè)人就能設(shè)計(jì)出來(lái)的。我們看到這個(gè)情況以后,尤其在電商領(lǐng)域,阿里有這樣一個(gè)很大的應(yīng)用場(chǎng)景,有大量的商品廣告(我們把它叫“Banner”),我們就開(kāi)始思考這個(gè)問(wèn)題的解決方案。
這個(gè)廣告在電商的網(wǎng)站上經(jīng)常出現(xiàn),每天的需求量也非常大,我們就以這個(gè)作為突破口開(kāi)始去看,我們能不能依靠算法能夠達(dá)到初級(jí)設(shè)計(jì)師的水平。
在AI行業(yè),大部分人做的都是識(shí)別、理解、搜索。這個(gè)基本上是從視覺(jué)的信號(hào)里去獲取語(yǔ)義、或特征,而設(shè)計(jì)其實(shí)是反過(guò)來(lái)的,是生成或融合視覺(jué)信號(hào)。
今天也有一些這個(gè)方向的學(xué)術(shù)工作,像Style Transfer,很早就有人做了,也不難實(shí)現(xiàn)。但說(shuō)真正商用的東西,還不多見(jiàn),今天我來(lái)介紹的就是一個(gè)這樣的例子。
整個(gè)2D設(shè)計(jì),目標(biāo)是可控視覺(jué)內(nèi)容的設(shè)計(jì)與生成。給定一些要求、一些素材以后,要設(shè)計(jì)成一個(gè)稿子,每個(gè)人設(shè)計(jì)出來(lái)的都是不一樣的,不大可能有兩個(gè)互相不參考的人能夠設(shè)計(jì)出同樣一個(gè)東西來(lái)。我們也是這樣的。我們既要給他足夠大的自由度,但也有一定的可控性。所以我們這個(gè)系統(tǒng)做出來(lái)以后,其實(shí)每次同樣的輸入,每次輸出的數(shù)據(jù)結(jié)果都可以是不一樣的。
所以,我們的目標(biāo)是:可控視覺(jué)內(nèi)容設(shè)計(jì)與生成,讓AI做設(shè)計(jì),使數(shù)據(jù)內(nèi)容、制造變得高質(zhì)、高效、普惠、低成本。愿景是:“所想、即所見(jiàn)、即所得”。這個(gè)稍微夸張了一點(diǎn),但實(shí)際上你還是要把一些素材,例如文字、圖片送到系統(tǒng)中去,后面出來(lái)的就是你想要的東西。
這里基本的技術(shù)包括了圖像的理解,包括了增強(qiáng)、編輯、渲染、生成、評(píng)估等,因?yàn)槲覀儽仨氈牢覀冏龀鰜?lái)的東西是好還是壞,而且要自動(dòng)做出評(píng)估。
下面這張圖是一個(gè)非常High level的系統(tǒng)構(gòu)成,所想+云上的視覺(jué)(智能生成引擎),我們即所見(jiàn)、即所得的是三類東西。
第一類的東西應(yīng)該很快就會(huì)面世、發(fā)布,我們內(nèi)部叫鹿班,也就是二維圖像的設(shè)計(jì)和生成。現(xiàn)在我們還在做的是三維的圖像生成。
這項(xiàng)技術(shù)在去年的雙11上得到了非常充分的運(yùn)用。這項(xiàng)技術(shù)有了以后,對(duì)于每一個(gè)不同的產(chǎn)品會(huì)有不同的設(shè)計(jì)出來(lái)。我們做個(gè)性化推薦、搜索的時(shí)候是要千人千面,每個(gè)人的結(jié)果不一樣。有了這項(xiàng)技術(shù)之后,是千貨千面,合起來(lái)就是千人、千貨、千千面。
所以,每一個(gè)不同的人對(duì)同一件商品會(huì)得到不同的設(shè)計(jì),因?yàn)橄到y(tǒng)會(huì)根據(jù)他的喜好會(huì)得到不同的設(shè)計(jì),可以以他更喜歡的方式來(lái)展現(xiàn)這個(gè)商品。
在去年雙11的時(shí)候,有4.1億的設(shè)計(jì)是用算法生成的。峰值的時(shí)候,每天可以生成5000萬(wàn)個(gè),生成完以后直接就上線了。
我們把這個(gè)系統(tǒng)成功做出來(lái),其中一定要有設(shè)計(jì)師一起來(lái)深度參與的,因?yàn)楫吘刮覀兪亲黾夹g(shù)的人,不熟悉設(shè)計(jì)的原理。
大家可以看到剛才這個(gè)技術(shù)實(shí)際上有點(diǎn)想革設(shè)計(jì)師的命,那設(shè)計(jì)師怎么會(huì)跟你合作呢。我們?cè)谧龊芏嘈袠I(yè)的時(shí)候,比如像醫(yī)療,有時(shí)也會(huì)引起一些恐慌。其實(shí)我想這可能是還沒(méi)有真正理解AI到底能做什么、到底什么東西是不能做的。
我們?cè)趯で笤O(shè)計(jì)師合作的時(shí)候一定要找頂級(jí)設(shè)計(jì)師來(lái)合作,然后才能做出來(lái)一個(gè)AI的設(shè)計(jì)師(大概是一個(gè)入門(mén)級(jí)水平的設(shè)計(jì)師)。
但現(xiàn)在我們的AI設(shè)計(jì)師也只能做到這種比較有模式的設(shè)計(jì)。如果要做的非常有創(chuàng)新,今天的算法還是完成不了的。
所以,實(shí)際上設(shè)計(jì)師是不會(huì)失業(yè)的。但如果你只是一個(gè)二流、三流的平面設(shè)計(jì)師,可能會(huì)失業(yè)。這個(gè)其實(shí)也是在深入行業(yè)的時(shí)候碰到了一個(gè)很有意思的問(wèn)題。有些行業(yè)我們雖然會(huì)顛覆它,但這個(gè)行業(yè)里的頂尖高手一定會(huì)有他們的未來(lái),我想也會(huì)促使我們每個(gè)行業(yè)的從業(yè)者,從簡(jiǎn)單、重復(fù)的腦力勞動(dòng)中、或有復(fù)雜但有模式的腦力勞動(dòng)中解放出來(lái),這是第一個(gè)例子。
視頻廣告
我記得在很多年前,YouTube剛出來(lái),以及在國(guó)內(nèi)很多視頻網(wǎng)站還在為贏得用戶而戰(zhàn)斗的時(shí)候,可能沒(méi)有多少人關(guān)注廣告,因?yàn)槟菚r(shí)候要吸引用戶,后來(lái)慢慢地開(kāi)始做廣告了。
今天廣告仍然是視頻網(wǎng)站很重要的收入來(lái)源,當(dāng)然也還有會(huì)員費(fèi)的收入。但這個(gè)視頻廣告的體驗(yàn)到底好不好?我放一幅圖在這其實(shí)就是這個(gè)意思,今天我們看到視頻的廣告體驗(yàn)有點(diǎn)像這個(gè)人拿著標(biāo)槍就想把它砸掉,我不知道大家有沒(méi)有這個(gè)體驗(yàn)。
那有沒(méi)有更好的方式來(lái)做視頻廣告。那我們先來(lái)看一下廣告的分類,大致可以分為三類。
一.Video-In。就是把廣告的內(nèi)容插到視頻里去,其實(shí)in有不同的做法。第一種是直接把視頻的片段放進(jìn)去,也有把廣告overlay疊加到視頻里面去,還有把廣告信息作為三維的placement放到場(chǎng)景里面去。
二.Video-Out。就是說(shuō)從video已有的內(nèi)容往外做,里面有什么商品、有什么人物,然后給一個(gè)上下文相關(guān)的廣告。
三.廣告設(shè)計(jì)。這個(gè)跟剛才講到的內(nèi)容是類似的,這里就不再講了。
這里我給大家講兩個(gè)例子。
案例一:場(chǎng)景關(guān)聯(lián)的廣告。這個(gè)我們也是在優(yōu)酷土豆上做過(guò)的技術(shù),是基于對(duì)視頻的里的目標(biāo)和場(chǎng)景進(jìn)行分析來(lái)做上下文關(guān)聯(lián)廣告。今天的視頻識(shí)別技術(shù)遠(yuǎn)遠(yuǎn)比以前做得更精細(xì),所以我們可以根據(jù)識(shí)別的目標(biāo)和場(chǎng)景做內(nèi)容更為相關(guān)的廣告。
這里還有一些關(guān)于大場(chǎng)景判斷的問(wèn)題,這種方式比那種直接放一個(gè)完全不相關(guān)的廣告,用戶的體驗(yàn)會(huì)要好一些。
案例二:植入式的廣告。廣告植入能不能做到更好?做到更好的話就是這種方式——我經(jīng)常把它叫“優(yōu)雅的廣告”,者叫“植入式的廣告”。比如說(shuō)我們檢測(cè)到視頻里有一個(gè)平面,我們就把這個(gè)廣告貼進(jìn)去,像這個(gè)東西本來(lái)就在真實(shí)場(chǎng)景里存在一樣。
這個(gè)技術(shù)當(dāng)然也是要建立在識(shí)別的基礎(chǔ)上,一定要對(duì)這個(gè)場(chǎng)景有非常好的理解,這種理解就分兩類。
對(duì)語(yǔ)義的理解。
對(duì)三維結(jié)構(gòu)的理解。
我們對(duì)它進(jìn)行理解以后,就要找到合適的地方。剛才我們講的是平面上去替換了,其實(shí)在桌面上它還可以放一個(gè)東西,比如放一瓶酸奶,把礦泉水換成別的東西之類的。所以平面的檢測(cè)不管是水平還是豎直的,然后進(jìn)行廣告位的篩選。
這個(gè)技術(shù),包括還有光照分析、模糊分析、遮擋分析之類的,到廣告位的存儲(chǔ),再到線上的實(shí)時(shí)渲染。聽(tīng)起來(lái)有點(diǎn)像增強(qiáng)現(xiàn)實(shí),其實(shí)這里有很多是相通的技術(shù),只不過(guò)在這里它的要求不一樣,它的難度也不一樣。
從難度上來(lái)講,它容易的地方在于我們不需要做到實(shí)時(shí),因?yàn)槲覀兪请x線尋找廣告位,然后在線把它放進(jìn)去,所以大量的計(jì)算是離線完成。
它的難處是我們只有一個(gè)視頻,我沒(méi)有深度、沒(méi)有雙目、沒(méi)有設(shè)備、沒(méi)有相機(jī)的位置,什么都不知道,完全根據(jù)視頻來(lái)做。所以,一般來(lái)說(shuō)只有運(yùn)動(dòng)的視頻,我們才可以通過(guò)structure from motion或類似的技術(shù)去估計(jì)場(chǎng)景的三維信息。
從應(yīng)用角度講,因?yàn)槲覀儾恍枰獙?shí)時(shí),而且也不需要全程地去做渲染,我們可以選擇合適的位置來(lái)做,因?yàn)橐粋€(gè)視頻你做廣告的時(shí)候也不可能全部都做,全部都做的話體驗(yàn)也是非常差的。
我們可以選擇我們最有把握的地方去把廣告放進(jìn)去,從而使得客戶最后渲染出來(lái)的結(jié)果比較真實(shí)、自然。
還有一種情況,像直播的場(chǎng)景,雖然網(wǎng)紅主播就可以掙到很多錢(qián),但我們也不妨用一點(diǎn)點(diǎn)交互,使得它背后的背景墻也變成一個(gè)可以放廣告的地方。這種廣告的插入,需要有一點(diǎn)點(diǎn)交互,不然我們不知道三維的結(jié)構(gòu)。
比如這個(gè)人晃動(dòng)的時(shí)候遮住了后面背景上放廣告的話,應(yīng)該會(huì)產(chǎn)生實(shí)際的遮擋關(guān)系,遮擋的效果,包括相機(jī)如果有輕微抖動(dòng)的話,后墻上的廣告也會(huì)跟著一起來(lái)抖動(dòng)。
視頻廣告其實(shí)一直是一個(gè)視頻網(wǎng)站又愛(ài)又恨的東西,因?yàn)檫@里存在四方的關(guān)系。
視頻網(wǎng)站的服務(wù)商
視頻提供者
廣告
用戶
這四方的體驗(yàn)都是很重要的,廣告做得太多,用戶的體驗(yàn)就會(huì)比較差,廣告商其實(shí)也會(huì)不高興,因?yàn)榭吹娜司蜁?huì)少,效果也不好。如果廣告太少,整個(gè)網(wǎng)站的收入就會(huì)比較少,用戶的體驗(yàn)當(dāng)然是好的,這里有很多權(quán)衡在里面。
包括今天的視頻網(wǎng)站,經(jīng)常也不太敢去嘗試一些非常創(chuàng)新的變化。因?yàn)楸旧碚麄€(gè)大的網(wǎng)站的成本也非常高,目前的模式對(duì)他們有一定的收入,但一旦做很大改變的時(shí)候,引起收入很大的變化,這個(gè)風(fēng)險(xiǎn)也是非常大的。
所以,在這方面有些創(chuàng)新非常難,因?yàn)樗鼛?lái)的效果是立竿見(jiàn)影的,好的效果、壞的效果都是立竿見(jiàn)影的。
視覺(jué)診斷
如何診斷機(jī)器是今天我要講,還有一種是診斷人,診斷人就是醫(yī)療圖像處理,這部分我們今天就不涉及了。
這里有一些跟一般視覺(jué)識(shí)別任務(wù)不一樣的地方。
它的發(fā)生概率比較低,數(shù)據(jù)量也比較少。它通常是一個(gè)小概率事件,而且小概率事件的差異性也比較大。所以我經(jīng)常把它比喻成大海撈針,大海撈針?lè)浅2蝗菀祝夷懿荒芸s小范圍,變成桌面上去找針,在桌面上一看我就知道針在哪里了。
我經(jīng)常用一些數(shù)字來(lái)說(shuō)明這個(gè)問(wèn)題:比如說(shuō)我們要在1萬(wàn)個(gè)樣本里去找其中的10個(gè)有問(wèn)題的樣本。如果不用技術(shù)手段的話,只能這1萬(wàn)個(gè)樣本都看一遍了,那你的勞動(dòng)量就是1萬(wàn)。但我今天有個(gè)技術(shù),雖然我不知道哪10個(gè),但我一定知道在其中那100個(gè)里面。我知道那100個(gè),這10個(gè)一定在那100個(gè)里,這就是從大海撈針到了桌面找針,這時(shí)候這100個(gè)需要人去看。
這時(shí)候我們看的樣本里面只有10個(gè)是對(duì)的,準(zhǔn)確率只有10%,到召回率在這個(gè)理想狀態(tài)是100%。這時(shí)候雖然準(zhǔn)確率雖然只有10%,可我們省的人力是多少?大家可以算一下這個(gè)數(shù)字,省的人力是99%,就是你有99%的人力已經(jīng)省掉了。這個(gè)意義是非常重大的!
這類問(wèn)題實(shí)際當(dāng)中有很多很多,這時(shí)候我們?cè)谧鏊惴ǖ脑O(shè)計(jì)上要求是不一樣的,就是你的recall要非常高,你的精度是可以犧牲一些的。這個(gè)只適合于發(fā)生概率低的事情,帶來(lái)的效果一定是有它的價(jià)值,例如節(jié)省了人力、提升了質(zhì)量、降低了成本,或者增強(qiáng)了安全性。有些情況下是不能用人去看的,人去檢查的話風(fēng)險(xiǎn)比較大,我們可以通過(guò)機(jī)器來(lái)做。
其中,節(jié)省人力是最直接的,比如像剛才講的99%的人力就已經(jīng)節(jié)省掉了,哪怕我不是在那100個(gè)里面去找,而是需要在1000個(gè)里們?nèi)フ遥@時(shí)候準(zhǔn)確率只有1%,但我已經(jīng)省掉了90%的人力,已經(jīng)相當(dāng)了不起了。
接下來(lái)介紹一下行業(yè)視覺(jué)診斷,這里說(shuō)的主要是除了醫(yī)療之外的其它里面視覺(jué)診斷,比如:太陽(yáng)板瑕疵,太陽(yáng)能電池板的瑕疵檢測(cè),蟲(chóng)板的密度估計(jì),列車故障的檢測(cè)等。這里的解決方法大家都可以比較容易想到的,深度學(xué)習(xí)、圖像處理,加上檢測(cè)識(shí)別,但這里每一個(gè)問(wèn)題都看起來(lái)容易,其實(shí)實(shí)際上并不太容易,而且各種情況都有,怎樣才能去避免每一個(gè)場(chǎng)景都重復(fù)去開(kāi)發(fā)一套方法,這個(gè)也是我們需要去思考和解決的問(wèn)題。
行業(yè)診斷的現(xiàn)狀基本上有三種方式。
第一種:全人工實(shí)現(xiàn)的,人力成本非常高。
第二種:有攝像頭,但靠人去觀察。這個(gè)對(duì)于人來(lái)說(shuō)每天壓力很大,他沒(méi)有看出來(lái)后面出現(xiàn)問(wèn)題了,他可能這個(gè)月就白干了。實(shí)際上在我們真實(shí)場(chǎng)景中經(jīng)常發(fā)現(xiàn),人看漏的可能性是非常高的。人會(huì)有疲勞、會(huì)有情緒之類的,所以經(jīng)常會(huì)漏掉。
第三種:簡(jiǎn)單的分析功能,但現(xiàn)在遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到自動(dòng)化的程度。
行業(yè)診斷哪些能做、哪些不能做?
第一類:基本上肉眼內(nèi)容可分辨的其實(shí)是可以做的,所有需要人的肉眼去分辨的東西都可以考慮要不要用人工智能來(lái)識(shí)別。
第二類:還有一些肉眼分辨比較困難,機(jī)器在有些方面能夠比人有更敏銳的洞察力,只要給一定量的數(shù)據(jù),設(shè)計(jì)好算法,有些情況下是可以做的。
第三類:肉眼無(wú)法分辨的,需要輔助措施。比如需要手捏一捏、估計(jì)一下重量,這個(gè)機(jī)器就沒(méi)有辦法了。像內(nèi)胎壁厚薄的檢測(cè)、稻殼含水量的計(jì)算,估計(jì)應(yīng)該過(guò)過(guò)稱才能知道了。
我突然想起來(lái)一個(gè)以前講聽(tīng)過(guò)的笑話,說(shuō)有個(gè)生產(chǎn)線上有肥皂裝到紙盒子里去,生產(chǎn)線上有時(shí)候出現(xiàn)有的盒子沒(méi)有裝肥皂,那怎樣把沒(méi)有裝肥皂的盒子找出來(lái),當(dāng)時(shí)這個(gè)公司花了很多錢(qián),請(qǐng)他們的博士用了很多方法,各種傳感器、各種智能的方法去分析,做出一套東西出來(lái)了。結(jié)果與此同時(shí),有一個(gè)工人在旁邊放了一個(gè)電風(fēng)扇,這個(gè)電風(fēng)扇一開(kāi)動(dòng),沒(méi)有裝肥皂的盒子就被吹走了,很簡(jiǎn)單的方法就解決了這個(gè)問(wèn)題。
這雖然是個(gè)笑話,其實(shí)我們?cè)谡鎸?shí)場(chǎng)景下也可能會(huì)發(fā)生類似的事情。也就是,我們要清楚到底我們能夠提供一些什么樣的價(jià)值,哪些是適合我們技術(shù)來(lái)做的,有些東西可能有更簡(jiǎn)單的方法。
回到案例,第一是太陽(yáng)能電池片的裂紋檢測(cè),這里有多種不一樣的裂紋,有十幾種不同的瑕疵,比如像單條的裂紋、交叉的裂紋等。
目前我們一個(gè)初步的結(jié)果,這個(gè)精度其實(shí)是指“recall”(召回率),快到100%了。誤報(bào)目前是接近3%,這種情況下,根據(jù)整個(gè)電池面板的比例最后大概能省到1/10到1/20的能力。
我們?cè)偻白咭徊降脑挘赡苷5恼`報(bào)率就進(jìn)一步降低到跟人相當(dāng)、或比人還有更好水平的時(shí)候,就完全代替了人工,所以人力的比例會(huì)變成零,但這也要求你的精度足夠高,甚至高過(guò)人。實(shí)際上真正的情況下,機(jī)器的recall要比人的recall高,因?yàn)闄C(jī)器不會(huì)疲勞。
案例二是列車故障的檢測(cè)。我們每天坐的列車,如果進(jìn)了車站從來(lái)沒(méi)有人檢修,一直到出了故障才檢修的話,這個(gè)也是挺恐怖的,其實(shí)大家也不用擔(dān)心,車進(jìn)站的時(shí)候都是有檢修的。
這個(gè)圖片顯示的例子是貨運(yùn)列車,這個(gè)進(jìn)來(lái)以后都會(huì)有檢修,過(guò)去是人要上去檢修,今天有很多公司用的方法都是拍幾千上萬(wàn)張圖片,這些圖片就放到數(shù)據(jù)中心,大家喝著咖啡、喝著茶就可以看了,但其實(shí)他看的時(shí)候壓力是很大的,因?yàn)楹苋菀茁┑簟?/p>
我們當(dāng)時(shí)做了一個(gè)算法,故障的種類也是千奇百怪,有好幾百種,比如開(kāi)關(guān)沒(méi)有關(guān)好、漏油、裂紋等。這個(gè)真的是非常難的問(wèn)題,我們當(dāng)時(shí)做了其中一部分。上線測(cè)試的時(shí)候,人檢漏檢掉而機(jī)器能夠檢出來(lái)的有141個(gè),雖然這里的誤檢率還是蠻高的,因?yàn)檫@個(gè)情況非常復(fù)雜,但實(shí)際上可以大大地減少漏檢的可能性,同時(shí)也可以降低人力。
我們基于這些案例,最后總結(jié)出來(lái)阿里視覺(jué)診斷的引擎。
城市大腦
最后要介紹的是城市大腦。
它要解決的是城市數(shù)據(jù)的問(wèn)題,這個(gè)問(wèn)題提出來(lái)是因?yàn)榻裉斐鞘欣锏臄?shù)據(jù)其實(shí)是非常多的,尤其是攝像頭的數(shù)據(jù)量非常大 。這些數(shù)據(jù)的價(jià)值還還可以進(jìn)一步挖掘,有很多很有意義的、可以解決現(xiàn)在城市管理方面很多難題的一些價(jià)值,把這些挖掘出來(lái)。
為什么能挖掘出來(lái)呢?就是因?yàn)榻裉霢I的技術(shù)、今天的算力到了這樣一個(gè)階段,可以讓我們?nèi)ニ伎肌⑷L試建一個(gè)這樣的“城市大腦”去挖掘城市數(shù)據(jù)的價(jià)值。
我給城市大腦的定義就是用AI和算力挖掘大量城市數(shù)據(jù)不可替代的價(jià)值。這個(gè)價(jià)值是什么?可以有不同的角度去講,城市治理和服務(wù)的數(shù)據(jù)化、智能化,全面實(shí)施全量的優(yōu)化決策、預(yù)測(cè)和干預(yù),帶來(lái)的就是高效、低耗、少能力、便捷等。
城市大腦題目非常大,我們今天主要從其中兩個(gè)角度講即城市交通和安防兩個(gè)角度來(lái)講。
城市目前的幾個(gè)現(xiàn)狀是——
第一,盲人摸象。
整個(gè)城市的感知其實(shí)是有點(diǎn)盲人摸象的。有很多感知手段,地磁線圈微波、卡口、GPS、視頻,但視頻沒(méi)有被充分利用起來(lái),其它的監(jiān)察數(shù)據(jù)的話,設(shè)備也是經(jīng)常損壞,沒(méi)有一個(gè)全面的感知,只是看到了一部分的東西,所以叫“盲人摸象”。
第二,燈下黑。
即使我們用到攝像頭了,其實(shí)大部分城市攝像頭是不太智能的。“燈下黑”就是說(shuō)攝像頭有,可我沒(méi)有辦法去做分析,因?yàn)槟闳肆χ挥羞@么多。攝像頭有很多,幾萬(wàn)、幾十萬(wàn),甚至大城市有上百萬(wàn)的攝像頭。但是,除了查違章有一部分智能攝像頭,其它大部分都是事后去看的和當(dāng)時(shí)少量的人力觀察。
第三,霧里看花。
今天的感知手段不能做全局、全量的實(shí)時(shí)感知。所以我們沒(méi)有辦法去找到很多現(xiàn)象,比如擁堵也好、安全隱患也好,它背后的原因在哪里,所以我們叫霧里看花。
我們進(jìn)一步看城市大腦是什么樣的東西?首先城市有大量的數(shù)據(jù),包括視頻數(shù)據(jù),我今天講的更多也是視頻數(shù)據(jù),而且視頻數(shù)據(jù)跟其它數(shù)據(jù)不一樣的地方在于,視頻數(shù)據(jù)(pixel)是需要進(jìn)行分析的,其它數(shù)據(jù)是直接可以使用的。
所以,我們希望所有攝像頭里視野能看到的東西,我們都能理解,包括:車、人、物、事。
車的情況,什么車、什么速度、往哪里走,車牌。
人的情況,駕駛員、行人、騎自行車的人。
物的情況,各種交通標(biāo)志、拋灑物等之類的。
事的情況,發(fā)生什么事件,有沒(méi)有擁堵、逆行、交通事故等都要理解得很透徹。
有了這些之后,我們就可以進(jìn)行決策和優(yōu)化了,比如簡(jiǎn)單的決策是直接把這個(gè)事件事故的結(jié)果報(bào)告出來(lái),有交警進(jìn)行下一步處理;優(yōu)化比如紅綠燈優(yōu)化,我們知道所有交通的流量,“眼見(jiàn)為實(shí)”地通過(guò)視覺(jué)分析出來(lái)交通的情況,基于此我們可以做更好的紅綠燈配時(shí)的優(yōu)化。
還有,把整個(gè)城市里面的視覺(jué)對(duì)象放到搜索引擎里去,這就是像上次講過(guò)的拍立淘這樣的技術(shù),今天我們做的是城市元素,所以我們把它叫“索引城市”,里面可以進(jìn)行搜索可疑車輛、可疑人,比如失蹤的人、有肇事車輛逃逸等,就可以通過(guò)它來(lái)尋找。當(dāng)然,我們建立這種視覺(jué)數(shù)據(jù)的關(guān)系以后,也可以發(fā)覺(jué)他們之間的規(guī)律,找到他們之間背后的原因。
下一步預(yù)測(cè),雖然我們沒(méi)有辦法預(yù)測(cè)每一個(gè)人、每一輛車的行為,但我們可以預(yù)測(cè)一個(gè)趨勢(shì),比如10分鐘以后的車流是什么,20分鐘以后是什么樣子的,甚至可以做長(zhǎng)時(shí)間的預(yù)測(cè)。短時(shí)間預(yù)測(cè)對(duì)我們GPS導(dǎo)航就很有好處,今天的GPS導(dǎo)航其實(shí)是沒(méi)有預(yù)測(cè)的,預(yù)測(cè)也是用的歷史數(shù)據(jù)做的預(yù)測(cè),不是實(shí)時(shí)數(shù)據(jù)做的預(yù)測(cè)。如果說(shuō)有很好的預(yù)測(cè),那對(duì)你的路徑規(guī)劃可以做的更優(yōu)化。而長(zhǎng)時(shí)間預(yù)測(cè)的話,比如如果對(duì)一個(gè)城市第二天發(fā)生的情況進(jìn)行預(yù)測(cè),比如第二天天氣不好,還有幾個(gè)重要的活動(dòng),你大概能夠估計(jì)出來(lái)明天車流、人流的情況,可能有哪些地方交通擁堵會(huì)增加多長(zhǎng)時(shí)間,哪里交通事故的概率可能會(huì)增加。
有了這些信息以后,你就可以進(jìn)行干預(yù)了。
第一種干預(yù),可以預(yù)先分配這個(gè)資源,預(yù)先放到那里,人力、警力、醫(yī)療資源,一旦出了事情以后,馬上就可以應(yīng)對(duì)。
更厲害的干預(yù),就是比如明天要發(fā)生的不好事情的話,我們可以提前做一些事情不讓它發(fā)生,比如交通的管控、比如誘導(dǎo)等之類的。
關(guān)于城市感知,我們今天提出來(lái)的城市大腦是要做感而全面知、感而全量知、感而實(shí)時(shí)知。這三個(gè)概念我分別簡(jiǎn)單做一下介紹。
全面知,我們需要對(duì)整個(gè)路面上的情況了如指掌,也是今天因?yàn)槲覀冊(cè)谠贫说姆桨赣羞@么大的算力、有這么大的靈活度,以及今天AI技術(shù)的發(fā)展,可以讓我們?nèi)ツ曜霾煌闆r下的精細(xì)目標(biāo)檢測(cè)識(shí)別、跟蹤等之類的,不管是什么天氣、什么質(zhì)量。
事件事故檢測(cè)也是一個(gè)異常檢測(cè)的問(wèn)題,因?yàn)槭录鹿实姆N類樣子也很多,樣本數(shù)量又比較少,跟剛才講的工業(yè)診斷有點(diǎn)像,不過(guò)它不是圖片而是視頻,而是視頻的難度更大。這里我們也是把它變成異常檢測(cè)的問(wèn)題,也就是說(shuō)我們有大量的正常的數(shù)據(jù),我們?nèi)檎5臄?shù)據(jù)建模,有了正常的數(shù)據(jù)的模型,那么異常的視頻片段送進(jìn)來(lái)之后,它的響應(yīng)就會(huì)非常高。
除了全面以外,還有全量、實(shí)時(shí),這更多是兩方面的內(nèi)容。
方面一:系統(tǒng)層級(jí)。背后要有一套計(jì)算平臺(tái)來(lái)支撐,也就是需要有一個(gè)大的視頻處理的平臺(tái)。我們處理一路視頻、兩路視頻沒(méi)有問(wèn)題,處理十路有沒(méi)有問(wèn)題,但處理百路、千路、萬(wàn)路的時(shí)候會(huì)不會(huì)有問(wèn)題?這里其實(shí)要有一套背后的系統(tǒng)來(lái)支撐。我們阿里云有這樣一套系統(tǒng),在這個(gè)基礎(chǔ)上我們就build了一個(gè)視頻處理的流水線。當(dāng)然也有不一樣的地方,因?yàn)閿?shù)據(jù)的吞吐量大,計(jì)算的復(fù)雜度高,所以我們也需要對(duì)它進(jìn)行一些優(yōu)化和改造,使得它能夠吃的進(jìn)去這么大量的數(shù)據(jù),處理得了,還能吐得出來(lái)結(jié)果。
方面二:算法本身的計(jì)算速度。這個(gè)也是非常重要的。如果計(jì)算的成本非常高,就沒(méi)有辦法實(shí)現(xiàn)。所以計(jì)算的加速是非常大的投入,當(dāng)時(shí)我們做了三個(gè)方面的加速:器件加速、模型精簡(jiǎn)和并發(fā)計(jì)算流程的優(yōu)化。
一個(gè)具體例子,就是我們最近發(fā)布的一個(gè)產(chǎn)品,叫“天曜”。這個(gè)產(chǎn)品背后我們做了球機(jī)的算法,使得原來(lái)沒(méi)有智能的球機(jī)變成有智能的球機(jī),就代替了交警的巡邏,而且它可以24小時(shí)巡邏,360度自動(dòng)巡航,可以對(duì)交通違法、交通事故進(jìn)行全面的監(jiān)測(cè)。將來(lái)也許可以自動(dòng)地進(jìn)行處理,現(xiàn)在還是要人力來(lái)處理。
很多交通擁堵都是事故引起的,我們能夠快速地處理,根據(jù)攝像頭看的的內(nèi)容,就知道是誰(shuí)的責(zé)任。不是很嚴(yán)重的話,趕緊走人,以免造成交通擁堵;還有一些嚴(yán)重的事故,我們能夠及時(shí)地發(fā)現(xiàn),及時(shí)地把醫(yī)療資源(救護(hù)車)送過(guò)去就能挽救人的生命。天曜是全天候、全面交通事件、事故感知的一套系統(tǒng)。
這項(xiàng)工作的特點(diǎn)就是充分利用城市既有的監(jiān)控設(shè)備發(fā)揮最大的效率。我們對(duì)現(xiàn)有整個(gè)鏈路、整個(gè)設(shè)備不進(jìn)行任何改變,我們通過(guò)云計(jì)算,把無(wú)智能的設(shè)備變成一個(gè)具有強(qiáng)大人工智能的設(shè)備。讓這個(gè)視頻監(jiān)控實(shí)現(xiàn)了自動(dòng)的巡航、巡檢,實(shí)現(xiàn)了讓機(jī)器替換人力,使得警力可以用在更重要的地方,而不至于用在這樣一個(gè)比較簡(jiǎn)單的場(chǎng)景。我們現(xiàn)在也在跟AI芯片進(jìn)行測(cè)試,成本會(huì)進(jìn)一步降低,能耗也會(huì)降低。
接下來(lái)我們跳出來(lái)看一下,城市大腦不同的地方在哪里?城市大腦的不同之處,我們是通過(guò)大量異構(gòu)城市數(shù)據(jù)中,通過(guò)大規(guī)模的計(jì)算和AI算法挖掘出不可替代的價(jià)值。像剛才講的這些價(jià)值,過(guò)去的方法是沒(méi)有辦法實(shí)現(xiàn)的,人力也是無(wú)法完成的。這就是第二點(diǎn),城市大腦在做的事情是大多是人的智能是不能完成的,因?yàn)樗膹?fù)雜度、計(jì)算量是沒(méi)有辦法完成的,AI在這些方面其實(shí)是超越人力的。
第三點(diǎn)是城市大腦希望有一些會(huì)成為一個(gè)城市基礎(chǔ)設(shè)施,就像水和電一樣。這是創(chuàng)造出來(lái)的一個(gè)需求。
城市大腦是一個(gè)如此巨大的項(xiàng)目,所以我們要把它做成人工智能開(kāi)放創(chuàng)新平臺(tái)的。因?yàn)樗膯?wèn)題復(fù)雜度、數(shù)據(jù)的量、數(shù)據(jù)的復(fù)雜度和要解決問(wèn)題的數(shù)量之多,以及它可能產(chǎn)生的價(jià)值和影響力之大,使得它可以成為一個(gè)創(chuàng)新平臺(tái)。這也是為什么城市大腦會(huì)成為科技部四個(gè)國(guó)家人工智能開(kāi)放創(chuàng)新平臺(tái)之一。
總結(jié)
我們剛才講了四個(gè)例子,核心是要給客戶創(chuàng)造價(jià)值,這個(gè)價(jià)值有的是錦上添花,但基本上是雪中送炭和創(chuàng)造出來(lái)的剛需為主,因?yàn)檫@部分更有競(jìng)爭(zhēng)力一點(diǎn),在商業(yè)上也更容易成功。
我們?cè)倩氐阶铋_(kāi)始,確實(shí)人工智能會(huì)去改變、去顛覆、去革新各個(gè)行業(yè)。所以我經(jīng)常講的一句話是:Intelligence Everywhere,勢(shì)不可當(dāng)。我們從業(yè)者在這其中,到底是成為“勢(shì)”還是“擋”,這是我們不同的選擇,不同的選擇和策略,可能成為擋,也可能成為勢(shì)。
人工智能對(duì)行業(yè)的影響一定會(huì)進(jìn)入各行各業(yè),大量的簡(jiǎn)單勞動(dòng)力可能會(huì)被機(jī)器替代,復(fù)雜但有規(guī)律的腦力勞動(dòng)也可能會(huì)被替代掉,頂級(jí)的技術(shù)、藝術(shù)、設(shè)計(jì)、服務(wù)、科研、教育等這些還需要專業(yè)的人力,但人工智能會(huì)成為他們的助理。
人工智能今天如果真正能讓它落地,而不是成為一個(gè)泡沫,不是成為一個(gè)虛的東西的話,我們一定要深入這個(gè)行業(yè)、理解這個(gè)行業(yè),理解這個(gè)行業(yè)的數(shù)據(jù)、需求、局限、和價(jià)值點(diǎn)等,為這個(gè)行業(yè)的場(chǎng)景定制出最適合的最有效的算法和系統(tǒng),這樣的話才能夠真正讓人工智能落在實(shí)處,能夠創(chuàng)造、改變我們的未來(lái)。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47604瀏覽量
239547 -
視覺(jué)設(shè)計(jì)
+關(guān)注
關(guān)注
0文章
2瀏覽量
1603
原文標(biāo)題:華先勝:無(wú)行業(yè), 不AI——阿里視覺(jué)智能的探索與實(shí)踐
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論