時(shí)間:這篇真的太長(zhǎng)了(近3萬(wàn)字)根據(jù)預(yù)覽同學(xué)們的反饋,通常第一次閱讀到Part 3時(shí),會(huì)消耗很多精力,但讀完P(guān)art 3才發(fā)現(xiàn)是精華(同時(shí)也是最燒腦的部分)。請(qǐng)大家酌情安排閱讀時(shí)間。
可讀性:我會(huì)在內(nèi)容里邀請(qǐng)你一起思考(無(wú)需專(zhuān)業(yè)知識(shí)),所以可能不適合通勤時(shí)間閱讀。你的閱讀收益取決于在過(guò)程中思考的參與程度。
適合人群:對(duì)話(huà)智能行業(yè)從業(yè)者、AIPM、關(guān)注AI的投資人、對(duì)AI有強(qiáng)烈興趣的朋友、關(guān)心自己的工作會(huì)不會(huì)被AI代替的朋友;
- 關(guān)于“人工智障”四個(gè)字-
上一片文章發(fā)出后,有朋友跟我說(shuō),標(biāo)題里的“人工智障”這個(gè)詞貌似有點(diǎn)offensive。作為學(xué)語(yǔ)言出身的,我來(lái)解釋一下這個(gè)原因:
最開(kāi)始呢,我是在跟一位企業(yè)咨詢(xún)顧問(wèn)聊人工智能這個(gè)賽道的現(xiàn)狀。因?yàn)閷?duì)話(huà)是用英語(yǔ)展開(kāi)的,當(dāng)時(shí)為了表達(dá)我的看法 “現(xiàn)在的智能助理行業(yè)正處在一種難以逾越的困境當(dāng)中”,我就跟她說(shuō)“Currently all the digital assistants are Artificial-Intelligently challenged”。
她聽(tīng)了之后哈哈一笑。“intelligently challenged”同時(shí)也是英文中對(duì)智障的委婉表達(dá)。 假設(shè)不了解這個(gè)常識(shí),她就可能忽略掉這個(gè)梗,盡管能明白核心意思,只是不會(huì)覺(jué)得有什么好笑的。那么信息在傳遞中就有損失。
寫(xiě)文章時(shí),我把這個(gè)信息翻譯成中文,就成了“人工智障”。但是因?yàn)橹形恼Z(yǔ)法的特性,有些信息就lost in translation了。比如實(shí)際表達(dá)的是“一種困境的狀態(tài)”而不是“一件事”。
(順便說(shuō)一下,中文的智障,實(shí)際上是政治正確的稱(chēng)呼,詳見(jiàn)特殊奧運(yùn)會(huì)的用詞方法。)
為什么要寫(xiě)那么多字來(lái)解釋這個(gè)措辭?因?yàn)椴煌娜耍匆?jiàn)相同的字,也會(huì)得到不同的理解。這也是我們要討論的重點(diǎn)之一。
那么,我們開(kāi)始吧。
Part 1
對(duì)話(huà)智能的表現(xiàn):智障
Sophia inAI for Good Global Summit 2017.Source: ITU
2017年10月,上圖這個(gè)叫Sophia的機(jī)器人,被沙特阿拉伯授予了正式的公民身份。公民身份,這個(gè)評(píng)價(jià)比圖靈測(cè)試還要牛。何況還是在沙特,他們才剛剛允許女性開(kāi)車(chē)不久(2017年9月頒布的法令)。
Sophia經(jīng)常參加各種會(huì)、“發(fā)表演講”、“接受采訪(fǎng)”,比如去聯(lián)合國(guó)對(duì)話(huà),表現(xiàn)出來(lái)非常類(lèi)似人類(lèi)的言談;去和Will Smith拍MV;接受Good morning Britain之類(lèi)的主流媒體的采訪(fǎng);甚至公司創(chuàng)始人參加Jim Fallon的訪(fǎng)談時(shí)一本正經(jīng)的說(shuō)Sophia是“basically alive”。
Basically alive. 要知道,西方的吃瓜群眾都是看著《終結(jié)者》長(zhǎng)大的,前段時(shí)間還看了《西部世界》。在他們的世界模型里,“機(jī)器智能會(huì)覺(jué)醒” 這個(gè)設(shè)定是遲早都會(huì)發(fā)生的。
普通大眾開(kāi)始嚇得瑟瑟發(fā)抖。不僅開(kāi)始擔(dān)心自己的工作是不是會(huì)被替代,還有很多人開(kāi)始擔(dān)心AI會(huì)不會(huì)統(tǒng)治人類(lèi),這樣的話(huà)題展開(kāi)。“未來(lái)已來(lái)”,很多人都以為真正的人工智能已經(jīng)近在咫尺了。
只是,有些人可能會(huì)注意到有些不合理的地方:“等等,人工智能都要威脅人類(lèi)了,為啥我的Siri還那么蠢?”
Source:Dumb And Dumber: Comparing Alexa, Siri, Cortana And The Google Assistant, Forbes, May 2018
我們來(lái)看看到2018年末在對(duì)話(huà)智能領(lǐng)域,各方面究竟發(fā)展的如何了。
“不要日本菜”
我在2016年底做過(guò)一個(gè)測(cè)試,對(duì)幾個(gè)智能助理提一個(gè)看似簡(jiǎn)單的需求:“推薦餐廳,不要日本菜”。只是各家的AI助理都會(huì)給出一堆餐廳推薦,全是日本菜。
2年過(guò)去了,在這個(gè)問(wèn)題的處理上有進(jìn)展么?我們又做了一次測(cè)試:
結(jié)果是依然沒(méi)有解決。“不要”兩個(gè)字被所有助理一致忽略了。
為什么要關(guān)注“不要”兩個(gè)字?之前我去到一家某非常有名的智能語(yǔ)音創(chuàng)業(yè)公司,聊到這個(gè)問(wèn)題時(shí),他家的PM顯出疑惑:“這個(gè)邏輯處理有什么用?我們后臺(tái)上看到用戶(hù)很少提出這類(lèi)表達(dá)啊。”
聽(tīng)到這樣的評(píng)論,基本可以確定:這家公司還沒(méi)有深入到專(zhuān)業(yè)服務(wù)對(duì)話(huà)領(lǐng)域。
場(chǎng)景方面,一旦深入進(jìn)服務(wù)領(lǐng)域里的多輪對(duì)話(huà),很容易會(huì)遇到類(lèi)似這樣的表達(dá) :“我不要這個(gè),有更便宜的么?”。后臺(tái)沒(méi)有遇到,只能說(shuō)用戶(hù)還沒(méi)開(kāi)始服務(wù)就結(jié)束了。場(chǎng)景方面與AI公司的domain選擇有關(guān)。
但是在技術(shù)方面,則是非常重要的。因?yàn)檫@正是真正智能的核心特點(diǎn)。我們將在part 2&3詳細(xì)聊聊這個(gè)問(wèn)題。現(xiàn)在先拋個(gè)結(jié)論:這個(gè)問(wèn)題解決不了,智能助理會(huì)一直智障下去的。
“To C 團(tuán)隊(duì)轉(zhuǎn) To B ”
自從2015年幾個(gè)重要的深度學(xué)習(xí)在開(kāi)發(fā)者當(dāng)中火了起來(lái),大小公司都想做“Her”這樣面對(duì)個(gè)人消費(fèi)者的通用型智能助理(To C類(lèi)產(chǎn)品的終極目標(biāo))。一波熱錢(qián)投給最有希望的種子隊(duì)伍(擁有Fancy背景)之后,全滅。目前為止,在2C這方面的所有商用產(chǎn)品,無(wú)論是巨頭還是創(chuàng)業(yè)公司,全部達(dá)不到用戶(hù)預(yù)期。
在人們的直覺(jué)里,會(huì)認(rèn)為“智能助理”,處理的是一些日常任務(wù),不涉及專(zhuān)業(yè)的需求,應(yīng)該比“智能專(zhuān)家”好做。這是延續(xù)“人”的思路。推薦餐廳、安排行程是人人都會(huì)做的事情;卻只有少數(shù)受過(guò)專(zhuān)業(yè)訓(xùn)練的人能夠處理金融、醫(yī)療問(wèn)診這類(lèi)專(zhuān)業(yè)問(wèn)題。
而對(duì)于現(xiàn)在的AI,情況正好相反。現(xiàn)在能造出在圍棋上打敗柯潔的AI,但是卻造不出來(lái)能給柯潔管理日常生活的AI。
隨著to C助理賽道的崩盤(pán),To B or not to B已經(jīng)不再是問(wèn)題,因?yàn)橐呀?jīng)沒(méi)得選了,只能To B。這不是商業(yè)模式上的選擇,而是技術(shù)的限制。目前To B,特別是限定領(lǐng)域的產(chǎn)品,相對(duì)To C類(lèi)產(chǎn)品更可行:一個(gè)原因是領(lǐng)域比較封閉,用戶(hù)從思想到語(yǔ)言,不容易發(fā)揮跑題;另一方面則是數(shù)據(jù)充分。
只是To B的公司都很容易被當(dāng)成是做“外包”的。因?yàn)榭蛻?hù)是一個(gè)個(gè)談下來(lái)的,項(xiàng)目是一個(gè)個(gè)交付的,這意味著增長(zhǎng)慢,靠人堆,沒(méi)有復(fù)利帶來(lái)的指數(shù)級(jí)增長(zhǎng)。大家紛紛表示不開(kāi)心。
這個(gè)“幫人造機(jī)器人”的業(yè)務(wù)有點(diǎn)像“在網(wǎng)頁(yè)時(shí)代幫人建站”。轉(zhuǎn)成To B的團(tuán)隊(duì)經(jīng)常受到資本的質(zhì)疑: “你這個(gè)屬于做項(xiàng)目,怎么規(guī)模化呢?”
要知道,國(guó)內(nèi)的很多投資機(jī)構(gòu)和里面的投資經(jīng)理入行的時(shí)間,是在國(guó)內(nèi)的移動(dòng)互聯(lián)起來(lái)的那一波。“Scalability”或者“高速增長(zhǎng)”是體系里最重要的指標(biāo),沒(méi)有之一。而做項(xiàng)目這件事,就是Case by case,要增長(zhǎng)就要堆人,也就很難出現(xiàn)指數(shù)級(jí)增長(zhǎng)。這就有點(diǎn)尷尬了。
“你放心,我有SaaS!哦不,是AIaaS。我可以打造一個(gè)平臺(tái),上面有一系列工具,可以讓客戶(hù)們自己組裝機(jī)器人。”
然而,這些想做技能平臺(tái)的創(chuàng)業(yè)公司,也沒(méi)有一個(gè)成功的。短期也不可能成功。
Yann LeCun對(duì)AIaas的看法
主要的邏輯是這樣的:你給客戶(hù)提供工具,但他需要的是雕像——這中間還差了一個(gè)雕塑家。佐證就是那些各家試圖開(kāi)放“對(duì)話(huà)框架”給更小的開(kāi)發(fā)者,甚至是服務(wù)提供者,幫助他們“3分鐘開(kāi)發(fā)出自己的AI機(jī)器人”,具體就不點(diǎn)名了。自己都開(kāi)發(fā)不出來(lái)一個(gè)讓人滿(mǎn)意的產(chǎn)品,還想抽象一個(gè)范式出來(lái)讓別人沿用你的(不work的)框架?
不過(guò),我認(rèn)為MLaaS在長(zhǎng)期的成功是有可能的,但還需要行業(yè)發(fā)展更為成熟的時(shí)候,現(xiàn)在為時(shí)尚早。具體分析我們?cè)诤竺鍼art 5會(huì)談到。
“音箱的成功和智能的失敗 ”
對(duì)話(huà)這個(gè)領(lǐng)域,另一個(gè)比較火的賽道是智能音箱。
各大主要科技公司都出了自己的智能音箱,騰訊叮當(dāng)、阿里的天貓精靈、小米音箱、國(guó)外的Alexa、Google的音箱等等。作為一個(gè)硬件品類(lèi),這其實(shí)是個(gè)還不錯(cuò)的生意,基本屬于制造業(yè)。
不僅出貨不差,還被寄予期望,能夠成為一個(gè)生態(tài)的生意——核心邏輯看上去也是充滿(mǎn)想象力的:
超級(jí)終端:在后移動(dòng)時(shí)代,每家都想像iphone一樣搶用戶(hù)的入口。只要用戶(hù)習(xí)慣使用語(yǔ)音來(lái)獲得咨詢(xún)或者服務(wù),甚至可以像Xbox/ps一樣,硬件賠錢(qián)賣(mài),軟件來(lái)掙錢(qián);
用語(yǔ)音做OS:開(kāi)發(fā)者打造各類(lèi)語(yǔ)音的技能,然后通過(guò)大量“離不開(kāi)的技能” 反哺這個(gè)OS的市場(chǎng)占有;
提供開(kāi)發(fā)者平臺(tái):像Xcode一樣,給開(kāi)發(fā)者提供應(yīng)用開(kāi)發(fā)的工具和分發(fā)平臺(tái)、提供使用服務(wù)的流量。
可是,這些技能使用的實(shí)際情況是這樣的:
Source: Statista
萬(wàn)眾期待的killer app并沒(méi)有出現(xiàn);
基本沒(méi)有商業(yè)服務(wù)型的應(yīng)用;
技能開(kāi)發(fā)者都沒(méi)賺到錢(qián),也不知道怎么賺錢(qián);
大部分高頻使用的技能都沒(méi)有商業(yè)價(jià)值——用戶(hù)用的最多的就是“查天氣”
沒(méi)有差異性:智能的差異嘛基本都沒(méi)有的事兒。
“皇帝的新人工智能”
回過(guò)頭來(lái),我們?cè)賮?lái)看剛剛那位沙特阿拉伯的公民,Sophia。既然剛剛提到的那么多公司投入了那么多錢(qián)和科學(xué)家,都搞成這樣,憑什么這個(gè)Sophia能一鳴驚人?
因?yàn)镾ophia的“智能” 是個(gè)騙局。
可以直接引用Yann LeCun對(duì)此的評(píng)價(jià), “這完全是鬼扯”。
簡(jiǎn)單來(lái)說(shuō),Sophia是一個(gè)帶喇叭的木偶——在各種大會(huì)上的發(fā)言和采訪(fǎng)的內(nèi)容都是人工撰寫(xiě),然后用人人都有的語(yǔ)音合成做輸出。卻被宣傳成為是其“人工智能”的自主意識(shí)言論。
這還能拿“公民身份”,可能是人類(lèi)公民被黑的最慘的一次。這感覺(jué),好像是我家的橘貓被一所985大學(xué)授予了土木工程學(xué)士學(xué)位。
其實(shí)對(duì)話(huà)系統(tǒng)里,用人工來(lái)撰寫(xiě)內(nèi)容,或者使用模版回復(fù),這本來(lái)就是現(xiàn)在技術(shù)的現(xiàn)狀(在后面我們會(huì)展開(kāi))。
但刻意把“非智能”的產(chǎn)物說(shuō)成是“智能”的表現(xiàn),這就不對(duì)了。
考慮到大部分吃瓜群眾是通過(guò)媒體渠道來(lái)了解當(dāng)前技術(shù)發(fā)展的,跟著炒作的媒體(比如被點(diǎn)名的Tech Insider)都是這場(chǎng)騙局的共犯。這些不知道是無(wú)知還是無(wú)良的文科生,真的沒(méi)有做好新聞工作者份內(nèi)的調(diào)查工作。
最近這股妖風(fēng)也吹到了國(guó)內(nèi)的韭菜園里。
Sophia出現(xiàn)在了王力宏的一首講AI的MV里;然后又2018年11月跑去給大企業(yè)站臺(tái)。
真的,行業(yè)內(nèi)認(rèn)真做事兒的小伙伴,都應(yīng)該站出來(lái),讓大家更清晰的知道現(xiàn)在AI——或者說(shuō)機(jī)器學(xué)習(xí)的邊界在哪兒。不然甲方爸爸們信以為真了,突然指著sophia跟你說(shuō),“ 別人都能這么自然,你也給我整一個(gè)。”
你怕不得裝個(gè)真人進(jìn)去?
對(duì)了,說(shuō)到這兒,確實(shí)現(xiàn)在也有:用人——來(lái)偽裝成人工智能——來(lái)模擬人,為用戶(hù)服務(wù)。
Source:TheGuardian
國(guó)內(nèi)的案例典型的就是銀行用的大堂機(jī)器人,其實(shí)是真人在遠(yuǎn)程語(yǔ)音(所謂Tele presence)。美國(guó)有X.ai,做基于Email的日程管理的。只是這個(gè)AI到了下午5點(diǎn)就要下班。
當(dāng)然,假如我是這些騙局背后開(kāi)發(fā)者,被質(zhì)疑的時(shí)候,我還可以強(qiáng)行拉回人工智能上:“這么做是為了積累真正的對(duì)話(huà)數(shù)據(jù),以后用來(lái)做真的AI對(duì)話(huà)系統(tǒng)識(shí)別的訓(xùn)練。”
這么說(shuō)對(duì)外行可能是毫無(wú)破綻的。但是真正行業(yè)內(nèi)干正經(jīng)事的人,都應(yīng)該像傅盛那樣站出來(lái),指明這些做法是騙人:“全世界沒(méi)有一家能做出來(lái)......做不到,一定做不到”。
人家沙特是把AI當(dāng)成人,這些套路是把人當(dāng)成AI。然后大眾就開(kāi)始分不清楚究竟什么是AI了。
“人工智能究竟(tmd)指的是什么?”
另一方面,既然AI現(xiàn)在的那么蠢,為什么馬一龍 (Elon Musk) 卻說(shuō)“AI很有可能毀滅人類(lèi)”;霍金甚至直接說(shuō) “AI可能是人類(lèi)文明里最糟糕的事件”。
而在另一邊,F(xiàn)acebook和Google的首席科學(xué)家卻在說(shuō),現(xiàn)在的AI都是渣渣,根本不需要擔(dān)心,甚至應(yīng)該推翻重做。
大家該相信誰(shuí)的?一邊是要去火星的男人,和說(shuō)不定已經(jīng)去了火星的男人;另一邊是當(dāng)前兩家科技巨頭的領(lǐng)軍人物。
其實(shí)他們說(shuō)的都對(duì),因?yàn)檫@里說(shuō)到的“人工智能”是兩碼事。
馬一龍和霍金擔(dān)心的人工智能,是由人造出來(lái)的真正的智能,即通用人工智能(AGI, Artificial General Intelligence)甚至是超級(jí)智能(Super Intelligence)。
而Yann LeCun 和Hinton指的人工智能則是指的當(dāng)前用來(lái)實(shí)現(xiàn)“人工智能效果”的技術(shù)(基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí))。這兩位的觀(guān)點(diǎn)是“用這種方式來(lái)實(shí)現(xiàn)人工智能是行不通的”。
兩者本質(zhì)是完全不同的,一個(gè)指的是結(jié)果,一個(gè)指的是(現(xiàn)在的)過(guò)程。
那么當(dāng)我們?cè)谟懻撊斯ぶ悄艿臅r(shí)候,究竟在說(shuō)什么?
John McCathy
John McCathy在1956年和Marvin Minsky,Nathaniel Rochester 以及Claude Shannon在達(dá)特貌似研討會(huì)上打造了AI這個(gè)詞,但是到目前為止,學(xué)界工業(yè)界并沒(méi)有一個(gè)統(tǒng)一的理解。
最根本的問(wèn)題是目前人類(lèi)對(duì)“智能”的定義還不夠清楚。何況人類(lèi)本身是否是智能的最佳體現(xiàn),還不一定呢。想想每天打交道的一些人:)
一方面,在大眾眼中,人工智能是 “人造出來(lái)的,像人的智能”,比如Siri。同時(shí),一個(gè)AI的水平高低,則取決于它有多像人。所以當(dāng)Sophia出現(xiàn)在公眾眼中的時(shí)候,普通人會(huì)很容易被蒙蔽(甚至能通過(guò)圖靈測(cè)試)。
Oracle對(duì)AI的定義也是 “只要是能讓計(jì)算機(jī)可以模擬人類(lèi)行為的技術(shù),都算!”
而另一方面,從字面上來(lái)看“Artificial Intelligence”,只要是人造的智能產(chǎn)品,理論上都算作人工智能。
也就是說(shuō),一個(gè)手持計(jì)算器,盡管不像人,也應(yīng)算是人工智能產(chǎn)品。但我相信大多數(shù)人都不會(huì)把計(jì)算器當(dāng)成是他們所理解的人工智能。
這些在認(rèn)識(shí)上不同的解讀,導(dǎo)致當(dāng)前大家對(duì)AI應(yīng)用的期望和評(píng)估都有很多差異。
再加上還有“深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)” 這些概念紛紛跟著人工智能一起出現(xiàn)。但是各自意味著什么,之間是什么關(guān)系,普通大眾都不甚了解。
“ 沒(méi)關(guān)系,韭菜不用懂。” 但是想要割韭菜的人,最好能搞清楚吧。連有些投資人自己也分不清,你說(shuō)怎么做判斷,如何投項(xiàng)目?當(dāng)然是投胸大的。
以上,就是到2018年末,在對(duì)話(huà)領(lǐng)域的人工智能的現(xiàn)狀:智能助理依然智障;大部分To B的給人造機(jī)器人的都無(wú)法規(guī)模化;對(duì)話(huà)方面沒(méi)有像AlphaZero在圍棋領(lǐng)域那樣的讓人震驚的產(chǎn)品;沒(méi)有商業(yè)上大規(guī)模崛起的跡象;有的是一團(tuán)渾水,和渾水摸魚(yú)的人。
為什么會(huì)這樣?為什么人工智能在圖像識(shí)別,人臉識(shí)別,下圍棋這些方面都那么快的進(jìn)展,而在對(duì)話(huà)智能這個(gè)領(lǐng)域卻是如此混亂?
既然你都看到這里了,我相信你是一個(gè)愿意探究本質(zhì)的好同志。那么我們來(lái)了解,對(duì)話(huà)的本質(zhì)是什么;以及現(xiàn)在的對(duì)話(huà)系統(tǒng)的本質(zhì)又是什么。
Part 2
當(dāng)前對(duì)話(huà)系統(tǒng)的本質(zhì):填表
“AI thinks, man laughs”
Source:The Globe and Mail
有一群小雞出生在一個(gè)農(nóng)場(chǎng),無(wú)憂(yōu)無(wú)慮安心地生活。
雞群中出現(xiàn)了一位科學(xué)家,它注意到了一個(gè)現(xiàn)象:每天早上,食槽里會(huì)自動(dòng)出現(xiàn)糧食。
作為一名優(yōu)秀的歸納法信徒(Inductivist),這只科學(xué)雞并不急于給出結(jié)論。它開(kāi)始全面觀(guān)察并做好記錄,試圖發(fā)現(xiàn)這個(gè)現(xiàn)象是否在不同的條件下都成立。
“星期一是這樣,星期二是這樣;樹(shù)葉變綠時(shí)是這樣,樹(shù)葉變黃也是這樣;天氣冷是這樣,天氣熱也是這樣;下雨是這樣,出太陽(yáng)也是這樣!”
每天的觀(guān)察,讓它越來(lái)越興奮,在心中,它離真相越來(lái)越接近。直到有一天,這只科學(xué)雞再也沒(méi)有觀(guān)察到新的環(huán)境變化,而到了當(dāng)天早上,雞舍的門(mén)一打開(kāi),它跑到食槽那里一看,依然有吃的!
科學(xué)雞,對(duì)他的小伙伴,志在必得地宣布:“我預(yù)測(cè),每天早上,槽里會(huì)自動(dòng)出現(xiàn)食物。明天早上也會(huì)有!以后都會(huì)有!我們不用擔(dān)心餓死了!”
經(jīng)過(guò)好幾天,小伙伴們都驗(yàn)證了這個(gè)預(yù)言,科學(xué)雞驕傲的并興奮的把它歸納成“早起的小雞有食吃定理”。
正好,農(nóng)場(chǎng)的農(nóng)夫路過(guò),看到一只興奮的雞不停的咯咯叫,他笑了:“這只雞很可愛(ài)哦,不如把它做成叫花雞好了” 。
科學(xué)雞,卒于午飯時(shí)間。
在這個(gè)例子里,這只羅素雞(Bertrand Russell’s chicken)只對(duì)現(xiàn)象進(jìn)行統(tǒng)計(jì)和歸納,不對(duì)原因進(jìn)行推理。
而主流的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí),也是通過(guò)大量的案例,靠對(duì)文本的特征進(jìn)行歸類(lèi),來(lái)實(shí)現(xiàn)對(duì)識(shí)別語(yǔ)義的效果。這個(gè)做法,就是羅素雞。
目前,這是對(duì)話(huà)式人工智能的主流技術(shù)基礎(chǔ)。其主要應(yīng)用方向,就是對(duì)話(huà)系統(tǒng),或稱(chēng)為Agent。之前提到的智能助理Siri,Cortana,Google Assistant以及行業(yè)里面的智能客服這些都算是對(duì)話(huà)智能的應(yīng)用。
“對(duì)話(huà)智能的黑箱”
這些產(chǎn)品的交互方式,是人類(lèi)的自然語(yǔ)言,而不是圖像化界面。
圖形化界面(GUI)的產(chǎn)品,比如網(wǎng)頁(yè)或者APP的產(chǎn)品設(shè)計(jì),是所見(jiàn)即所得、界面即功能。
對(duì)話(huà)智能的交互(CUI, Conversational UI)是個(gè)黑箱:終端用戶(hù)能感知到自己說(shuō)出的話(huà)(輸入)和機(jī)器人的回答(輸出)——但是這個(gè)處理的過(guò)程是感覺(jué)不到的。就好像跟人說(shuō)話(huà),你并不知道他是怎么想的。
每一個(gè)對(duì)話(huà)系統(tǒng)的黑箱里,都是開(kāi)發(fā)者自由發(fā)揮的天地。
雖說(shuō)每家的黑箱里面都不同,但是最底層的思路,都萬(wàn)變不離其宗,核心就是兩點(diǎn):聽(tīng)人話(huà)(識(shí)別)+講人話(huà)(對(duì)話(huà)管理)。
如果你是從業(yè)人員,那么請(qǐng)回答一個(gè)問(wèn)題:你們家的對(duì)話(huà)管理是不是填槽?若是,你可以跳過(guò)這一節(jié)(主要科普填槽是怎么回事),請(qǐng)直接到本章的第五節(jié)“當(dāng)前對(duì)話(huà)系統(tǒng)的局限” 。
“AI如何聽(tīng)懂人話(huà) ?”
對(duì)話(huà)系統(tǒng)這個(gè)事情在2015年開(kāi)始突然火起來(lái)了,主要是因?yàn)橐粋€(gè)技術(shù)的普及:機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)帶來(lái)的語(yǔ)音識(shí)別和NLU(自然語(yǔ)言理解)——主要解決的是識(shí)別人講的話(huà)。
這個(gè)技術(shù)的普及讓很多團(tuán)隊(duì)都掌握了一組關(guān)鍵技能:意圖識(shí)別和實(shí)體提取。這意味著什么?我們來(lái)看一個(gè)例子。
在生活中,如果想要訂機(jī)票,人們會(huì)有很多種自然的表達(dá):
“訂機(jī)票”;
“有去上海的航班么?”;
“看看航班,下周二出發(fā)去紐約的”;
“要出差,幫我查下機(jī)票”;
等等等等
可以說(shuō)“自然的表達(dá)” 有無(wú)窮多的組合(自然語(yǔ)言)都是在代表 “訂機(jī)票” 這個(gè)意圖的。而聽(tīng)到這些表達(dá)的人,可以準(zhǔn)確理解這些表達(dá)指的是“訂機(jī)票”這件事。
而要理解這么多種不同的表達(dá),對(duì)機(jī)器是個(gè)挑戰(zhàn)。在過(guò)去,機(jī)器只能處理“結(jié)構(gòu)化的數(shù)據(jù)”(比如關(guān)鍵詞),也就是說(shuō)如果要聽(tīng)懂人在講什么,必須要用戶(hù)輸入精確的指令。
所以,無(wú)論你說(shuō)“我要出差”還是“幫我看看去北京的航班”,只要這些字里面沒(méi)有包含提前設(shè)定好的關(guān)鍵詞“訂機(jī)票”,系統(tǒng)都無(wú)法處理。而且,只要出現(xiàn)了關(guān)鍵詞,比如“我要退訂機(jī)票”里也有這三個(gè)字,也會(huì)被處理成用戶(hù)想要訂機(jī)票。
自然語(yǔ)言理解這個(gè)技能出現(xiàn)后,可以讓機(jī)器從各種自然語(yǔ)言的表達(dá)中,區(qū)分出來(lái),哪些話(huà)歸屬于這個(gè)意圖;而那些表達(dá)不是歸于這一類(lèi)的,而不再依賴(lài)那么死板的關(guān)鍵詞。比如經(jīng)過(guò)訓(xùn)練后,機(jī)器能夠識(shí)別“幫我推薦一家附近的餐廳”,就不屬于“訂機(jī)票”這個(gè)意圖的表達(dá)。
并且,通過(guò)訓(xùn)練,機(jī)器還能夠在句子當(dāng)中自動(dòng)提取出來(lái)“上海”,這兩個(gè)字指的是目的地這個(gè)概念(即實(shí)體);“下周二”指的是出發(fā)時(shí)間。
這樣一來(lái),看上去“機(jī)器就能聽(tīng)懂人話(huà)啦!”。
這個(gè)技術(shù)為啥會(huì)普及?主要是因?yàn)闄C(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)氛圍,導(dǎo)致重要的論文基本都是公開(kāi)的。不同團(tuán)隊(duì)要做的是考慮具體工程實(shí)施的成本。
最后的效果,就是在識(shí)別自然語(yǔ)言這個(gè)領(lǐng)域里,每家的基礎(chǔ)工具都差不多。在意圖識(shí)別和實(shí)體提取的準(zhǔn)確率,都是百分點(diǎn)的差異。既然這個(gè)工具本身不是核心競(jìng)爭(zhēng)力,甚至你可以用別家的,大把可以選,但是關(guān)鍵是你能用它來(lái)干什么?
“Due to the academic culture that ML comes from, pretty much all of the primary science is published as soon as it’s created - almost everything new is a paper that you can read and build with. But what do you build? ”
——Benedict Evans (A16Z合伙人)
在這方面,最顯而易見(jiàn)的價(jià)值,就是解放雙手。語(yǔ)音控制類(lèi)的產(chǎn)品,只需要聽(tīng)懂用戶(hù)的自然語(yǔ)言,就去執(zhí)行這個(gè)操作:在家里要開(kāi)燈,可以直接說(shuō) “開(kāi)燈”,而不用去按開(kāi)關(guān);在車(chē)上,說(shuō)要“開(kāi)天窗”,天窗就打開(kāi)了,而不用去找對(duì)應(yīng)的按鈕在哪里。
這類(lèi)系統(tǒng)的重點(diǎn)在于,清楚聽(tīng)清哪個(gè)用戶(hù)在講是什么。所以麥克風(fēng)陣列、近場(chǎng)遠(yuǎn)場(chǎng)的抗噪、聲紋識(shí)別講話(huà)的人的身份、ASR(語(yǔ)音轉(zhuǎn)文字),等等硬件軟件的技術(shù)就相應(yīng)出現(xiàn),向著前面這個(gè)目標(biāo)不斷優(yōu)化。
“講人話(huà)”在這類(lèi)應(yīng)用當(dāng)中,并不那么重要。通常任務(wù)的執(zhí)行,以結(jié)果進(jìn)行反饋,比如燈應(yīng)聲就亮了。而語(yǔ)言上的反饋,只是一個(gè)輔助作用,可有可無(wú)。
但是任務(wù)類(lèi)的對(duì)話(huà)智能,往往不止是語(yǔ)音控制這樣一輪交互。如果一個(gè)用戶(hù)說(shuō),“看看明天的機(jī)票”——這表達(dá)正常,但無(wú)法直接去執(zhí)行。因?yàn)槿鄙賵?zhí)行的必要信息:1)從哪里出發(fā)?和 2)去哪里?
如果我們希望AI Agent來(lái)執(zhí)行這個(gè)任務(wù),一定要獲得這兩個(gè)信息。對(duì)于人來(lái)完成這個(gè)業(yè)務(wù)的話(huà),要獲得信息,就得靠問(wèn)這個(gè)用戶(hù)問(wèn)題,來(lái)獲得信息。很多時(shí)候,這樣的問(wèn)題,還不止一個(gè),也就意味著,要發(fā)起多輪對(duì)話(huà)。
對(duì)于AI而言,也是一樣的。
要知道 “去哪里” = Agent 問(wèn)用戶(hù)“你要去哪里?”
要知道 “從哪里出發(fā)” = Agent 問(wèn)用戶(hù)“你要從哪里出發(fā)呢?”
這就涉及到了對(duì)話(huà)語(yǔ)言的生成。
“AI如何講人話(huà)?”
決定“該說(shuō)什么話(huà)”,才是對(duì)話(huà)系統(tǒng)的核心——無(wú)論是硅基的還是碳基的智能。但是深度學(xué)習(xí)在這個(gè)版塊,并沒(méi)有起到什么作用。
在當(dāng)前,處理“該說(shuō)什么”這個(gè)問(wèn)題,主流的做法是由所謂“對(duì)話(huà)管理”系統(tǒng)決定的。
盡管每一個(gè)對(duì)話(huà)系統(tǒng)背后的“對(duì)話(huà)管理”機(jī)制都不同,每家都有各種理解、各種設(shè)計(jì),但是萬(wàn)變不離其宗——目前所有任務(wù)類(lèi)對(duì)話(huà)系統(tǒng),無(wú)論是前段時(shí)間的Google duplex,還是智能客服,或者智能助理,最核心的對(duì)話(huà)管理方法,有且僅有一個(gè):“填槽”,即Slot filling。
如果你并不懂技術(shù),但是又要迅速知道一家做對(duì)話(huà)AI的水平如何,到底有沒(méi)有黑科技(比如剛剛開(kāi)始看AI領(lǐng)域的做投資的朋友 ),你只需要問(wèn)他一個(gè)問(wèn)題:“是不是填槽?”
如果他們(誠(chéng)實(shí)地)回答“是”,那你就可以放下心來(lái),黑科技尚未出現(xiàn)。接下來(lái),能討論的范圍,無(wú)非都是產(chǎn)品設(shè)計(jì)、工程實(shí)現(xiàn)、如何解決體驗(yàn)和規(guī)模化的困境,這類(lèi)的問(wèn)題。基本上該智障的,還是會(huì)智障。
要是他們回答“不是填槽”,而且產(chǎn)品的效果還很好,那么就有意思了,值得研究,或者請(qǐng)速速聯(lián)系我:)
那么這個(gè)“填槽”究竟是個(gè)什么鬼?嗯,不搞開(kāi)發(fā)的大家可以簡(jiǎn)單的把它理解為“填表”:好比你要去銀行辦個(gè)業(yè)務(wù),先要填一張表。
如果這張表上的空沒(méi)有填完,柜臺(tái)小姐姐就不給你辦。她會(huì)紅筆給你圈出來(lái):“必須要填的空是這些,別的你都可以不管。” 你全部填好了,再遞給小姐姐,她就去給你辦理業(yè)務(wù)了。
還記得剛剛那個(gè)機(jī)票的例子么?用戶(hù)說(shuō)“看看明天的機(jī)票”,要想執(zhí)行“查機(jī)票”,就得做以下的步奏,還要按順序來(lái):
1. ASR:把用戶(hù)的語(yǔ)音,轉(zhuǎn)化成文字。
2. NLU語(yǔ)義識(shí)別:識(shí)別上面的文字,屬于(之前設(shè)定好的)哪一個(gè)意圖,在這里就是“訂機(jī)票”;然后,提取文字里面的實(shí)體,“明天”作為訂票日期,被提取出來(lái)啦。
3. 填表:這個(gè)意圖是訂機(jī)票,那么就選“訂機(jī)票”這張表來(lái)填;這表里有三個(gè)空,時(shí)間那個(gè)空里,就放進(jìn)“明天”。
(這個(gè)時(shí)候,表里的3個(gè)必填項(xiàng),還差兩個(gè):“出發(fā)地”和“到達(dá)地”)
4. 開(kāi)始跑之前編好的程序:如果差“出發(fā)地”,就回“從哪里走啊?”;如果差“目的地”,就回“你要去哪里?”(NLG上打引號(hào),是因?yàn)椴⒉皇钦嬲饬x上的自然語(yǔ)言生成,而是套用的對(duì)話(huà)模版)
5. TTS:把回復(fù)文本,合成為語(yǔ)音,播放出去
在上面這個(gè)過(guò)程當(dāng)中,1和2步奏都是用深度學(xué)習(xí)來(lái)做識(shí)別。如果這個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,后面就會(huì)連續(xù)出錯(cuò)。
循環(huán)1-5這個(gè)過(guò)程,只要表里還有空要填,就不斷問(wèn)用戶(hù),直到所有的必填項(xiàng)都被填完。于是,表就可以提交小姐姐(后端處理)了。
后端看了要查的條件,返回滿(mǎn)足這些條件的機(jī)票情況。Agent再把查詢(xún)結(jié)果用之前設(shè)計(jì)好的回復(fù)模板發(fā)回給用戶(hù)。
順便說(shuō)一下,我們經(jīng)常聽(tīng)到有些人說(shuō)“我們的多輪對(duì)話(huà)可以支持xx輪,最多的時(shí)候有用戶(hù)能說(shuō)xx輪”。現(xiàn)在大家知道,在任務(wù)類(lèi)對(duì)話(huà)系統(tǒng)里,“輪數(shù)的產(chǎn)生”是由填表的次數(shù)決定的,那么這種用“輪數(shù)多少”來(lái)衡量產(chǎn)品水平的方法,在這個(gè)任務(wù)類(lèi)對(duì)話(huà)里里完全無(wú)意義。
一定要有意義,也應(yīng)該是:在達(dá)到目的、且不影響體驗(yàn)的前提下,輪數(shù)越少越好。
在當(dāng)前,只要做任務(wù)類(lèi)的多輪對(duì)話(huà),基本跑不掉填表。
5月的時(shí)候,Google I/O發(fā)布了Duplex的錄音Demo,場(chǎng)景是Google Assistant代替用戶(hù)打電話(huà)去訂餐廳,和店員溝通,幫助用戶(hù)預(yù)定位子。值得注意,這并不是Live demo。
Google's Assistant. CREDIT:GOOGLE
那Google的智能助理(后稱(chēng)IPA)又怎么知道用戶(hù)的具體需求呢?跑不掉的是,用戶(hù)還得給Google Assistant填一張表,用對(duì)話(huà)來(lái)交代自己的具體需求,比如下面這樣:
圖中左邊是一個(gè)使用Google Assistant訂餐廳的真實(shí)案例,來(lái)自The Verge。
“當(dāng)前對(duì)話(huà)系統(tǒng)的局限”
我剛剛花了兩千來(lái)個(gè)字來(lái)說(shuō)明對(duì)話(huà)系統(tǒng)的通用思路。接下來(lái),要指出這個(gè)做法的問(wèn)題
還記得之前提到的 “不要日本菜”測(cè)試么?我們把這個(gè)測(cè)試套用在“訂機(jī)票”這個(gè)場(chǎng)景上,試試看:“看看明天去北京的航班,東航以外的都可以”,還是按步奏來(lái):
1. ASR語(yǔ)音轉(zhuǎn)文字,沒(méi)啥問(wèn)題;
2. 語(yǔ)義識(shí)別,貌似有點(diǎn)問(wèn)題
- 意圖:是訂機(jī)票,沒(méi)錯(cuò);
- 實(shí)體提取:跟著之前的訓(xùn)練來(lái);
- 時(shí)間:明天
- 目的地:北京
- 出發(fā)地:這個(gè)用戶(hù)沒(méi)說(shuō),一會(huì)得問(wèn)問(wèn)他...
等等,他說(shuō)的這個(gè)“東航以外的都可以”,指的是啥?之前沒(méi)有訓(xùn)練過(guò)與航空公司相關(guān)的表達(dá)啊。
沒(méi)關(guān)系,咱們可以把這個(gè)表達(dá)的訓(xùn)練加上去:東航 = 航司。多找些表達(dá),只要用戶(hù)說(shuō)了各個(gè)航空公司的名字的,都訓(xùn)練成航司這個(gè)實(shí)體好啦。
另外,咱們還可以在填表的框里,添加一個(gè)航司選擇,就像這樣(黃色部分):
(嗯,好多做TO B的團(tuán)隊(duì),都是掉在這個(gè)“在后面可以加上去”的坑里。)
但是,這么理所當(dāng)然的訓(xùn)練之后,實(shí)體提取出來(lái)的航司卻是“東航”——而用戶(hù)說(shuō)的是 “東航以外的”,這又指的哪個(gè)(些)航司呢?
“要不,咱們做點(diǎn)Trick把‘以外’這樣的邏輯單獨(dú)拿出來(lái)手工處理掉?”——如果這個(gè)問(wèn)題可以這么容易處理掉,你覺(jué)得Siri等一干貨色還會(huì)是現(xiàn)在這個(gè)樣子?難度不在于“以外”提取不出來(lái),而是在處理“這個(gè)以外,是指哪個(gè)實(shí)體以外?
當(dāng)前基于深度學(xué)習(xí)的NLU在“實(shí)體提取”這個(gè)技術(shù)上,就只能提取“實(shí)體”。
而人能夠理解,在這個(gè)情況下,用戶(hù)是指的“排除掉東航以外的其他選擇”,這是因?yàn)槿顺俗觥皩?shí)體提取”以外,還根據(jù)所處語(yǔ)境,做了一個(gè)對(duì)邏輯的識(shí)別:“xx以外”。然后,自動(dòng)執(zhí)行了這個(gè)邏輯的處理,即推理,去進(jìn)一步理解,對(duì)方真正指的是什么(即指代)。
而這個(gè)邏輯推理的過(guò)程,并不存在于之前設(shè)計(jì)好的步奏(從1到5)里。
更麻煩的是,邏輯的出現(xiàn),不僅僅影響“實(shí)體”,還影響“意圖”:
“hi Siri,別推薦餐廳”——它還是會(huì)給你推薦餐廳;
“hi Siri,除了推薦餐廳,你還能推薦什么?”——它還是會(huì)給你推薦餐廳。
中文英文都是一樣的;Google assistant也是一樣的。
想要處理這個(gè)問(wèn)題,不僅僅是要識(shí)別出“邏輯”;還要正確判斷出,這個(gè)邏輯是套用在哪個(gè)實(shí)體,或者是不是直接套用在某一個(gè)意圖上。這個(gè)判斷如何做?用什么做?都不在當(dāng)前SLU的范圍內(nèi)。
對(duì)這些問(wèn)題的處理,如果是集中在一些比較封閉的場(chǎng)景下,還可以解決個(gè)七七八八。但是,如果想要從根本上、泛化的處理,希望一次處理就解決所有場(chǎng)景的問(wèn)題,到目前都無(wú)解。在這方面,Siri是這樣,Google Assistant也是這樣,任意一家,都是這樣。
為啥說(shuō)無(wú)解?我們來(lái)看看測(cè)試。
“用圖靈測(cè)試來(lái)測(cè)對(duì)話(huà)系統(tǒng)沒(méi)用”
一說(shuō)到對(duì)人工智能進(jìn)行測(cè)試,大部分人的第一反應(yīng)是圖靈測(cè)試。
5月Google I/O大會(huì)的那段時(shí)間,我們團(tuán)隊(duì)正在服務(wù)一家全球100強(qiáng)企業(yè),為他們規(guī)劃基于AI Agent的服務(wù)。
在發(fā)布會(huì)的第二天,我收到這家客戶(hù)的Tech Office的好心提醒:Google這個(gè)像真人一樣的黑科技,會(huì)不會(huì)顛覆現(xiàn)有的技術(shù)方案?我的回答是并不會(huì)。
話(huà)說(shuō)Google Duplex在發(fā)布會(huì)上的demo確實(shí)讓人印象深刻,而且大部分看了Demo的人,都分辨不出打電話(huà)去做預(yù)定的是不是真人。
“這個(gè)效果在某種意義上,算是通過(guò)了圖靈測(cè)試。”
Google母公司的Chairman說(shuō)google duplex可以算過(guò)了圖靈測(cè)試了
由于圖靈測(cè)試的本質(zhì)是“欺騙”(A game of deception,詳見(jiàn)Toby Walsh的論文),所以很多人批評(píng)它,這只能用來(lái)測(cè)試人有多好騙,而不是用來(lái)測(cè)智能的。在這一點(diǎn)上,我們?cè)诤笪腜art 4對(duì)話(huà)的本質(zhì)中會(huì)有更多解釋。
人們被這個(gè)Demo騙到的主要原因,是因?yàn)楹铣傻恼Z(yǔ)音非常像真人。
這確實(shí)是Duplex最牛的地方:語(yǔ)音合成。不得不承認(rèn),包括語(yǔ)氣、音調(diào)等等模擬人聲的效果,確實(shí)是讓人嘆為觀(guān)止。只是,單就在語(yǔ)音合成方面,就算是做到極致,在本質(zhì)上就是一只鸚鵡——最多可以騙騙Alexa(所以你看活體識(shí)別有多么重要)。
只是,Google演示的這個(gè)對(duì)話(huà)系統(tǒng),一樣處理不了邏輯推理、指代這類(lèi)的問(wèn)題。這意味著,就它算能過(guò)圖靈測(cè)試,也過(guò)不了Winograd Schema Challenge測(cè)試。
相比圖靈測(cè)試,這個(gè)測(cè)試是直擊深度學(xué)習(xí)的要害。當(dāng)人類(lèi)對(duì)句子進(jìn)行語(yǔ)法分析時(shí),會(huì)用真實(shí)世界的知識(shí)來(lái)理解指代的對(duì)象。這個(gè)測(cè)試的目標(biāo),就是測(cè)試目前深度學(xué)習(xí)欠缺的常識(shí)推理能力。
如果我們用Winograd Schema Challenge的方法,來(lái)測(cè)試AI在“餐廳推薦”這個(gè)場(chǎng)景里的水平,題目會(huì)是類(lèi)似這樣的:
A. “四川火鍋比日料更好,因?yàn)樗芾薄?/p>
B. “四川火鍋比日料更好,因?yàn)樗焕薄?/p>
AI需要能準(zhǔn)確指出:在A句里,“它”指的是四川火鍋;而在B句里,“它”指的則是日料。
還記得在本文Part 1里提到的那個(gè)“不要日本菜測(cè)試”么?我真的不是在強(qiáng)調(diào)“回字有四種寫(xiě)法”——這個(gè)測(cè)試的本質(zhì),是測(cè)試對(duì)話(huà)系統(tǒng)能不能使用簡(jiǎn)單邏輯來(lái)做推理(指代的是什么)。
而在Winograd Schema Challenge中,則是用世界知識(shí)(包括常識(shí))來(lái)做推理:
如果系統(tǒng)不知道相應(yīng)的常識(shí)(四川火鍋是辣的;日料是不辣的),就沒(méi)有推理的基礎(chǔ)。更不用說(shuō)推理還需要被準(zhǔn)確地執(zhí)行。
有人說(shuō),我們可以通過(guò)上下文處理來(lái)解決這個(gè)問(wèn)題。不好意思,上面這個(gè)常識(shí)根本就沒(méi)有出現(xiàn)在整個(gè)對(duì)話(huà)當(dāng)中。不在“上文”里面,又如何處理?
對(duì)于這個(gè)部分的詳細(xì)解釋?zhuān)?qǐng)看下一章 (Part 3 對(duì)話(huà)的本質(zhì))。
盡管指代問(wèn)題和邏輯問(wèn)題,看上去,在應(yīng)用方面已經(jīng)足夠致命了;但這些也只是深度學(xué)習(xí)表現(xiàn)出來(lái)的諸多局限性中的一部分。
哪怕更進(jìn)一步,再過(guò)一段時(shí)間,有一家AI在Winograd Schema Challenge拿了100%的正確率,我們也不能期望它在自然語(yǔ)言處理中的表現(xiàn)如同人一樣,因?yàn)檫€有更嚴(yán)重和更本質(zhì)的問(wèn)題在后面等著。
“對(duì)話(huà)系統(tǒng)更大的挑戰(zhàn)不是NLU”
我們來(lái)看問(wèn)題表現(xiàn)在什么地方。
現(xiàn)在我們知道了,當(dāng)人跟現(xiàn)在的AI對(duì)話(huà)的時(shí)候,AI能識(shí)別你說(shuō)的話(huà),是靠深度學(xué)習(xí)對(duì)你說(shuō)出的自然語(yǔ)言進(jìn)行分類(lèi),歸于設(shè)定好的意圖,并找出來(lái)文本中有哪些實(shí)體。
而AI什么時(shí)候回答你,什么時(shí)候反問(wèn)你,基本都取決于背后的“對(duì)話(huà)管理”系統(tǒng)里面的各種表上還有啥必填項(xiàng)沒(méi)有填完。而問(wèn)你的話(huà),則是由產(chǎn)品經(jīng)理和代碼小哥一起手動(dòng)完成的。
那么,這張表是誰(shuí)做的?
或者說(shuō),是誰(shuí)決定,對(duì)于“訂機(jī)票”這件事,要考慮哪些方面?要獲得哪些信息?需要問(wèn)哪些問(wèn)題?機(jī)器又是怎么知道的?
是人。是產(chǎn)品經(jīng)理,準(zhǔn)確點(diǎn)說(shuō)。
就像剛才的“訂機(jī)票”的案例,當(dāng)用戶(hù)問(wèn)到“航司”的時(shí)候,之前的表里并沒(méi)有設(shè)計(jì)這個(gè)概念,AI就無(wú)法處理了。
要讓AI能處理這樣的新條件,得在“訂機(jī)票”這張表上,新增加“航空公司”一欄(黃色部分)。而這個(gè)過(guò)程,都得人為手動(dòng)完成:產(chǎn)品經(jīng)理設(shè)計(jì)好后,工程師編程完成這張表的編程。
所以AI并不是真的,通過(guò)案例學(xué)習(xí)就自動(dòng)理解了“訂機(jī)票”這件事情,包含了哪些因素。只要這個(gè)表還是由人來(lái)設(shè)計(jì)和編程實(shí)現(xiàn)的,在產(chǎn)品層面,一旦用戶(hù)稍微談及到表以外的內(nèi)容,智障的情況就自然出現(xiàn)了。
因此,當(dāng)Google duplex出現(xiàn)的時(shí)候,我并不那么關(guān)心 Google duplex發(fā)音和停頓有多像一個(gè)人——實(shí)際上,當(dāng)我觀(guān)察任意一個(gè)對(duì)話(huà)系統(tǒng)的時(shí)候,我都只關(guān)心1個(gè)問(wèn)題:
“是誰(shuí)設(shè)計(jì)的那張表:人,還是AI?”
只是,深度學(xué)習(xí)在對(duì)話(huà)系統(tǒng)里面,能做的只是識(shí)別用戶(hù)講出的那句話(huà)那部分——嚴(yán)格依照被人為訓(xùn)練的那樣(監(jiān)督學(xué)習(xí))。至于其他方面,比如該講什么話(huà)?該在什么時(shí)候講話(huà)?它都無(wú)能為力。
但是真正人們?cè)趯?duì)話(huà)時(shí)的過(guò)程,卻不是上面提到的對(duì)話(huà)系統(tǒng)這么設(shè)計(jì)的,而且相差十萬(wàn)八千里。人的對(duì)話(huà),又是怎么開(kāi)展的?這個(gè)差異究竟在哪里?為什么差異那么大?所謂深度學(xué)習(xí)很難搞定的地方,是人怎么搞定的呢?畢竟在這個(gè)星球上,我們自身就是70億個(gè)完美的自然語(yǔ)言處理系統(tǒng)呢。
我們需要了解要解決的問(wèn)題,才可能開(kāi)展解決問(wèn)題的工作。在對(duì)話(huà)領(lǐng)域,我們需要知道人們對(duì)話(huà)的本質(zhì)是什么。下一章比較燒腦,我們將討論“思維”這件事情,是如何主導(dǎo)人們的對(duì)話(huà)的。
Part 3
人類(lèi)對(duì)話(huà)的本質(zhì):思維
“對(duì)話(huà)的最終目的是為了同步思維”
你是一位30出頭的職場(chǎng)人士,每天上午9點(diǎn)半,都要過(guò)辦公樓的旋轉(zhuǎn)門(mén),進(jìn)大堂的,然后刷工牌進(jìn)電梯,去到28樓,你的辦公室。今天是1月6日,平淡無(wú)奇的一天。你剛進(jìn)電梯,電梯里只有你一個(gè)人,正要關(guān)門(mén)的時(shí)候,有一個(gè)人匆忙擠進(jìn)來(lái)。
進(jìn)來(lái)的快遞小哥,他進(jìn)電梯時(shí)看到只有你們兩人,就說(shuō)了一聲“你好”,然后又低頭找樓層按鈕了。
你很自然的回復(fù):“你好”,然后目光轉(zhuǎn)向一邊。
兩邊都沒(méi)什么話(huà)好講——實(shí)際上,是對(duì)話(huà)雙方認(rèn)為彼此沒(méi)有什么情況需要同步的。
人們用語(yǔ)言來(lái)對(duì)話(huà),其最終的目的是為了讓雙方對(duì)當(dāng)前場(chǎng)景模型(Situation model)保持同步。(大家先了解到這個(gè)概念就夠了。更感興趣的,詳情請(qǐng)見(jiàn) Toward a neural basis of interactive alignment in conversation)。
The interactive-alignment model (based on Pickering and Garrod, 2004)
上圖中,A和B兩人之間發(fā)展出來(lái)所有對(duì)話(huà),都是為了讓紅框中的兩個(gè)“Situation model” 保持同步。Situation model 在這里可以簡(jiǎn)單理解為對(duì)事件的各方面的理解,包括Context。
不少做對(duì)話(huà)系統(tǒng)的朋友會(huì)認(rèn)為Context是僅指“對(duì)話(huà)中的上下文”,我想要指出的是,除此以外,Context還應(yīng)該包含了對(duì)話(huà)發(fā)生時(shí)人們所處的場(chǎng)景。這個(gè)場(chǎng)景模型涵蓋了對(duì)話(huà)那一刻,除了明文以外的所有已被感知的信息。 比如對(duì)話(huà)發(fā)生時(shí)的天氣情況,只要被人感知到了,也會(huì)被放入Context中,并影響對(duì)話(huà)內(nèi)容的發(fā)展。
A: “你對(duì)這個(gè)事情怎么看?”
B: “這天看著要下雨了,咱們進(jìn)去說(shuō)吧”——盡管本來(lái)對(duì)話(huà)內(nèi)容并沒(méi)有涉及到天氣。
對(duì)同一件事情,不同的人在腦海里構(gòu)建的場(chǎng)景模型是不一樣的。 (想要了解更多,可以看 Situation models in language comprehension and memory. Zwaan, R. A., & Radvansky, G. A. (1998). )
所以,如果匆忙進(jìn)電梯來(lái)的是你的項(xiàng)目老板,而且假設(shè)他和你(多半都是他啦)都很關(guān)注最近的新項(xiàng)目進(jìn)展,那么你們要開(kāi)展的對(duì)話(huà)就很多了。
在電梯里,你跟他打招呼:“張總,早!”, 他會(huì)回你 “早啊,對(duì)了昨天那個(gè)…”
不待他問(wèn)完,優(yōu)秀如你就能猜到“張總” 大概后面要聊的內(nèi)容是關(guān)于新項(xiàng)目的,這是因?yàn)槟阏J(rèn)為張總對(duì)這個(gè)“新項(xiàng)目”的理解和你不同,有同步的必要。甚至,你可以通過(guò)昨天他不在辦公室,大概漏掉了這個(gè)項(xiàng)目的哪些部分,來(lái)推理你這個(gè)時(shí)候應(yīng)該回復(fù)他關(guān)于這個(gè)項(xiàng)目的具體什么方面的問(wèn)題。
“昨天你不在,別擔(dān)心,客戶(hù)那邊都處理好了。打款的事情也溝通好了,30天之內(nèi)搞定。” ——你看,不待張總問(wèn)完,你都能很棒的回答上。這多虧了你對(duì)他的模型的判斷是正確的。
一旦你對(duì)對(duì)方的情景模型判斷失誤,那么可能完全“沒(méi)打中點(diǎn)上”。
“我知道,昨天晚上我回了趟公司,小李跟我說(shuō)過(guò)了。我是要說(shuō)昨天晚上我回來(lái)辦公室的時(shí)候,你怎么沒(méi)有在加班呀?小王,你這樣下去可不行啊…”
所以,人們?cè)谶M(jìn)行對(duì)話(huà)的過(guò)程中,并不是僅靠對(duì)方上一句話(huà)說(shuō)了什么(對(duì)話(huà)中明文所包含的信息)就來(lái)決定回復(fù)什么。而這和當(dāng)前的對(duì)話(huà)系統(tǒng)的回復(fù)機(jī)制非常不同。
“對(duì)話(huà)是思想從高維度向低維的投影”
我們假設(shè),在另一個(gè)平行宇宙里,還是你到了辦公樓。
今天還是1月6日,但2年前的今天,你與交往了5年的女友分手了,之后一直對(duì)她念念不忘,也沒(méi)有交往新人。
你和往日一樣,進(jìn)電梯的,剛要關(guān)門(mén)的時(shí)候,匆忙進(jìn)來(lái)的一個(gè)人,要關(guān)的門(mén)又打開(kāi)了。就是你2年前分手的那位前女友。她進(jìn)門(mén)時(shí)看到只有你們兩,她抬頭看了一下你,然后又低頭找樓層電梯了,這時(shí)她說(shuō):“你好”。
請(qǐng)問(wèn)你這時(shí)腦袋里是不是有很多信息洶涌而過(guò)?這時(shí)該回答什么?是不是類(lèi)似“一時(shí)不知道該如何開(kāi)口”的感覺(jué)?
這個(gè)感覺(jué)來(lái)自(你認(rèn)為)你和她之間的情景模型有太多的不同(分手2年了),甚至你都無(wú)法判斷缺少哪些信息。有太多的信息想要同步了,卻被貧瘠的語(yǔ)言困住了。
在信息豐富的程度上,語(yǔ)言是貧瘠的,而思想則要豐富很多“Language is sketchy, thought is rich” (New perspectives on language and thought,Lila Gleitman, The Oxford Handbook of Thinking and Reasoning;更多相關(guān)討論請(qǐng)看, Fisher & Gleitman, 2002; Papafragou, 2007)
有人做了一個(gè)比喻:語(yǔ)言和思維的豐富程度相比,是冰山的一角。我認(rèn)為遠(yuǎn)遠(yuǎn)不止如此:對(duì)話(huà)是思想在低維的投影。
如果是冰山,你還可以從水面上露出來(lái)的部分反推水下大概還有多大。屬于維度相同,但是量不同。但是語(yǔ)言的問(wèn)題在,只用聽(tīng)到文字信息,來(lái)反推講話(huà)的人的思想,失真的情況會(huì)非常嚴(yán)重。
為了方便理解這個(gè)維度差異,在這兒用3D和2D來(lái)舉例:思維是高維度(立體3D的形狀),對(duì)話(huà)是低維度(2D的平面上的陰影)。如果咱們要從平面上的陰影的形狀,來(lái)反推,上面懸著的是什么物體,就很困難了。兩個(gè)陰影的形狀一模一樣,但是上面的3D物體,可能完全不同。
對(duì)于語(yǔ)言而言,陰影就像是兩個(gè) “你好”在字面上是一模一樣的,但是思想里的內(nèi)容卻完全不同。在見(jiàn)面的那一瞬間,這個(gè)差異是非常大的:
你在想(圓柱):一年多不見(jiàn)了,她還好么?
前女友在想(球):這個(gè)人好眼熟,好像認(rèn)識(shí)…
“挑戰(zhàn):用低維表達(dá)高維”
要用語(yǔ)言來(lái)描述思維有多困難?這就好比,當(dāng)你試圖給另一位不在現(xiàn)場(chǎng)的朋友,解釋一件剛剛發(fā)生過(guò)的事情的時(shí)候,你可以做到哪種程度的還原呢?
試試用語(yǔ)言來(lái)描述你今天的早晨是怎么過(guò)的。
當(dāng)你用文字完整描述后,我一定能找到一個(gè)事物或者某個(gè)具體的細(xì)節(jié),它在你文字描述以外,但是卻確實(shí)存在在你今天早晨那個(gè)時(shí)空里。
Source:The Challenger
比如,你可能會(huì)跟朋友提到,早飯吃了一碗面;但你一定不會(huì)具體去描述面里一共有哪些調(diào)料。傳遞信息時(shí),缺少了這些細(xì)節(jié)(信息),會(huì)讓聽(tīng)眾聽(tīng)到那碗面時(shí),在腦海里呈現(xiàn)的一定不是你早上吃的“那碗面”的樣子。
這就好比讓你用平面上(2D)陰影的樣子,來(lái)反推3D的形狀。你能做的,只是盡可能的增加描述的視角,盡可能給聽(tīng)眾提供不同的2D的素材,來(lái)盡量還原3D的效果。
為了解釋腦中“語(yǔ)言”和“思想”之間的關(guān)系(與讀者的情景模型進(jìn)行同步),我畫(huà)了上面那張對(duì)比圖,來(lái)幫助傳遞信息。如果要直接用文字來(lái)精確描述,還要盡量保全信息不丟失,那么我不得不用多得多的文字來(lái)描述細(xì)節(jié)。(比如上面的描述中,尚未提及陰影的面積的具體大小、顏色等等細(xì)節(jié))。
這還只是對(duì)客觀(guān)事物的描述。當(dāng)人在試圖描述更情緒化的主觀(guān)感受時(shí),則更難用具體的文字來(lái)表達(dá)。
比如,當(dāng)你看到Angelina Jordan這樣的小女生,卻能唱出I put a spell on you這樣的歌的時(shí)候,請(qǐng)嘗試用語(yǔ)言精確描述你的主觀(guān)感受。是不是很難?能講出來(lái)話(huà),都是類(lèi)似“鵝妹子嚶”這類(lèi)的?這些文字能代表你腦中的感受的多少部分?1%?
希望此時(shí),你能更理解所謂 “語(yǔ)言是貧瘠的,而思維則要豐富很多”。
那么,既然語(yǔ)言在傳遞信息時(shí)丟失了那么多信息,人們?yōu)槭裁蠢斫馄饋?lái),好像沒(méi)有遇到太大的問(wèn)題?
“為什么人們的對(duì)話(huà)是輕松的?”
假設(shè)有一種方式,可以把此刻你腦中的感受,以完全不失真的效果傳遞給另一個(gè)人。這種信息的傳遞和上面用文字進(jìn)行描述相比,豐富程度會(huì)有多大差異?
可惜,我們沒(méi)有這種工具。我們最主要的交流工具,就是語(yǔ)言,靠著對(duì)話(huà),來(lái)試圖讓對(duì)方了解自己的處境。
那么,既然語(yǔ)言這么不精準(zhǔn),又充滿(mǎn)邏輯上的漏洞,信息量又不夠,那么人怎么能理解,還以此為基礎(chǔ),建立起來(lái)了整個(gè)文明?
比如,在一個(gè)餐廳里,當(dāng)服務(wù)員說(shuō) “火腿三明治要買(mǎi)單了”,我們都能知道這和“20號(hào)桌要買(mǎi)單了”指代的是同樣的事情 (Nuberg,1978)。是什么讓字面上那么大差異的表達(dá),也能有效傳遞信息?
人能通過(guò)對(duì)話(huà),有效理解語(yǔ)言,靠的是解讀能力——更具體的點(diǎn),靠的是對(duì)話(huà)雙方的共識(shí)和基于共識(shí)的推理能力。
當(dāng)人接收到低維的語(yǔ)言之后,會(huì)結(jié)合引用常識(shí)、自身的世界模型(后詳),來(lái)重新構(gòu)建一個(gè)思維中的模型,對(duì)應(yīng)這個(gè)語(yǔ)言所代表的含義。這并不是什么新觀(guān)點(diǎn),大家熟悉的開(kāi)復(fù)老師,在1991年在蘋(píng)果搞語(yǔ)音識(shí)別的時(shí)候,就在采訪(fǎng)里科普,“人類(lèi)利用常識(shí)來(lái)幫助理解語(yǔ)音”。
當(dāng)對(duì)話(huà)的雙方認(rèn)為對(duì)一件事情的理解是一樣的,或者非常接近的時(shí)候,他們就不用再講。需要溝通的,是那些(彼此認(rèn)為)不一樣的部分。
當(dāng)你聽(tīng)到“蘋(píng)果”兩個(gè)字的時(shí)候,你過(guò)去建立過(guò)的蘋(píng)果這個(gè)模型的各個(gè)維度,就被引用出來(lái),包括可能是綠或紅色的、味道的甜、大概拳頭大小等等。如果你聽(tīng)到對(duì)方說(shuō)“藍(lán)色的蘋(píng)果”時(shí),這和你過(guò)去建立的關(guān)于蘋(píng)果的模型不同(顏色)。思維就會(huì)產(chǎn)生一個(gè)提醒,促使你想要去同步或者更新這個(gè)模型,“蘋(píng)果為什么是藍(lán)色的?”
還記得,在Part 2 里我們提到的那個(gè)測(cè)試指代關(guān)系的Winograd Schema Challenge么?這個(gè)測(cè)試的名字是根據(jù)Terry Winograd的一個(gè)例子而來(lái)的。
“議員們拒絕給抗議者頒發(fā)許可證,因?yàn)樗麄?[害怕/提倡] 暴力。”
當(dāng) [害怕] 出現(xiàn)在句子當(dāng)中的時(shí)候,“他們”指的應(yīng)該是議員們;當(dāng)[提倡]出現(xiàn)在句子當(dāng)中的時(shí)候,“他們”則指的是“抗議者”。
1. 人們能夠根據(jù)具體情況,作出判斷,是因?yàn)楦鶕?jù)常識(shí)做出了推理,“議員害怕暴力;抗議者提倡暴力。”
2. 說(shuō)這句話(huà)的人,認(rèn)為這個(gè)常識(shí)對(duì)于聽(tīng)眾應(yīng)該是共識(shí),就直接把它省略掉了。
同理,之前(Part 2)我們舉例時(shí)提到的那個(gè)常識(shí) (“四川火鍋是辣的;日料不是辣的”),也在表達(dá)中被省略掉了。常識(shí)(往往也是大多數(shù)人的共識(shí))的總量是不計(jì)其數(shù),而且總體上還會(huì)隨著人類(lèi)社會(huì)發(fā)展的演進(jìn)而不斷新增。
例子1,如果你的世界模型里已經(jīng)包含了“華農(nóng)兄弟” (你看過(guò)并了解他們的故事),你會(huì)發(fā)現(xiàn)我在Part 2最開(kāi)始的例子,藏了一個(gè)梗(做成叫花雞)。但因?yàn)椤叭A農(nóng)兄弟”并不是大多數(shù)人都知道的常識(shí),而是我與特定人群的共識(shí),所以你看到這句話(huà)時(shí),獲得的信息就比其人多。而不了解這個(gè)梗的人,看到那里時(shí)就不會(huì)接收到這個(gè)額外的信息,反而會(huì)覺(jué)得這個(gè)表達(dá)好像有點(diǎn)點(diǎn)奇怪。
例子2,創(chuàng)投圈的朋友應(yīng)該都有聽(tīng)說(shuō)過(guò) Elevator pitch,就是30秒,把你要做什么事情講清楚。通常的案例諸如:“我們是餐飲界的Uber”,或者說(shuō)“我們是辦公室版的Airbnb”。這個(gè)典型結(jié)構(gòu)是“XX版的YY”,要讓這句話(huà)起到效果,前提條件是XX和YY兩個(gè)概念在發(fā)生對(duì)話(huà)之前,已經(jīng)納入到聽(tīng)眾的模型里面去了。如果我給別人說(shuō),我是“對(duì)話(huà)智能行業(yè)的麥肯錫”,要能讓對(duì)方理解,對(duì)方就得既了解對(duì)話(huà)智能是什么,又了解麥肯錫是什么。
“基于世界模型的推理”
場(chǎng)景模型是基于某一次對(duì)話(huà)的,對(duì)話(huà)不同,場(chǎng)景模型也不同;而世界模型則是基于一個(gè)人的,相對(duì)而言長(zhǎng)期不變。
對(duì)世界的感知,包括聲音、視覺(jué)、嗅覺(jué)、觸覺(jué)等感官反饋,有助于人們對(duì)世界建立起一個(gè)物理上的認(rèn)識(shí)。對(duì)常識(shí)的理解,包括各種現(xiàn)象和規(guī)律的感知,在幫助人們生成一個(gè)更完整的模型:世界模型。
無(wú)論精準(zhǔn)、或者對(duì)錯(cuò),每一個(gè)人的世界模型都不完全一樣,有可能是觀(guān)察到的信息不同,也有可能是推理能力不一樣。世界模型影響的是人的思維本身,繼而影響思維在低維的投影:對(duì)話(huà)。
讓我們從一個(gè)例子開(kāi)始:假設(shè)現(xiàn)在咱們一起來(lái)做一個(gè)不那么智障的助理。我們希望這個(gè)助理能夠推薦餐廳酒吧什么的,來(lái)應(yīng)付下面這樣的需求:
當(dāng)用戶(hù)說(shuō):“我想喝點(diǎn)東西”的時(shí)候,系統(tǒng)該怎么回答這句話(huà)?經(jīng)過(guò)Part 2,我相信大家都了解,我們可以把它訓(xùn)練成為一個(gè)意圖“找喝東西的店”,然后把周?chē)牡隀z索出來(lái),然后回復(fù)這句話(huà)給他:“在你附近找到這些選擇”。
恭喜,咱們已經(jīng)達(dá)到Siri的水平啦!
但是,剛剛我們開(kāi)頭就說(shuō)了,要做不那么智障的助理。這個(gè)“喝東西的店”是奶茶點(diǎn)還是咖啡店?還是全部都給他?
嗯,這就涉及到了推理。我們來(lái)手動(dòng)模擬一個(gè)。假設(shè)我們有用戶(hù)的Profile數(shù)據(jù),把這個(gè)用上:如果他的偏好中最?lèi)?ài)的飲品是咖啡,就給他推薦咖啡店。
這樣一來(lái),我們就可以更“個(gè)性化”的給他回復(fù)了:“在你附近找到這些咖啡店”。
這個(gè)時(shí)候,咱們的AI已經(jīng)達(dá)到了不少“智能系統(tǒng)”最喜歡鼓吹的個(gè)性化概念——“千人千面”啦!
然后我們來(lái)看這個(gè)概念有多蠢。
一個(gè)人喜歡喝咖啡,那么他一輩子的任意時(shí)候就都要喝咖啡么?人是怎么處理這個(gè)問(wèn)題的呢?如果用戶(hù)是在下午1點(diǎn)這么問(wèn),這么回他還好;如果是在晚上11點(diǎn)呢?我們還要給他推薦咖啡店么?還是應(yīng)該給他推薦一個(gè)酒吧?
或者,除此之外,如果今天是他的生日,那么我們是不是該給他點(diǎn)不同的東西?或者,今天是圣誕節(jié),該不該給他推薦熱巧克力?
你看,時(shí)間是一個(gè)維度,在這個(gè)維度上的不同值都在影響給用戶(hù)回復(fù)什么不同的話(huà)。
時(shí)間和用戶(hù)的Profile不同的是:
1. 時(shí)間這個(gè)維度上的值有無(wú)限多;
2. 每個(gè)刻度還都不一樣。比如雖然生日是同一個(gè)日期,但是過(guò)生日的次數(shù)卻不重復(fù);
除了時(shí)間這個(gè)維度以外,還有空間。
于是我們把空間這個(gè)維度疊加(到時(shí)間)上去。你會(huì)發(fā)現(xiàn),如果用戶(hù)在周末的家里問(wèn)這個(gè)問(wèn)題(可能想叫奶茶外賣(mài)到家?),和他在上班時(shí)間的辦公室里問(wèn)這個(gè)問(wèn)題(可能想出去走走換換思路),咱們給他的回復(fù)也應(yīng)該不同。
光是時(shí)空這兩個(gè)維度,就有無(wú)窮多的組合,用"if then"的邏輯也沒(méi)法全部手動(dòng)寫(xiě)完。我們?cè)鞕C(jī)器人的工具,到這個(gè)需求,就開(kāi)始捉襟見(jiàn)肘了。
何況時(shí)間和空間,只是世界模型當(dāng)中最顯而易見(jiàn)的兩個(gè)維度。還有更多的,更抽象的維度存在,并且直接影響與用戶(hù)的對(duì)話(huà)。比如,人物之間的關(guān)系;人物的經(jīng)歷;天氣的變化;人和地理位置的關(guān)系(是經(jīng)常來(lái)出差、是當(dāng)?shù)赝林⑹堑谝淮蝸?lái)旅游)等等等等。咱們聊到這里,感覺(jué)還在聊對(duì)話(huà)系統(tǒng)么?是不是感覺(jué)有點(diǎn)像在聊推薦系統(tǒng)?
要想效果更好,這些維度的因素都要疊加在一起進(jìn)行因果推理,然后把結(jié)果給用戶(hù)。
至此,影響人們對(duì)話(huà)的,光是信息(還不含推理)至少就有這三部分:明文(含上下文)+ 場(chǎng)景模型(Context)+ 世界模型。
普通人都能毫不費(fèi)力地完成這個(gè)工作。但是深度學(xué)習(xí)只能處理基于明文的信息。對(duì)于場(chǎng)景模型和世界模型的感知、生成、基于模型的推理,深度學(xué)習(xí)統(tǒng)統(tǒng)無(wú)能為力。
這就是為什么現(xiàn)在炙手可熱的深度學(xué)習(xí)無(wú)法實(shí)現(xiàn)真正的智能(AGI)的本質(zhì)原因:不能進(jìn)行因果推理。
根據(jù)世界模型進(jìn)行推理的效果,不僅僅體現(xiàn)上在對(duì)話(huà)上,還能應(yīng)用在所有現(xiàn)在成為AI的項(xiàng)目上,比如自動(dòng)駕駛。
經(jīng)過(guò)大量訓(xùn)練的自動(dòng)駕駛汽車(chē),在遇到偶發(fā)狀況時(shí),就沒(méi)有足夠的訓(xùn)練素材了。比如,突然出現(xiàn)在路上的嬰兒車(chē)和突然滾到路上的垃圾桶,都會(huì)被視為障礙物,但是剎不住車(chē)的情況下,一定要撞一個(gè)的時(shí)候,撞哪一個(gè)?
又比如,對(duì)侯世達(dá)(Douglas Hofstardler )而言,“駕駛”意味著當(dāng)要趕著去一個(gè)地方的時(shí)候,要選擇超速還是不超速;要從堵車(chē)的高速下來(lái),還是在高速上慢慢跟著車(chē)流走...這些決策都是駕駛的一部分。他說(shuō):“ 世界上各方面的事情都在影響著“駕駛”這件事的本質(zhì) ”。
“人腦有兩套系統(tǒng):系統(tǒng)1和系統(tǒng)2”
關(guān)于 “系統(tǒng)1和系統(tǒng)2”的詳情,請(qǐng)閱讀 Thinking, Fast and Slow, by Daniel Kahneman,一本非常好的書(shū),對(duì)人的認(rèn)知工作是如何展開(kāi)的進(jìn)行了深入的分析。在這兒,我給還不了解的朋友介紹一下,以輔助本文前后的觀(guān)點(diǎn)。
心理學(xué)家認(rèn)為,人思考和認(rèn)知工作分成了兩個(gè)系統(tǒng)來(lái)處理:
系統(tǒng)1是快思考:無(wú)意識(shí)、快速、不怎么費(fèi)腦力、無(wú)需推理
系統(tǒng)2是慢思考:需要調(diào)動(dòng)注意力、過(guò)程更慢、費(fèi)腦力、需要推理
系統(tǒng)1先上,遇到搞不定的事情,系統(tǒng)2會(huì)出面解決。
系統(tǒng)1做的事情包括: 判斷兩個(gè)物體的遠(yuǎn)近、追溯聲音的來(lái)源、完形填空 ( "我愛(ài)北京天安 " )等等。
順帶一提,下象棋的時(shí)候,一眼看出這是一步好棋,這個(gè)行為也是系統(tǒng)1實(shí)現(xiàn)的——前提是你是一位優(yōu)秀的玩家。
對(duì)于中國(guó)學(xué)生而言,你突然問(wèn)他:“7乘以7”,他會(huì)不假思索的說(shuō):“49!”這是系統(tǒng)1在工作,因?yàn)槲覀冊(cè)谛W(xué)都會(huì)背99乘法表。這個(gè)49并非來(lái)自計(jì)算結(jié)果,而是背下來(lái)的(反復(fù)重復(fù))。
相應(yīng)的,如果你問(wèn):“3287 x 2234等于多少?”,這個(gè)時(shí)候人就需要調(diào)用世界模型中的乘法規(guī)則,加以應(yīng)用(計(jì)算)。這就是系統(tǒng)2的工作。
另外,在系統(tǒng)1所設(shè)定的世界里,貓不會(huì)像狗一樣汪汪叫。若事物違反了系統(tǒng)1所設(shè)定的世界模型,系統(tǒng)2也會(huì)被激活。
在語(yǔ)言方面,Yoshua Bengio 認(rèn)為系統(tǒng)1不做與語(yǔ)言有關(guān)的工作;系統(tǒng)2才負(fù)責(zé)語(yǔ)言工作。對(duì)于深度學(xué)習(xí)而言,它更適合去完成系統(tǒng)1的工作,實(shí)際上它根本沒(méi)有系統(tǒng)2的功能。
關(guān)于這兩個(gè)系統(tǒng),值得一提的是,人是可以通過(guò)訓(xùn)練,把部分系統(tǒng)2才能做的事情,變成系統(tǒng)1來(lái)完成的。比如中國(guó)學(xué)生得經(jīng)過(guò)“痛苦的記憶過(guò)程”才能熟練掌握99乘法表,而不是隨著出生到長(zhǎng)大的自然經(jīng)驗(yàn),慢慢學(xué)會(huì)的。
但是這里有2個(gè)有意思的特征:
1. 變成系統(tǒng)1來(lái)處理問(wèn)題的時(shí)候,可以節(jié)約能量。人們偏向相信自己的經(jīng)驗(yàn),是因?yàn)槟X力對(duì)能量的消耗很大,這是一個(gè)節(jié)能的做法。
2. 變成系統(tǒng)1的時(shí)候,會(huì)犧牲辯證能力,因?yàn)橄到y(tǒng)1對(duì)于邏輯相關(guān)的問(wèn)題一無(wú)所知。“我做這個(gè)事情已經(jīng)幾十年了”這種經(jīng)驗(yàn)主義思維就是典型案例。
想想自己長(zhǎng)期積累的案例是如何在影響自己做判斷的?
“單靠深度學(xué)習(xí)搞不定語(yǔ)言,現(xiàn)在不行,將來(lái)也不行”
在人工智能行業(yè)里,你經(jīng)常會(huì)聽(tīng)到有人這么說(shuō) “盡管當(dāng)前技術(shù)還實(shí)現(xiàn)不了理想中的人工智能,但是技術(shù)是會(huì)不斷演進(jìn)的,隨著數(shù)據(jù)積累的越來(lái)越多,終將會(huì)實(shí)現(xiàn)讓人滿(mǎn)意的人工智能。”
如果這個(gè)說(shuō)法,是指寄希望于僅靠深度學(xué)習(xí),不斷積累數(shù)據(jù)量,就能翻盤(pán)——那就大錯(cuò)特錯(cuò)了。
無(wú)論你怎么優(yōu)化“馬車(chē)”的核心技術(shù)(比如更壯、更多的馬),都無(wú)法以此造出汽車(chē)(下圖右)。
對(duì)于大眾而言,技術(shù)的可演進(jìn)性,是以宏觀(guān)的視角看人類(lèi)和技術(shù)的關(guān)系。但是發(fā)動(dòng)機(jī)的演化和馬車(chē)的關(guān)鍵技術(shù)沒(méi)有半點(diǎn)關(guān)系。
深度學(xué)習(xí)領(lǐng)域的3大牛,都認(rèn)為單靠深度學(xué)習(xí)這條路(不能最終通向AGI)。感興趣的朋友可以沿著這個(gè)方向去研究:
Geoffrey Hinton的懷疑:“我的觀(guān)點(diǎn)是都扔掉重來(lái)吧”
Yoshua Bengio的觀(guān)點(diǎn):“如果你對(duì)于這個(gè)每天都在接觸的世界,有一個(gè)好的因果模型,你甚至可以對(duì)不熟悉的情況進(jìn)行抽象。這很關(guān)鍵......機(jī)器不能,因?yàn)闄C(jī)器沒(méi)有這些因果模型。我們可以手工制作這些模型,但是這遠(yuǎn)不足夠。我們需要能發(fā)現(xiàn)因果模型的機(jī)器。”
Yann LeCun的觀(guān)點(diǎn):“A learning predictive world model is what we’re missing today, and in my opinion is the biggest obstacle to significant progress in AI.”
至于深度學(xué)習(xí)在將來(lái)真正的智能上扮演的角色,在這兒我引用Gary Marcus的說(shuō)法:“I don’t think that deep learning won’t play a role in natural understanding, only that deep learning can’t succeed on its own.”
“解釋人工智障產(chǎn)品”
現(xiàn)在,我們了解了人們對(duì)話(huà)的本質(zhì)是思維的交換,而遠(yuǎn)不只是明文上的識(shí)別和基于識(shí)別的回復(fù)。而當(dāng)前的人工智能產(chǎn)品則完全無(wú)法實(shí)現(xiàn)這個(gè)效果。那么當(dāng)用戶(hù)帶著人類(lèi)的世界模型和推理能力來(lái)跟機(jī)器,用自然語(yǔ)言交互時(shí),就很容易看到破綻。
Sophia是一個(gè)技術(shù)上的騙局(凡是鼓吹Sophia是真AI的,要么是不懂,要么是忽悠);
現(xiàn)在的AI,都不會(huì)有真正的智能(推理能力什么的不存在的,包括Alpha go在內(nèi));
只要是深度學(xué)習(xí)還是主流,就不用擔(dān)心AI統(tǒng)治人類(lèi);
對(duì)話(huà)產(chǎn)品感覺(jué)用起來(lái)智障,都是因?yàn)橄胩^(guò)思維,直接模擬對(duì)話(huà)(而現(xiàn)在也只能這樣);
“用的越多,數(shù)據(jù)越多,智能會(huì)越強(qiáng),產(chǎn)品就會(huì)越好,使用就會(huì)越多”——對(duì)于任務(wù)類(lèi)對(duì)話(huà)產(chǎn)品,這是一個(gè)看上去很酷,實(shí)際上不靠譜的觀(guān)點(diǎn);
一個(gè)AI agent,能對(duì)話(huà)多少輪,毫無(wú)意義;
to C的助理產(chǎn)品做不好,是因?yàn)榻鉀Q不了“如何獲得用戶(hù)的世界模型數(shù)據(jù),并加以利用”這個(gè)問(wèn)題;
to B的對(duì)話(huà)智能公司為何很難規(guī)模化?(因?yàn)閳?chǎng)景模型是手動(dòng)生成的)
先有智能,后有語(yǔ)言:要做到真正意義上的自然語(yǔ)言對(duì)話(huà),至少要實(shí)現(xiàn)基于常識(shí)和世界模型的推理能力。而這一點(diǎn)如果能實(shí)現(xiàn),那么我們作為人類(lèi),就可能真的需要開(kāi)始擔(dān)心前文提到的智能了。
不要用NLP評(píng)價(jià)一個(gè)對(duì)話(huà)智能產(chǎn)品:年底了,有些媒體開(kāi)始出各種AI公司榜單,其中有不少把做對(duì)話(huà)的公司分在NLP下面。這就好比,不要用觸摸屏來(lái)衡量一款智能手機(jī)。在這兒我不是說(shuō)觸摸屏或者NLP不重要(Essential),反而因?yàn)樘匾耍@個(gè)環(huán)節(jié)成為了每一家的標(biāo)配,以至于在這方面基本已經(jīng)做到頭了,差異不過(guò)1%。
對(duì)于一個(gè)對(duì)話(huà)類(lèi)產(chǎn)品而言,NLU盡管重要,但只應(yīng)占個(gè)整體配件的5-10%左右。更進(jìn)一步來(lái)說(shuō),甚至意圖識(shí)別和實(shí)體提取的部分用大廠(chǎng)的,產(chǎn)品間差異也遠(yuǎn)小于對(duì)話(huà)管理部分的差距。真正決定產(chǎn)品的是剩下的90%的系統(tǒng)。
到此,是不是有一種絕望的感覺(jué)?這些學(xué)界和行業(yè)的大牛都沒(méi)有解決方案,或者說(shuō)連有把握的思路都沒(méi)有。是不是做對(duì)話(huà)智能這類(lèi)的產(chǎn)品就沒(méi)戲了?上限就是這樣了么?
不是。對(duì)于一項(xiàng)技術(shù)而言,可能確實(shí)觸底了;但是對(duì)于應(yīng)用和產(chǎn)品設(shè)計(jì)而言,并不是由一個(gè)技術(shù)決定的,而是很多技術(shù)的結(jié)合,這里還有很大的空間。
作為產(chǎn)品經(jīng)理,讓我來(lái)?yè)Q一個(gè)角度。我們來(lái)研究一下,既然手中的工具是這些,我們能用他們來(lái)做點(diǎn)什么?
Part 4
AI產(chǎn)品的潛力在于設(shè)計(jì)
“AI的歸AI,產(chǎn)品的歸產(chǎn)品”
《The Prestige》2006,劇照
有一部我很喜歡的電影,The Prestige,里面講了一個(gè)關(guān)于“瞬間移動(dòng)”的魔術(shù)。對(duì)于觀(guān)眾而言,就是從一個(gè)地方消失,然后瞬間又從另一個(gè)地方出現(xiàn)。
第一個(gè)魔術(shù)師,成功的在舞臺(tái)上實(shí)現(xiàn)了這個(gè)效果。他打開(kāi)舞臺(tái)上的右邊的門(mén),剛一進(jìn)去的一瞬間,就從舞臺(tái)左邊的門(mén)出來(lái)了。對(duì)觀(guān)眾而言,這完全符合他們的期望。
第二個(gè)魔術(shù)師在觀(guān)眾席里,看到效果后驚呆了,他感覺(jué)這根本毫無(wú)破綻。但是他是魔術(shù)師——作為一個(gè)產(chǎn)品經(jīng)理——他就想研究這個(gè)產(chǎn)品是怎么實(shí)現(xiàn)的。但是魔術(shù)行業(yè)里,最不受人待見(jiàn)的,就是魔術(shù)揭秘。
影片最后,他得到了答案(劇透預(yù)警):所有的工程機(jī)關(guān)、升降機(jī)、等等,都如他所料的藏在了舞臺(tái)下面。但真正的核心是,第一個(gè)魔術(shù)師一直隱藏著自己的另一個(gè)雙胞胎兄弟。當(dāng)他打開(kāi)一個(gè)門(mén),從洞口跳下舞臺(tái)的那一刻,雙胞胎的另一位就馬上從另一邊升上舞臺(tái)。
看到這里,大家可能就恍然大悟:“ 原來(lái)是這樣,雙胞胎啊!”
這感覺(jué)是不是有點(diǎn)似曾相識(shí)?在本文Part 2,我們聊到把對(duì)話(huà)系統(tǒng)的黑箱打開(kāi),里面就是填一張表的時(shí)候,是不是有類(lèi)似的感覺(jué)?對(duì)話(huà)式人工智能的產(chǎn)品(對(duì)話(huà)系統(tǒng))就像魔術(shù),是一個(gè)黑箱,用戶(hù)是以感知來(lái)判斷價(jià)值的。
“ 我還以為有什么黑科技呢,我是雙胞胎我也可以啊。”
其實(shí)這并不容易。我們先不說(shuō)魔術(shù)的舞臺(tái)里面的工程設(shè)計(jì),這個(gè)魔術(shù)最難的地方是如何能在魔術(shù)師的生活中,讓另一個(gè)雙胞胎在大眾視野里完全消失掉。如果觀(guān)眾們都知道魔術(shù)師是雙胞胎,就很可能猜到舞臺(tái)上的魔術(shù)是兩個(gè)人一起表演的。所以這個(gè)雙胞胎,一定不能出現(xiàn)在大眾的“世界模型”里。
為了讓雙胞胎的另一個(gè)消失在大眾視野里,這兩兄弟付出了很多代價(jià),身心磨,絕非一般人能接受的,比如共享同一個(gè)老婆。
這也是我的建議:技術(shù)不夠的時(shí)候,設(shè)計(jì)來(lái)補(bǔ)。做AI產(chǎn)品的同學(xué),不要期待給你智能。要是真的有智能了,還需要你干什么?人工智能產(chǎn)品經(jīng)理需要設(shè)計(jì)一套龐大的系統(tǒng),其中包括了填表、也當(dāng)然包括深度學(xué)習(xí)帶來(lái)的意圖識(shí)別和實(shí)體提取等等標(biāo)準(zhǔn)做法、也包括了各種可能的對(duì)話(huà)管理、上下文的處理、邏輯指代等等。
這些部分,都是產(chǎn)品設(shè)計(jì)和工程力量發(fā)揮的空間。
“設(shè)計(jì)思路的基礎(chǔ)”
我需要強(qiáng)調(diào)一下,在這里,咱們講的是AI產(chǎn)品思路,不是AI的實(shí)現(xiàn)思路。
對(duì)于對(duì)話(huà)類(lèi)產(chǎn)品的設(shè)計(jì),以現(xiàn)在深度學(xué)習(xí)的基礎(chǔ),語(yǔ)義理解應(yīng)該只占整個(gè)產(chǎn)品的5%-10%;而其他的,都是想盡一切辦法來(lái)模擬“傳送”這個(gè)效果——畢竟我們都知道,這是個(gè)魔術(shù)。如果只是識(shí)別就占了你家產(chǎn)品的大量心血,其他的不去拉開(kāi)差異,基本出來(lái)就是智障無(wú)疑。
在產(chǎn)品研發(fā)方面上,如果研發(fā)團(tuán)隊(duì)能提供多種技術(shù)混用的工具,肯定會(huì)增加開(kāi)發(fā)團(tuán)隊(duì)和設(shè)計(jì)的發(fā)揮空間。這個(gè)做法也就是DL(Deep Learning) +GOFAI (Good Old Fashioned AI)的結(jié)合。GOFAI是John Haugeland首先提出的,也就是深度學(xué)習(xí)火起來(lái)之前的symbolic AI,也就是專(zhuān)家系統(tǒng),也就是大多數(shù)在AI領(lǐng)域的人都看不起的 “if then…”
DL+GOFAI 這個(gè)前提,是當(dāng)前一切后續(xù)產(chǎn)品設(shè)計(jì)思路的基礎(chǔ)。
“Design Principle:存在即為被感知”
“存在即為被感知” 是18世紀(jì)的哲學(xué)家George Berkeley的名言。加州大學(xué)伯克利分校的命名來(lái)源也是為了紀(jì)念這位唯心主義大師。這個(gè)意思呢,就是如果你不能被感知到,你就是不存在的!
我認(rèn)為“存在即為被感知” 是對(duì)話(huà)類(lèi)AI產(chǎn)品的Design principle。對(duì)話(huà)產(chǎn)品背后的智能,是被用戶(hù)感知到而存在的。直到有一天AI可以代替產(chǎn)品經(jīng)理,在那之前,所有的設(shè)計(jì)都應(yīng)該圍繞著,如何可以讓用戶(hù)感覺(jué)和自己對(duì)話(huà)的AI是有價(jià)值的,然后才是聰明的。
要非常明確自己的目的,設(shè)計(jì)的是AI的產(chǎn)品,而不是AGI本身。就像魔術(shù)的設(shè)計(jì)者,給你有限的基礎(chǔ)技術(shù)條件,你能組裝出一個(gè)產(chǎn)品,體驗(yàn)是人們難以想到。
同時(shí),也要深刻的認(rèn)識(shí)到產(chǎn)品的局限性。魔術(shù)就是魔術(shù),并不是現(xiàn)實(shí)。
這意味著,在舞臺(tái)上的魔術(shù),如果改變一些重要的條件,它就不成立了。比如,如果讓觀(guān)眾跑到舞臺(tái)的頂上,從上往下看這個(gè)魔術(shù),就會(huì)發(fā)現(xiàn)舞臺(tái)上有洞。或者“瞬間移動(dòng)”的不是這對(duì)雙胞胎中的一個(gè),而是一個(gè)觀(guān)眾跑上去說(shuō),“讓我來(lái)瞬間移動(dòng)試試”,就穿幫了。
Narrow AI的產(chǎn)品,也是一樣的。如果你設(shè)計(jì)好了一個(gè)Domain,無(wú)論其中體驗(yàn)如何,只要用戶(hù)跑到Domain的邊界以外了,就崩潰了。先設(shè)定好產(chǎn)品邊界,設(shè)計(jì)好“越界時(shí)給用戶(hù)的反饋”,然后在領(lǐng)域里面,盡可能的模擬這個(gè)魔術(shù)的效果。
假設(shè)Domain的邊界已經(jīng)設(shè)定清晰了,哪些方面可以通過(guò)設(shè)計(jì)和工程的力量,來(lái)大幅增加效果呢?
其實(shí),在“Part 3 對(duì)話(huà)的本質(zhì)” 里談到的與思維相關(guān)的部分,在限定Domain的前提下,都可以作為設(shè)計(jì)的出發(fā)點(diǎn):你可以用GOFAI來(lái)模擬世界模型、也可以模擬場(chǎng)景模型、你可以Fake邏輯推理、可以Fake上下文指代——只要他們都限定在Domain里。
“選擇合適的Domain”
成本(工程和設(shè)計(jì)的量)和給用戶(hù)的價(jià)值并不是永遠(yuǎn)成正比,也根據(jù)不同的Domain的不同。
比如,我認(rèn)為現(xiàn)在所有的閑聊機(jī)器人都沒(méi)有什么價(jià)值。開(kāi)放Domain,沒(méi)有目標(biāo)、沒(méi)有限定和邊界,對(duì)用戶(hù)而言,會(huì)認(rèn)為什么都可以聊。但是其自身“場(chǎng)景模型”一片空白,對(duì)用戶(hù)所知的常識(shí)也一無(wú)所知。導(dǎo)致用戶(hù)稍微試一下,就碰壁了。我把這種用戶(hù)體驗(yàn)稱(chēng)為 “每次嘗試都容易遇到挫折”。
可能,有些Domain對(duì)回復(fù)的內(nèi)容并不那么看重。也就并不需要那么強(qiáng)壯的場(chǎng)景模型和推理機(jī)制來(lái)生成回復(fù)內(nèi)容。
我們假設(shè)做一個(gè)“樹(shù)洞機(jī)器人”,可以把產(chǎn)品定義是為,扮演一個(gè)好的聽(tīng)眾,讓用戶(hù)把心中的壓力煩惱傾訴出來(lái)。
Human Counseling. Source:Bradley University Online
這個(gè)產(chǎn)品的邊界,需要非常明確的,在用戶(hù)剛剛接觸到的時(shí)候,強(qiáng)化到用戶(hù)的場(chǎng)景模型中。主要是系統(tǒng)通過(guò)一些語(yǔ)言的反饋,鼓勵(lì)用戶(hù)繼續(xù)說(shuō)。而不要鼓勵(lì)用戶(hù)來(lái)期望對(duì)話(huà)系統(tǒng)能輸出很多正確且有價(jià)值的話(huà)。當(dāng)用戶(hù)做出一些陳述之后,可以跟上一些對(duì)“場(chǎng)景模型”依賴(lài)較小,泛泛的話(huà)。
“我從來(lái)沒(méi)有這么考慮過(guò)這個(gè)問(wèn)題,你為什么會(huì)這么想呢?”
“關(guān)于這個(gè)人,你還有哪些了解?”
“你覺(jué)得他為什么會(huì)這樣?”
……
這樣一來(lái),產(chǎn)品在需求上,就大幅減輕了對(duì)“自然語(yǔ)言生成”的依賴(lài)。因?yàn)檫@個(gè)產(chǎn)品的價(jià)值,不在回復(fù)的具體內(nèi)容是否精準(zhǔn),是否有價(jià)值上。這就同時(shí)降低了對(duì)話(huà)背后的“場(chǎng)景模型”、“世界模型”、以及“常識(shí)推理”這些高維度模塊的需求。訓(xùn)練的素材嘛,也就是某個(gè)特定分支領(lǐng)域(比如職場(chǎng)、家庭等)的心理咨詢(xún)師的對(duì)話(huà)案例。產(chǎn)品定義上,這得是一個(gè)Companion型的產(chǎn)品,不能真正起到理療的作用。
當(dāng)然,以上并不是真正的產(chǎn)品設(shè)計(jì),僅僅是用一個(gè)例子來(lái)說(shuō)明,不同的Domain對(duì)背后的語(yǔ)言交互的能力要求不同,進(jìn)而對(duì)更后面的“思維能力”要求不同。選擇產(chǎn)品的Domain時(shí),盡量遠(yuǎn)離那些嚴(yán)重依賴(lài)世界模型和常識(shí)推理,才能進(jìn)行對(duì)話(huà)的場(chǎng)景。
有人可能說(shuō),你這不就是Sophia的做法么?不是。這里需要強(qiáng)調(diào)的是Sophia的核心問(wèn)題是欺騙。產(chǎn)品開(kāi)發(fā)者是想忽悠大眾,他們真的做出了智能。
在這里,我提倡的是明確告訴用戶(hù),這就是對(duì)話(huà)系統(tǒng),而不是真的造出了智能。這也是為什么,在我自己的產(chǎn)品設(shè)計(jì)中,如果遇到真人和AI同時(shí)為用戶(hù)服務(wù)的時(shí)候(產(chǎn)品上稱(chēng)為Hybrid Model),我們總是會(huì)偏向明確讓用戶(hù)知道,什么時(shí)候是真人在服務(wù),什么時(shí)候是機(jī)器人在服務(wù)。這么做的好處是,控制用戶(hù)的預(yù)期,以避免用戶(hù)跑到設(shè)計(jì)的Domain以外去了;不好的地方是,你可能“聽(tīng)上去”沒(méi)有那么酷。
所以,當(dāng)我說(shuō)“存在即為被感知”的時(shí)候,強(qiáng)調(diào)的是對(duì)價(jià)值的感知;而不是對(duì)“像人一樣”的感知。
“對(duì)話(huà)智能的核心價(jià)值:在內(nèi)容,不在交互”
多年前,還在英國(guó)讀書(shū)的時(shí)候,我曾經(jīng)在一個(gè)非常有名歷史悠久的秘密結(jié)社里工作。我對(duì)當(dāng)時(shí)的那位照顧會(huì)員需求的大管家印象深刻。你可以想象她好像是“美國(guó)運(yùn)通黑卡服務(wù)”的超級(jí)禮賓,她有兩個(gè)超能力:
1. Resourceful,會(huì)員的奇葩需求都能想盡辦法的實(shí)現(xiàn):一個(gè)身在法蘭克福的會(huì)員半夜里遇到急事,臨時(shí)想盡快回倫敦,半夜沒(méi)有航班了,打電話(huà)找到大管家求助。最后大管家找到另一個(gè)會(huì)員的朋友借了私人飛機(jī),送他一程,凌晨回到了倫敦。
2. Mind-reading,會(huì)員想要什么,無(wú)需多言:
“Oliver,我想喝點(diǎn)東西…”
“當(dāng)然沒(méi)問(wèn)題,我待會(huì)給你送過(guò)來(lái)。” 她也不需要問(wèn)喝什么,或者送到哪里。
人人都想要一個(gè)這樣的管家。蝙蝠俠需要Alfred;鋼鐵俠需要Javis;西奧多需要Her(盡管這哥們后來(lái)走偏了);iPhone 需要Siri;這又回到了我們?cè)赑art1里提到的,AI的to C 終極產(chǎn)品是智能助理。
但是,人們需要這個(gè)助理的根本原因,是因?yàn)槿藗冃枰膶?duì)話(huà)能力么?這個(gè)世界上已經(jīng)有70億個(gè)自然語(yǔ)言對(duì)話(huà)系統(tǒng)了(就是人),為什么我們還需要制造更多的對(duì)話(huà)系統(tǒng)?
我們需要的是對(duì)話(huà)系統(tǒng)后面的思考能力,解決問(wèn)題的能力。而對(duì)話(huà),只是這個(gè)思考能力的交互方式(Conversational User Interface)。如果真能足夠聰明的把問(wèn)題提前解決了,用戶(hù)甚至連話(huà)都不想說(shuō)。
我們來(lái)看個(gè)例子。
我知道很多產(chǎn)品經(jīng)理已經(jīng)把這個(gè)iPhone初代發(fā)布的東西講爛了。但是,在這兒確實(shí)是一個(gè)非常好的例子:我們來(lái)探討一下iPhone用虛擬鍵盤(pán)代替實(shí)體鍵盤(pán)的原因。
普通用戶(hù),從最直觀(guān)的視角,能得出結(jié)論:這樣屏幕更大!需要鍵盤(pán)的時(shí)候就出現(xiàn),不需要的時(shí)候就消失。而且還把看上去挺復(fù)雜的產(chǎn)品設(shè)計(jì)給簡(jiǎn)化了,更好看了。甚至很多產(chǎn)品經(jīng)理也是這么想的。實(shí)際上,這根本不是硬件設(shè)計(jì)的問(wèn)題。原因見(jiàn)下圖。
其實(shí)喬布斯在當(dāng)時(shí)也講的很清楚:物理鍵盤(pán)的核心問(wèn)題是,(作為交互UI)你不能改變它。物理交互方式(鍵盤(pán))不會(huì)根據(jù)不同的軟件發(fā)生改變。
如果要在手機(jī)上加載各種各樣的內(nèi)容,如果要?jiǎng)?chuàng)造各種各樣的軟件生態(tài),這些不同的軟件都會(huì)有自己不同的UI,但是交互方式都得依賴(lài)同一種(物理鍵盤(pán)無(wú)法改變),這就行不通了。
所以,實(shí)際代替這些物理鍵盤(pán)的,不是虛擬鍵盤(pán),而是整個(gè)觸摸屏。因?yàn)閕Phone(當(dāng)時(shí)的)將來(lái)會(huì)搭載豐富的生態(tài)軟件內(nèi)容,就必須要有能與這些還沒(méi)出現(xiàn)的想法兼容的交互方式。
在我看來(lái),上述一切都是為了豐富的內(nèi)容服務(wù)。再一次的,交互本身不是核心,它背后搭載的內(nèi)容才是。
但是在當(dāng)初看這個(gè)發(fā)布會(huì)的時(shí)候,我是真的沒(méi)有g(shù)et到這個(gè)點(diǎn)。那個(gè)時(shí)候真的難以想象,整個(gè)移動(dòng)互聯(lián)時(shí)代會(huì)誕生的那么多APP,都有各自不同的UI,來(lái)搭載各式各樣的服務(wù)。
你想想,如果以上面這些實(shí)體鍵盤(pán),讓你來(lái)操作大眾點(diǎn)評(píng)、打開(kāi)地圖、Instagram或者其他你熟悉的APP,是一種怎樣的體驗(yàn)?更有可能的是,只要是這樣的交互方式,根本設(shè)計(jì)不出剛才提到的那些APP。
與之同時(shí),這也引申出一個(gè)問(wèn)題:如果設(shè)備上,并沒(méi)有多樣的軟件和內(nèi)容生態(tài),那還應(yīng)該把實(shí)體鍵設(shè)計(jì)成觸摸和虛擬的方式么?比如,一個(gè)挖掘機(jī)的交互方式,應(yīng)該使用觸屏么?甚至對(duì)話(huà)界面?
“對(duì)話(huà)智能解決重復(fù)思考”
同樣的,對(duì)話(huà)智能的產(chǎn)品的核心價(jià)值,應(yīng)該在解決問(wèn)題的能力上,而不是停留在交互這個(gè)表面。這個(gè)“內(nèi)容” 或者 “解決問(wèn)題的能力” 是怎么體現(xiàn)的呢?
工業(yè)革命給人類(lèi)帶來(lái)的巨大價(jià)值在于解決“重復(fù)體力勞動(dòng)”這件事。
經(jīng)濟(jì)學(xué)家Tyler Cowen 認(rèn)為,“ 什么行業(yè)的就業(yè)人越多,顛覆這個(gè)工種就會(huì)創(chuàng)造更大的商業(yè)價(jià)值。” 他在Average Is Over這本書(shū)里描述到:
“ 20世紀(jì)初,美國(guó)就業(yè)人口最多的是農(nóng)民;二戰(zhàn)后的工業(yè)化、第三產(chǎn)業(yè)的發(fā)展,再加上婦女解放運(yùn)動(dòng),就業(yè)人工最多的工種變成輔助商業(yè)的文字工作者比如秘書(shū)助理呼叫中心(文員,信息輸入)。1980/90年代的個(gè)人計(jì)算機(jī),以及Office 的普及,大量秘書(shū),助理類(lèi)工作消失。”
這里提及的工作,都是需要大量重復(fù)的工作。而且不停的演變,從重復(fù)的體力,逐步到重復(fù)的腦力。
從這個(gè)角度出發(fā),對(duì)一個(gè)場(chǎng)景背后的“思考能力”沒(méi)有把控的AI產(chǎn)品,會(huì)很快被代替掉。首當(dāng)其沖的,就是典型意義上的智能客服。
在市場(chǎng)上,有很多這樣的智能客服的團(tuán)隊(duì),他們能夠做對(duì)話(huà)系統(tǒng)(詳見(jiàn)Part 2),但是對(duì)這各領(lǐng)域的專(zhuān)業(yè)思考,卻不甚了解。
我把“智能客服” 稱(chēng)為“前臺(tái)小姐姐”——無(wú)意冒犯,但是前臺(tái)小姐姐的主要工作和專(zhuān)業(yè)技能并沒(méi)有關(guān)系。他們最重要的技能就是對(duì)話(huà),準(zhǔn)確點(diǎn)說(shuō)是用對(duì)話(huà)來(lái)“路由”——了解用戶(hù)什么需求,把不合適的需求過(guò)濾掉,再把需求轉(zhuǎn)給專(zhuān)家去解決。
但是對(duì)于一個(gè)企業(yè)而言,客服是只嘴和耳,而專(zhuān)家才是腦,才是內(nèi)容,才是價(jià)值。客服有多不核心?想想大量被外包出去的呼叫中心,就知道了。
與這類(lèi)客服機(jī)器人產(chǎn)品對(duì)應(yīng)的,就是專(zhuān)家機(jī)器人。一個(gè)專(zhuān)家,必定有識(shí)別用戶(hù)需求的能力,反之不亦然。你可以想象一個(gè)企業(yè)支付給一個(gè)客服多少薪資,又支付給一個(gè)專(zhuān)家多少薪資?一個(gè)專(zhuān)家需要多少時(shí)間培訓(xùn)和準(zhǔn)備才能上崗,客服小姐姐呢?于此同時(shí),專(zhuān)業(yè)能力是這個(gè)機(jī)構(gòu)的核心,而客服不是。
正因?yàn)槿绱耍芏嗳苏J(rèn)為,人工的呼叫中心,以后會(huì)被AI呼叫中心代替掉;而我認(rèn)為,用AI做呼叫中心的工作,是一個(gè)非常短暫的過(guò)渡型方案。很快代替人工呼叫中心的,甚至代替AI呼叫中心,是具備交互能力的專(zhuān)家AI中心。在這兒,“專(zhuān)家”的意義大于“呼叫”。
在經(jīng)歷過(guò)工具化帶來(lái)的產(chǎn)能爬坡和規(guī)模效應(yīng)之后,他們成本差不多,但是卻專(zhuān)業(yè)很多。比如他直接鏈接后端的供給系統(tǒng)的同時(shí),還具備專(zhuān)業(yè)領(lǐng)域的推理能力,也能與用戶(hù)直接交互。
NLP在對(duì)話(huà)系統(tǒng)里解決的是交互的問(wèn)題。
在人工智能產(chǎn)品領(lǐng)域里,給與一定時(shí)間,掌握專(zhuān)業(yè)技能的團(tuán)隊(duì)一定能對(duì)話(huà)系統(tǒng);而掌握對(duì)話(huà)系統(tǒng)的團(tuán)隊(duì)則很難掌握專(zhuān)業(yè)技能。試想一下在幾年前,移動(dòng)互聯(lián)剛剛出現(xiàn)的時(shí)候,會(huì)做app的開(kāi)發(fā)者,去幫銀行做app;而幾年之后銀行都會(huì)自己開(kāi)發(fā)app,而開(kāi)發(fā)者干不了銀行的事。
在這個(gè)例子里,做AI產(chǎn)品定義的朋友,你的產(chǎn)品最好是要代替(或者輔助)某個(gè)領(lǐng)域?qū)<遥欢灰闇?zhǔn)那些過(guò)渡性崗位,比如客服。
從這個(gè)角度出發(fā),對(duì)話(huà)智能類(lèi)的產(chǎn)品最核心的價(jià)值,是進(jìn)一步的代替用戶(hù)的重復(fù)思考。Work on the mind not the mouth.哪怕已經(jīng)是在解決腦袋的問(wèn)題,也盡量去代替用戶(hù)系統(tǒng)2的工作,而不只是系統(tǒng)1的工作。
在你的產(chǎn)品中,加入專(zhuān)業(yè)級(jí)的推理;幫助用戶(hù)進(jìn)行抽象概念與具象細(xì)節(jié)之間的轉(zhuǎn)化;幫助用戶(hù)去判斷那些出現(xiàn)在他的模型中,但是他口頭還沒(méi)有提及的問(wèn)題;考慮他當(dāng)前的環(huán)境模型、發(fā)起對(duì)話(huà)時(shí)所處的物理時(shí)空、過(guò)去的經(jīng)歷;推測(cè)他的心態(tài),他的世界模型。
先解決思考的問(wèn)題,再盡可能的轉(zhuǎn)化成語(yǔ)言。
Part 5
AIPM
“缺了什么?”
2018年10月底,我在慕尼黑為企業(yè)客戶(hù)做on site support。期間與客戶(hù)的各個(gè)BU、市場(chǎng)老板們以及自身的研發(fā)團(tuán)隊(duì)交流對(duì)話(huà)AI的應(yīng)用。作為全球最頂尖的汽車(chē)品牌之一,他們也在積極尋求AI在自身產(chǎn)品和服務(wù)上的應(yīng)用。
不缺技術(shù)人才。盡管作為傳統(tǒng)行業(yè)的大象,可能會(huì)被外界視為不擅長(zhǎng)AI,其實(shí)他們自身并不缺少NLP的研發(fā)。當(dāng)我跟他們的NLP團(tuán)隊(duì)交流時(shí),發(fā)現(xiàn)基本都有世界名校的PHD。而且,在閉門(mén)的供應(yīng)商大會(huì)上,基本全球所有的科技大廠(chǎng)和咨詢(xún)公司都在場(chǎng)了。就算實(shí)在搞不了,也大有人排著隊(duì)的想幫他們搞。
創(chuàng)新的意愿強(qiáng)烈。在我接觸過(guò)的大企業(yè)當(dāng)中,特別是傳統(tǒng)世界100強(qiáng)當(dāng)中中,這個(gè)巨頭企業(yè)是非常重視創(chuàng)新的。經(jīng)過(guò)移動(dòng)互聯(lián)時(shí)代,丟掉的陣地,他們是真心想一點(diǎn)點(diǎn)搶回來(lái),并試圖領(lǐng)導(dǎo)所在的行業(yè),而不是follow別人的做法。不僅僅是像“傳統(tǒng)的大企業(yè)創(chuàng)新”那樣做一些不痛不癢的POC,來(lái)完成創(chuàng)新部門(mén)的KPI。他們則真的很積極地推進(jìn)AI的商業(yè)化,而且勇于嘗試改變過(guò)去和Tech provider之間的關(guān)系。這點(diǎn)讓我印象深刻,限于保密條款,在此略過(guò)細(xì)節(jié)。(關(guān)于國(guó)際巨型企業(yè)借新技術(shù)的初創(chuàng)團(tuán)隊(duì)之手來(lái)做顛覆式創(chuàng)新,也是一個(gè)很有意思的話(huà)題,以后新開(kāi)一個(gè)Topic。)
數(shù)據(jù)更多。那么傳統(tǒng)巨頭的優(yōu)勢(shì)就在于,真正擁有業(yè)務(wù)場(chǎng)景和實(shí)際的數(shù)據(jù)。賣(mài)出去的每一臺(tái)產(chǎn)品都是他們的終端,而且開(kāi)始全面聯(lián)網(wǎng)和智能化。再加上,各種線(xiàn)下的渠道、海量的客服,其實(shí)他們有能力和空間來(lái)搜集更完整的用戶(hù)生命周期數(shù)據(jù)。
當(dāng)然,作為硬幣的另一面,百年品牌也自然會(huì)有嚴(yán)重的歷史牽絆。機(jī)構(gòu)內(nèi)部的合規(guī)、采購(gòu)流程、數(shù)據(jù)的管控、BU之間的數(shù)據(jù)和行政壁壘也是跑不掉的。這些環(huán)節(jié)的Trade off確實(shí)大大的影響了對(duì)上述優(yōu)勢(shì)的利用。
但是最缺少的還是產(chǎn)品定義能力。
如果對(duì)話(huà)智能的產(chǎn)品定義失敗,后面的執(zhí)行就算是完美的,出來(lái)的效果也是智障。有些銀行的AI機(jī)器人就是例子:立項(xiàng)用半年,競(jìng)標(biāo)用半年,開(kāi)發(fā)用一年,然后上線(xiàn)跑一個(gè)月就因?yàn)樘老戮€(xiàn)了。
但這其實(shí)并不是傳統(tǒng)行業(yè)的特點(diǎn),而是目前所有玩家的問(wèn)題——互聯(lián)網(wǎng)或科技公司的對(duì)話(huà)AI產(chǎn)品也逃不掉。可能互聯(lián)網(wǎng)企業(yè)還自我感覺(jué)良好,在這產(chǎn)品設(shè)計(jì)部分,人才最不缺了——畢竟“人人都是產(chǎn)品經(jīng)理” 嘛。但在目前,咱們看到的互聯(lián)網(wǎng)公司出來(lái)的產(chǎn)品也都是差不多的效果,具體情況咱們?cè)赑art 2里已經(jīng)介紹足夠多了。
我們來(lái)看看難點(diǎn)在哪里。
AI產(chǎn)品該怎么做定義呢?也就是,需要怎樣的產(chǎn)品才能實(shí)現(xiàn)商業(yè)需求。技術(shù)部門(mén)往往主要關(guān)注技術(shù)實(shí)現(xiàn),而不背商業(yè)結(jié)果KPI;而業(yè)務(wù)部門(mén)的同事對(duì)AI的理解又很有限,也就容易提出不合適的需求。
關(guān)鍵是,在做產(chǎn)品定義時(shí),你想要描述 “我想要一個(gè)這樣的AI,它可以說(shuō)…” 的時(shí)候你會(huì)發(fā)現(xiàn),因?yàn)槭菍?duì)話(huà)界面,你根本無(wú)法窮盡這個(gè)產(chǎn)品的可能性。其中一個(gè)具體細(xì)節(jié)就是,產(chǎn)品文檔該怎么寫(xiě),這就足夠挑戰(zhàn)了。
“對(duì)話(huà)AI產(chǎn)品的管理方法”
先給結(jié)論:如果還想沿用管理GUI產(chǎn)品的方法論來(lái)管理對(duì)話(huà)智能產(chǎn)品,這是不可能的。
從行業(yè)角度來(lái)看,沒(méi)有大量成功案例,就不會(huì)有流水線(xiàn);沒(méi)有流水線(xiàn),就沒(méi)有基于流水線(xiàn)的項(xiàng)目管理。
也就是說(shuō),從1886年開(kāi)始第一輛現(xiàn)代汽車(chē)出現(xiàn),到1913年才出現(xiàn)第一條流水線(xiàn)——中間有27年的跨度。再到后來(lái)豐田提出The Toyota Way,以精益管理(Lean Management)來(lái)快速迭代(類(lèi)似敏捷開(kāi)發(fā))以盡量避免浪費(fèi),即Kaizen(改善),這已經(jīng)是2001年的事情了。
這兩天和其他也在給大企業(yè)做對(duì)話(huà)的同行交流的時(shí)候,聽(tīng)到很多不太成功的產(chǎn)品案例,歸結(jié)起來(lái)幾乎都是因?yàn)?“產(chǎn)品Scope定義不明”,導(dǎo)致項(xiàng)目開(kāi)展到后面根本收不了尾。而且因?yàn)楣δ苤g的耦合緊密,連線(xiàn)都上不了(遇到上下文對(duì)話(huà)依賴(lài)的任務(wù)時(shí),中間環(huán)節(jié)一但有缺失,根本走不通流程)。這些都是行業(yè)早期不成熟的標(biāo)志。
“對(duì)話(huà)AI產(chǎn)品的Design Principle尚未出現(xiàn)”
對(duì)話(huà)智能領(lǐng)域相對(duì)視覺(jué)類(lèi)的產(chǎn)品,有幾個(gè)特性上的差異:
1)是產(chǎn)品化遠(yuǎn)不如視覺(jué)類(lèi)AI成熟;
2)深度學(xué)習(xí)在整個(gè)系統(tǒng)里扮演的角色雖然重要,但是還是很少,遠(yuǎn)不夠撐起來(lái)有價(jià)值的對(duì)話(huà)系統(tǒng);
3)產(chǎn)品都是黑箱,目前在行業(yè)中尚無(wú)比較共同認(rèn)可的設(shè)計(jì)標(biāo)準(zhǔn)。
APP發(fā)展到后面,隨著用戶(hù)的使用習(xí)慣的形成,和業(yè)界內(nèi)成功案例的“互相交流”,逐步形成了一些設(shè)計(jì)上的共識(shí),比如下面這一排,最右邊紅圈里的 “我”:
但是,從2007年iPhone發(fā)布,到這些移動(dòng)產(chǎn)品的設(shè)計(jì)規(guī)范逐步形成, 也花了近6、7年時(shí)間,且不提這是圖形化界面。
到如今,這類(lèi)移動(dòng)設(shè)備上的產(chǎn)品設(shè)計(jì)標(biāo)準(zhǔn)已經(jīng)成熟到,如果在設(shè)計(jì)師不遵循一些設(shè)計(jì)思路,反而會(huì)引起用戶(hù)的不習(xí)慣。只是對(duì)話(huà)系統(tǒng)的設(shè)計(jì)規(guī)范,現(xiàn)在談還為時(shí)尚早。
到這里,結(jié)合上述兩個(gè)點(diǎn)(對(duì)話(huà)AI產(chǎn)品的管理方法、設(shè)計(jì)規(guī)范都不成熟),也就可以解釋為什么智能音箱都不智能。因?yàn)橹悄芤粝涞谋澈蠖际且惶住凹寄艽蛟炜蚣堋保o開(kāi)發(fā)者,希望開(kāi)發(fā)者能用這套框架來(lái)制作各種“技能”。
而“對(duì)話(huà)技能類(lèi)平臺(tái)”在目前根本走不通。任何場(chǎng)景一旦涉及到明文識(shí)別以外的,需要對(duì)特定的任務(wù)和功能進(jìn)行建模,然后再融合進(jìn)多輪對(duì)話(huà)管理里的場(chǎng)景,以現(xiàn)在的產(chǎn)品成熟程度,都無(wú)法抽象成有效的設(shè)計(jì)規(guī)范。現(xiàn)在能抽象出來(lái)的,都是非常簡(jiǎn)單的上下文管理(還記得Part 2里的“填表”么?)。
我就舉一個(gè)例子,絕大部分的技能平臺(tái),根本就沒(méi)有“用戶(hù)生命周期管理”的概念。這和服務(wù)流程是兩碼事,也是很多機(jī)器人智障的諸多原因之一。因?yàn)樯婕暗教?xì)節(jié)和專(zhuān)業(yè)的部分,咱們暫且不展開(kāi)。
也有例外的情況:技能全部是語(yǔ)音控制型,比如“關(guān)燈開(kāi)燈” “開(kāi)空調(diào)25度”。這類(lèi)主要依賴(lài)明文識(shí)別的技能,也確實(shí)能用框架實(shí)現(xiàn)比較好的效果。但這樣的問(wèn)題在于,開(kāi)放給開(kāi)發(fā)者沒(méi)有意義:這類(lèi)技能既不需要多樣的產(chǎn)品化;開(kāi)發(fā)者從這類(lèi)開(kāi)發(fā)中也根本賺不到錢(qián)——幾乎沒(méi)有商業(yè)價(jià)值。
另一個(gè)例外是大廠(chǎng)做MLaaS類(lèi)平臺(tái),這還是很有價(jià)值的。能解決開(kāi)發(fā)者對(duì)深度學(xué)習(xí)的需求,比如意圖識(shí)別、分詞、實(shí)體提取等最底層的需求。但整個(gè)識(shí)別部分,就如我在Part 3&4里提到的,只應(yīng)占到任務(wù)對(duì)話(huà)系統(tǒng)的10%,也僅此而已。剩下的90%的工作,也是真正決定產(chǎn)品價(jià)值的工作,都得開(kāi)發(fā)者自己搞。
他們會(huì)經(jīng)歷些什么?我隨便舉幾個(gè)最簡(jiǎn)單的例子(行業(yè)外的朋友可以忽略):
如果你需要訓(xùn)練一個(gè)意圖,要生成1000句話(huà)來(lái)做素材,那么“找100個(gè)人,每人寫(xiě)10句” 的訓(xùn)練效果要遠(yuǎn)好于 “找10個(gè)人,每人寫(xiě)100句”;
是用場(chǎng)景來(lái)分意圖、用語(yǔ)義來(lái)分意圖和用謂語(yǔ)來(lái)拆分意圖,怎么選?這不僅影響機(jī)器人是否能高效支持“任務(wù)”之間的跳轉(zhuǎn),還影響訓(xùn)練效率、開(kāi)發(fā)成本;
有時(shí)候意圖的訓(xùn)練出錯(cuò),是訓(xùn)練者把自己腦補(bǔ)的內(nèi)容放進(jìn)去了;
話(huà)術(shù)的重要性,不僅影響用戶(hù)看著舒不舒服,更決定了他的回復(fù)的可能性——以及回復(fù)的回復(fù)的可能性——畢竟他說(shuō)的每一句后面的話(huà),都需要被識(shí)別后,再回復(fù);
如果你要給一個(gè)電影院做產(chǎn)品,最好用圖形化界面,而不要用語(yǔ)言來(lái)選座位:“現(xiàn)在空著的座位有,第一排的1,2,3,4….”
這些方面的經(jīng)驗(yàn)和技巧數(shù)都數(shù)不完,而且還是最淺顯、最皮毛的部分。你可以想象,對(duì)話(huà)智能的設(shè)計(jì)規(guī)范還有多少路要走——記得,每個(gè)產(chǎn)品還是黑箱,就算出了好效果,也看不到里面是怎么設(shè)計(jì)的。
“一個(gè)合適的AIPM”
當(dāng)真正的人工智能實(shí)現(xiàn)之后,所有產(chǎn)品經(jīng)理所需要做的思考,都會(huì)被AI代替。所以,真正的人工智能也許是人類(lèi)最后的一個(gè)發(fā)明。在那一天之前,對(duì)話(huà)智能產(chǎn)品經(jīng)理的工作,是使用各種力量來(lái)創(chuàng)造智能給人的感覺(jué)。
AIPM一定要在心中非常明確 “AI的歸AI,產(chǎn)品的歸產(chǎn)品”。做工具的和用工具的,出發(fā)點(diǎn)是完全不同。應(yīng)該是帶著做產(chǎn)品的目的,來(lái)使用AI;千萬(wàn)不要出現(xiàn)“AIPM是來(lái)實(shí)現(xiàn)AI的”這樣的幻覺(jué)。
我們都熟悉,PM需要站在“人文和技術(shù)的十字路口”來(lái)設(shè)計(jì)產(chǎn)品。那么對(duì)話(huà)智能的AIPM可能在這方面可能人格分裂的情況更極端,以至于甚至需要2個(gè)人來(lái)做配合成緊密的產(chǎn)品小組——我認(rèn)為一個(gè)優(yōu)秀的對(duì)話(huà)智能產(chǎn)品經(jīng)理,需要在這三個(gè)表現(xiàn)優(yōu)秀:
1.懂商業(yè):就是理解價(jià)值。
對(duì)話(huà)產(chǎn)品的價(jià)值一定不在對(duì)話(huà)上,而是通過(guò)對(duì)話(huà)這種交互方式(CUI)來(lái)完成背后的任務(wù)或者解決具體問(wèn)題。一個(gè)本來(lái)就很強(qiáng)的APP,就不要想著去用對(duì)話(huà)重新做一遍。反而是一些APP/WEB還沒(méi)有能很好解決的問(wèn)題,可以多花點(diǎn)時(shí)間研究看看。
這方面在Part 4 里的對(duì)話(huà)智能的核心價(jià)值部分,當(dāng)中有詳細(xì)闡述,在這里就不重復(fù)了。
2.懂技術(shù):理解手中的工具(深度學(xué)習(xí)+ GOFAI)
一個(gè)大廚,應(yīng)該熟悉食材的特性;一個(gè)音樂(lè)家,應(yīng)該熟悉樂(lè)器的特征;一個(gè)雕塑家,應(yīng)該熟悉手中的鑿子。大家工具都差不多,成果如何,完全取決于藝術(shù)家。
現(xiàn)在,AIPM手中有深度學(xué)習(xí),那么就應(yīng)該了解它擅長(zhǎng)什么和不擅長(zhǎng)什么。以避免提出太過(guò)于荒謬的需求,導(dǎo)致開(kāi)發(fā)的同學(xué)向你發(fā)起攻擊。了解深度學(xué)習(xí)的特性,會(huì)直接幫助我們判斷哪些產(chǎn)品方向更容易出效果。比如,做一個(gè)推薦餐廳的AI,就比做一個(gè)下圍棋的AI難太多了。
下圍棋的產(chǎn)品成功,并不需要人類(lèi)理解這個(gè)過(guò)程,接受這個(gè)結(jié)果就行。而推薦一個(gè)餐廳給用戶(hù),則必須要去模擬人的思維后,再投其所好。
人們?cè)谙胍扑]餐廳的時(shí)候,通過(guò)對(duì)話(huà),了解他的需求(絕對(duì)不能問(wèn)太多,特別是顯而易見(jiàn)的問(wèn)題,比如他在5點(diǎn)的時(shí)候,你問(wèn)他要定幾點(diǎn)的餐廳)
對(duì)于圍棋而言,每次(單次)輸入的可能性只有不超過(guò)棋盤(pán)上19x19=361種可能性;一局棋的過(guò)程盡管千變?nèi)f化,我們可以交給深度學(xué)習(xí)的黑箱;最后決定輸贏所需要的信息,全部呈現(xiàn)在棋盤(pán)上的落子上,盡管量大,但與落子以外的信息毫無(wú)關(guān)系,全在黑箱里,只是這個(gè)黑箱很大。最后,輸出的結(jié)果的可能性只有兩種:輸或者贏。
對(duì)于推薦餐廳。每次輸入的信息,實(shí)際并不包含決策所需要的全部信息(無(wú)法用語(yǔ)言表達(dá)所有相關(guān)的影響因素,參考Part 3 里世界模型部分);而且輸出的結(jié)果是開(kāi)放的,因?yàn)橥扑]的餐廳,既不可被量化,更不存在絕對(duì)的對(duì)錯(cuò)。
了解CUI的特性后,不該用對(duì)話(huà)的就不要強(qiáng)上對(duì)話(huà)交互;有些使用對(duì)話(huà)成本非常高,又很不Robust的環(huán)節(jié),同時(shí)用戶(hù)價(jià)值和使用頻次又很低的,就要考慮規(guī)避——咱們是做產(chǎn)品的,不是實(shí)現(xiàn)真正的AI的,要分清楚。
3.懂人:心理和語(yǔ)言
這可能是當(dāng)前對(duì)話(huà)類(lèi)產(chǎn)品最重要的地方,也是拉開(kāi)和其他產(chǎn)品設(shè)計(jì)的核心部分。也可能是中年人做產(chǎn)品的第二春。
對(duì)心理的理解,指的是當(dāng)用戶(hù)在說(shuō)話(huà)的時(shí)候,對(duì)他腦中的模型的理解。英文中“Read the room”就是指講話(huà)之前,先觀(guān)察一下了解周?chē)?tīng)眾的情況,揣摩一下他們的心理,再恰當(dāng)?shù)恼f(shuō)話(huà)。
比如,講話(huà)的時(shí)候,是否聽(tīng)眾開(kāi)始反復(fù)的看表?這會(huì)讓直接影響對(duì)話(huà)的進(jìn)程。你有遇到過(guò)和某人對(duì)話(huà)起來(lái)感覺(jué)很舒服的么?這個(gè)人,不僅僅是語(yǔ)言組織能力強(qiáng),更重要的則是他對(duì)你腦中的對(duì)話(huà)進(jìn)程的把握,以及場(chǎng)景模型,甚至對(duì)你的世界模型有把握。他還知道怎么措辭,會(huì)更容易讓你接受,甚至引導(dǎo)(Manipulate)你對(duì)一些話(huà)題的放棄,或者是加強(qiáng)。
對(duì)話(huà)系統(tǒng)的設(shè)計(jì)也是一樣的。哪些要點(diǎn)在上文中說(shuō)過(guò)?哪些類(lèi)型的指代可以去模擬?如果是文字界面,用戶(hù)會(huì)不會(huì)拉回去看之前的內(nèi)容?如果是語(yǔ)音界面,用戶(hù)腦中還記不記得住?如果記得住,還強(qiáng)調(diào),會(huì)感覺(jué)重復(fù);如果記不住,又不重復(fù),會(huì)感覺(jué)困惑。
對(duì)語(yǔ)言的理解,則是指對(duì)口語(yǔ)特性的理解。我知道Frederick Jelinek說(shuō)的“每當(dāng)我開(kāi)除一個(gè)語(yǔ)言學(xué)家,Speech識(shí)別的準(zhǔn)確率就會(huì)增高”。只是,現(xiàn)在根本沒(méi)有真正意義上的自然語(yǔ)言生成(NLG),因?yàn)闆](méi)有真正的思維生成。
所以,任務(wù)類(lèi)的對(duì)話(huà)的內(nèi)容,系統(tǒng)不會(huì)自然產(chǎn)生,也無(wú)法用深度學(xué)習(xí)生成。對(duì)于AIPM而言,要考慮的還是有很多語(yǔ)言上的具體問(wèn)題。一個(gè)回復(fù)里,內(nèi)容會(huì)不會(huì)太長(zhǎng)?要點(diǎn)該有幾個(gè)?謂語(yǔ)是否明確,用戶(hù)是否清晰被告知要做什么?條件又是什么?這樣的回復(fù),能引發(fā)多少種可能的問(wèn)詢(xún)??jī)?nèi)容措辭是否容易引起誤解(比如因?yàn)槁?tīng)眾的背景不同,可能會(huì)有不同的解讀)?
從這個(gè)角度而言,一個(gè)好的對(duì)話(huà)系統(tǒng),必定出自一個(gè)很能溝通的人或者團(tuán)隊(duì)之手。能為他人考慮,心思細(xì)膩,使用語(yǔ)言的能力高效,深諳人們的心理變化。對(duì)業(yè)務(wù)熟悉,能洞察到用戶(hù)的Context的變化,而其格調(diào)又幫助用戶(hù)控制對(duì)話(huà)的節(jié)奏,以最終解決具體問(wèn)題。
Part 6
可見(jiàn)的未來(lái)是現(xiàn)狀的延續(xù)
“過(guò)渡技術(shù)”
在幾周前,我與行業(yè)里另一家做對(duì)話(huà)的CEO討論行業(yè)的將來(lái)。當(dāng)我聊到“深度學(xué)習(xí)做對(duì)話(huà)還遠(yuǎn)達(dá)不到效果”的態(tài)度時(shí),他問(wèn)我:“如果是悲觀(guān)的,那么怎么給團(tuán)隊(duì)希望繼續(xù)往前進(jìn)呢?”
其實(shí)我并不是悲觀(guān)的,可能只是更客觀(guān)一點(diǎn)。
既然深度學(xué)習(xí)在本質(zhì)上搞不定對(duì)話(huà),那么現(xiàn)在做對(duì)話(huà)AI的實(shí)現(xiàn)方式,是不是個(gè)過(guò)渡技術(shù)?這是一個(gè)好問(wèn)題。
我認(rèn)為,用現(xiàn)在的技術(shù)用來(lái)制作AI的產(chǎn)品,還會(huì)持續(xù)很長(zhǎng)時(shí)間,直到真正智能的到來(lái)。
如果是個(gè)即將被替代或者顛覆的技術(shù),那就不應(yīng)該加碼投入。如果可以預(yù)見(jiàn)未來(lái),沒(méi)人想在數(shù)碼相機(jī)崛起的前期,加入柯達(dá);或者在LED電視普及之前,重金投入在背投電視的研發(fā)上。而且難以預(yù)測(cè)的不僅僅是技術(shù),還有市場(chǎng)的發(fā)展趨勢(shì)。比如在中國(guó),作為無(wú)現(xiàn)金支付方式,信用卡還沒(méi)來(lái)得及覆蓋足夠多的支付場(chǎng)景,就被移動(dòng)支付斷了后路。
而現(xiàn)在的對(duì)話(huà)智能所使用的技術(shù),還遠(yuǎn)沒(méi)到這個(gè)階段。
Clayton M. Christensen在《創(chuàng)新者的窘境》里描述了每個(gè)技術(shù)的三個(gè)階段:
第一個(gè)階段,緩步爬坡;
第二個(gè)階段開(kāi)始迅猛發(fā)展,但是到接近發(fā)展的高地(進(jìn)步減速)的時(shí)候,另一個(gè)顛覆式技術(shù)可能已經(jīng)悄悄萌芽,并重復(fù)著第一個(gè)技術(shù)的發(fā)展歷程;
第三個(gè)階段,則進(jìn)入發(fā)展瓶頸,并最終被新技術(shù)顛覆
下圖黑色部分,為書(shū)中原圖:
而當(dāng)前對(duì)話(huà)AI的技術(shù),還在第一階段(藍(lán)色旗幟位置)稱(chēng)不上是高速發(fā)展,還處于探索的早期。黑箱的情況,會(huì)使得這個(gè)周期(第一階段)可能比移動(dòng)時(shí)代更長(zhǎng)。
以當(dāng)前的技術(shù)發(fā)展方向,結(jié)合學(xué)術(shù)界與工業(yè)界的進(jìn)展來(lái)看,第二個(gè)技術(shù)還沒(méi)有出現(xiàn)的影子。
但是同樣因?yàn)樯疃葘W(xué)習(xí)在對(duì)話(huà)系統(tǒng)中,只扮演的一小部分角色,所以大部分的空間,也是留給大家探索和成長(zhǎng)的空間。換句話(huà)來(lái)講,還有很多發(fā)展的潛力。
前提是,我們?cè)谟懻搶?duì)話(huà)類(lèi)的產(chǎn)品,而不是實(shí)現(xiàn)AI本身。只是,這個(gè)階段的對(duì)話(huà)AI,還不會(huì)達(dá)到人們?cè)陔娪袄锟吹降哪菢樱茏匀绲挠萌祟?lèi)語(yǔ)言溝通。
2)服務(wù)提供者崛起的機(jī)會(huì)
因?yàn)樯鲜龅募夹g(shù)發(fā)展特點(diǎn),在短期的將來(lái),數(shù)據(jù)和設(shè)計(jì)是對(duì)話(huà)智能類(lèi)產(chǎn)品的壁壘,技術(shù)不是。
只是這里說(shuō)的數(shù)據(jù),不是指的用來(lái)訓(xùn)練的數(shù)據(jù)。而是供給端能完成服務(wù)的數(shù)據(jù);能夠照顧用戶(hù)整個(gè)生命周期的數(shù)據(jù);是當(dāng)對(duì)話(huà)發(fā)生的時(shí)候,用戶(hù)的明文以外的數(shù)據(jù)這些數(shù)據(jù);影響用戶(hù)腦中的環(huán)境模型、影響對(duì)任務(wù)執(zhí)行相關(guān)的常識(shí)推理數(shù)據(jù),等等。
而隨著IOT的發(fā)展,服務(wù)提供者,作為與用戶(hù)在線(xiàn)下直接打交道的一方,是最有可能掌握這些數(shù)據(jù)。他們能在各個(gè)Touch point去部署這些IOT設(shè)備,來(lái)搜集環(huán)境數(shù)據(jù)。并且,由他們決定要不要提供這些數(shù)據(jù)給平臺(tái)方。
但是,往往這些行業(yè)里的玩家都是歷史悠久、行動(dòng)緩慢。其組織機(jī)構(gòu)龐大,而且是組織結(jié)構(gòu)并不是為了創(chuàng)新而設(shè)計(jì),而是圍繞著如何能讓龐大的軀干不用思考,高速執(zhí)行。而這也正是互聯(lián)網(wǎng)企業(yè)和創(chuàng)業(yè)企業(yè)的機(jī)會(huì)。
3)超級(jí)終端與入口之爭(zhēng)
對(duì)話(huà)智能類(lèi)的產(chǎn)品必須搭載在硬件終端上。很多相關(guān)的硬件嘗試,都是在賭哪個(gè)設(shè)備能夠成為繼手機(jī)之后的下一個(gè)超級(jí)終端。就好像智能手機(jī)作為計(jì)算設(shè)備,代替了PC的地位一樣。
畢竟,在移動(dòng)時(shí)代,搶到了超級(jí)終端,就搶到了用戶(hù)獲取服務(wù)的入口。在入口的基礎(chǔ)之上,才是各個(gè)應(yīng)用。
如果對(duì)話(huà)智能發(fā)展到足夠好的體驗(yàn),并能覆蓋更多的服務(wù)領(lǐng)域時(shí),哪一個(gè)終端更有可能成為下一個(gè)超級(jí)終端呢?智能音箱、帶屏幕的音箱、車(chē)載設(shè)備甚至車(chē)機(jī)、穿戴設(shè)備等等都可以搭載對(duì)話(huà)智能。在5G的時(shí)代,更多的計(jì)算交給云端,在本地設(shè)備上留下能耗較低的OS和基礎(chǔ)設(shè)施,I/O交給麥克風(fēng)和音頻播放就完成了。
credit:Pixabay
因此任意一個(gè)聯(lián)網(wǎng)設(shè)備,都可能具備交互和傳遞服務(wù)的能力,進(jìn)一步削弱超級(jí)終端的存在。也就是說(shuō),作為個(gè)人用戶(hù),在任意一個(gè)聯(lián)網(wǎng)設(shè)備上,只要具備語(yǔ)音交互和聯(lián)網(wǎng)能力,都可能獲得服務(wù)。特別是一些場(chǎng)景依賴(lài)的商業(yè)服務(wù),如酒店、醫(yī)院、辦公室等等。
隨著這些入口的出現(xiàn),在移動(dòng)時(shí)代的以流量為中心的商業(yè)模式,可能將不再成立。而新的模式可能誕生,想象一下,每一個(gè)企業(yè),每一個(gè)品牌都會(huì)有自己的AI。一個(gè)或是多個(gè),根據(jù)不同的業(yè)務(wù)而產(chǎn)生;對(duì)內(nèi)部員工服務(wù)或者協(xié)助其工作,同時(shí)也接待外部的客服,管理整個(gè)生命周期從注冊(cè)成這家企業(yè)的用戶(hù)開(kāi)始,到最后(不幸地)中斷服務(wù)為止。
只是這個(gè)發(fā)展順序是,先有服務(wù),再有對(duì)話(huà)系統(tǒng)——就好像人,是有腦袋里的想法,再用對(duì)話(huà)來(lái)表達(dá)。
結(jié)語(yǔ)
在本文中,所有與技術(shù)和產(chǎn)品相關(guān)的討論,都是在強(qiáng)調(diào)一個(gè)觀(guān)點(diǎn):一個(gè)產(chǎn)品是由很多技術(shù)組合而成。我不希望傳達(dá)錯(cuò)誤的想法,類(lèi)似“深度學(xué)習(xí)不重要”之類(lèi)的;相反,我是希望每一類(lèi)技術(shù)都得到正確的認(rèn)識(shí),畢竟我們離真正的人工智能還有距離,能用上的都有價(jià)值。
作為AI從業(yè)者,心中也會(huì)留有非理性的希望,能早日見(jiàn)證到人造的智能的到來(lái)。畢竟,如果真正的智能出現(xiàn)了,可能產(chǎn)品經(jīng)理(以及其他很多崗位)就徹底解放了(或者被摧毀了)。
這或許就是人類(lèi)的最后一個(gè)發(fā)明。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47397瀏覽量
238902 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121265
原文標(biāo)題:人工智障 : 你看到的AI與智能無(wú)關(guān)
文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論