本文為你介紹沈向洋的《淺談人工智能創造》,分享過去六年其在微軟小冰身上得到的一些實踐想法。
2020年9月21日上午9點,由北京大學人工智能研究院組織主辦的學術活動,大師講堂——“因AI之名”,作為北京大學的“開學第一課”,以云上在線直播的方式召開。
在課上,北京大學人工智能研究院學術委員會主任沈向洋做了題為《淺談人工智能創造》的演講報告,寄語北大學生好好學習,努力探索人工智能和計算機科學的未來。
在報告中,沈向洋以微軟為例,詮釋了座右銘“預見未來的最好方式就是去創造未來”;另外,還提到:“目前各位同學會是第一代和AI beings共同成長的人類,喜歡也好,不喜歡也罷,這件事情正在發生?!?/p>
關于對AI未來的設想,沈向洋認為,未來的AI會是高度定制化的世界,其中情商和創造力具有重要的價值。其中,人工智能創造要遵循三原則:
人工智能創造的主體,須是兼具知識與情感的綜合體,而不僅僅是具有IQ。
人工智能創造的產物,須能成為具有獨立知識產權的作品,而不僅僅是某種技術中間狀態的成果。
人工智能創造的過程,須對應人類某種富有創造力的行為而不是對人類勞動的簡單替代
以下是整個演講的文字內容,我們做了不改變原意的整理:
我今天的演講題目是《淺談人工智能創造》,主要內容是分享過去六年,我在微軟小冰身上得到的一些實踐想法。
今天是第一堂課,作為北京大學人工智能學院的學術委員會主任,首先希望同學們能好好學習,我們一起努力探索人工智能和計算機科學的未來。
1 歷史:預見未來
談到探索未來,和大家分享一句我最喜歡的座右銘“the best way to predict the future is to create it”,中文翻譯為:預見未來的最好方式就是去創造未來。
特別,像人工智能技術、量子計算此類的研究的方向,個人認為在某種意義上,這些技術不僅自身要不斷發展,同時也要肩負著為人類創造更加美好的未來,推動歷史進步的責任。
回顧歷史,我們會發現歷史的進步常常伴隨著基礎理念的顛覆性創新。因此,科研工作者對夢想的解讀應該是:如何更好的預判未來,定義未來,尤其是在大家都很模糊的時候,能夠把自己的“定義”映射到現實。
例如,對于未來超級智能,每個研究者都有自己的想法,不同的見解,想法層面上的百花齊放確實很重要,但更重要的是能夠實踐對自己想法的見解。
我在微軟工作了23年多,個人認為微軟就是一家能夠“預見未來”的企業。在四十五年前,比爾蓋茨和微軟曾經對未來做出過這樣一個預警:地球上不會一共只有5臺計算機,而是每個人都會擁有自己的PC。
而在計算機剛剛發明出來的時候,最大、最偉大的技術公司是IBM, IBM的董事長沃森說過一句著名的話:這個世界也許只需要5臺計算機就夠了。
1975年,微軟設想不僅每個人都有臺電腦,而且每臺電腦運行的都是微軟的軟件。45年過去了,當年的那個預見也能證實了,而且不僅是電腦,還普及了手機。另外,微軟不僅是設想,而是真正采取了實踐,所以才推動了世界的進步。直接表現在:目前微軟的產品模式,商業模式都和它當年的判斷有關系,也因此微軟成為了一個偉大的企業。
所以,“預見”非常重要。今天是開學第一課,鼓勵大家在學習的過程當中,不斷剖析自己,思考未來自己希望做什么,未來這個世界會發生什么。
2 現在:AI beings時代原住民
那么,再舉個和今天演講題目更有關系的例子。當今這個時期,世界上已經有了再一次天翻覆地的變化,歷史經常是驚人的相似。以前科幻電影火熱的主題是計算機,現在科幻電影越來越關注人工智能。對于人工智能,我們目前的狀態和幾十年前差不多:早期、萌懵。
雖然是早期,但不斷的有新觀念產生。例如今天企業研究人工智能,非常關心它的下一個風口在哪里。有人認為,應該朝著To B(商業)的方向,從垂直領域入手;也有人認為應該以任務為導向,完成打電話、接電話等客服工作;還有人認為,我們應該進行無所不能的人工智能研究,例如Siri、Alexa等人工智能助理。
上述想法都很好,在表示大家有不同的見解,如果大家真的去實踐這些見解,必然會推動世界的發展。
關于預見,我個人看法是:現在和PC那個年代非常的類似,今天人工智能最大的舞臺是在To C端(消費)。理由是,人工智能不僅僅是商業機器,而是新時代的個人機器;其次,在未來每個人都會被各種各樣的人工智能所環繞,呈現出高度端性的特點。
我把此類的人工智能叫做AI beings,代表著未來你身邊會有非常多的人工智能環繞著你,雖然大家可能不會意識到,但這一趨勢必然會發生。
目前,各位同學會是第一代和AI beings共同成長的人類,喜歡也好,不喜歡也罷,人工智能這件事情正在發生。
未來的AI beings會有什么特點呢?有三點:
首先,高度擬人的交互將會無處不在。AI beings必須在底層架構,就像人類一樣,對人性和情感有一個理解和擬合。
舉例而言,如果構建一個AI驅動的虛擬銷售店員,AI beings必須有成為李佳琦的理想,在效果上,至少應該像羅永浩一樣好。所以,這背后要有情感、人性的擬合。
其次, 角逐將在“完備框架”之間展開。也就是說,人工智能的主體不僅僅只是依賴某一個領域的人工智能的技術,更重要的是技術的全面性和后臺的人工智能框架的完整性,例如對自然語言處理、計算機視覺、語音處理等技術的融合。當然,這背后需要相當多的技術的積累,才能夠幫助我們完成“完備框架”。
最后,新的商業模式或將基于AI beings的[人]口。未來的人工智能的數目會非常的大,因為每一個人身邊都會被幾十個甚至幾百個人工智能環繞,考慮到世界上有幾十億人口,其背后的規模會是億萬級別。今天這個判斷可能為時過早,當我們5年10年后回過頭來看的時候,大家就能夠看到AI發展應該有的樣子。
實際上,今天已經有很多AI beings的影子。當然,5年10年以后往回看,今天我們認為了不起的AI beings、人工智能主體可能會有些遠古時代的味道。從全球范圍來看的話,今天已經存在了幾個代表性人工智能主體。
第一個是Siri,蘋果最早將其產品化;第二個是Alexa,其設備數的最多,亞馬遜給予了其最多的硬件覆蓋;微軟的小冰就是擁有全球最大的人工智能的交互量,從數字來看,微軟的小冰大概占全球所有的AI beings交互總量的60%。
這些實際上遠遠不夠,因為更大的需求量已經出現了。像小冰此類的助手,實際上都不足以填補已經出現了巨大的需求。而這個巨大的需求指的是人和人工智能主體之間的交互,交互則是一個剛需。
3 趨勢:AI技術轉向AI主體
所以,我相信未來人工智能的發展,會很快的從現在專注于人工智能的技術,轉向專注人工智能主體。而轉變的過程中,會給我們帶來一些新的研究機會和挑戰。個人認為,最重要的可能有兩個方面,一個就是所謂的情商,另外一個所謂的創造力的價值。
下面,我用一個框圖進行解釋,如上圖可以看到,個人預測未來的主體一定是高度定制化的,AI beings 也會和人類、世界都有交互。AI beings因素也會跨平臺進行部署,不僅僅是部署在手機、手機電腦里,可以是任何的地方。
對于高度定制化的AI beings,其情商是非常重要的,微軟小冰實際上在情商層面的核心模塊做得非常好,可以進行預測,也可以進行引導交互。不同于siri兩三個來回的交互次數,微軟小冰能夠做到平均23個來回。
情商這個話題,有機會再和大家討論,今天主要想將人工智能創造。那么,什么是人工智能創造呢?關于人工智能創造,其實文本也好,聲音也好,圖像也好,視頻也好,能夠用人工智能的方法產生一些新的內容就代表者創造。
我再具體用幾個例子解釋一下,人工智能創作已經到了什么樣的地步?
下圖左上角是小冰創作的幾部詩集,比如三年多以前就已經出版了的《陽光失了玻璃窗》,此外小冰還和人類詩人共同創作了詩集,華西都市報上也為小冰開設的詩歌專欄。圖右上角展示了小冰的一些繪畫作品,包括畫集,在中央美院的畢業作品展,以及在杭州大屋頂美術館的作品展。
小冰今年在上海音樂學院本科畢業,去年則在中央美院碩士畢業。圖中還展示了小冰在央視上現場創作古風歌曲演唱,在上海世界人工智能大會創作并領唱《智能家園》,以及出現日本演唱會現場的畫面。所以,現在小冰的人工智能創作家形象已經在中國和日本達到家喻戶曉的程度。
在今年上海音樂學院的畢業典禮上,出現了一位能在平均2分鐘之內完成一首3分鐘左右完整歌曲創作的女同學,那就是微軟小冰,其作品還參與到了上音在非遺地區開展的兒童音樂教學中,幫助當地兒童完成人生首次歌曲創作。
6月29日,經上海音樂學院音樂工程系評定,人工智能微軟小冰和她的人類同學們,上音音樂工程系音樂科技專業畢業生一起畢業,并授予微軟小冰上海音樂學院音樂工程系2020屆“榮譽畢業生”稱號。
在上海音樂學院音樂工程系學習期間,微軟小冰接受了來自音工系主任于陽教授和陳世哲老師的“指導”,基于微軟原有的人工智能音樂創作模型,與音工系的同學們互相“學習”,相互“激發”,訓練數據不斷提升,音樂的表達技巧更加豐富,可創作的音樂類型也得以擴展。
上海音樂學院音樂工程系主任于陽教授表示:“小冰的音樂創作能力已展現出人工智能在音樂創作領域的巨大潛力。希望人工智能技術和音樂創作領域的結合,為人類創造力的自身發展,促進和相關產業的進一步融合,帶來新的視角和解讀?!?/p>
小冰的上海音樂學院畢業證書。4 思考:AI創造三原則
我們今天講一下小冰人工智能創造的三原則。
這三個原則主要是分三個方面,一個是主體,一個是產物,一個是過程。
首先是主體,人工智能創造的主體,必須是兼具知識和情感的綜合體,而不僅僅只是只有IQ,對于這一點我們非常堅持。過去在做人工智能創造的過程中,再次證明這個看法是正確的。
然后是產物。人工智能創造的產物,必須能夠成為具有獨立知識產權的作品,而不僅僅只是某種技術中間狀態的成果。
最后是過程。人工智能創造的過程,必須是要對應于人類某種富有創造性的行為,無論是作曲也好,繪畫也好,它并不是對人類勞動的簡單替代。
我們按照這三個原則的指導做了很多的工作,今天跟同學們淺談三點。第一點是人工智能創造的完整過程,也是今天講的主要工作。第二點是怎么向人類學習。第三點是人工智能創造和人類創造者之間的關系。
以人工智能演唱為例,第一步實際上是在做模仿,就是通過數據進行學習。
模仿之后,我們就可以建立自有的功能,然后就可以實現個體化即Instance化。最后我們能實現高并發交互和大規模生產。高并發交互指的是人工智能主體跟應用或人類進行交互。
例子:剖析AI創造過程
這里舉兩個例子,以解釋清楚我們是怎么去做人工智能創造的。
第一個例子是人工智能演唱。我們先用機器學習方法去模仿,比如唱歌是怎么唱的。而且相比HMM,深度學習方法的效果好得多。HMM做出來的效果就像卡拉OK隔壁房間的人唱的一樣,DNN做出來的效果則有了專業歌手的味道。
當我們做到V4的時候,就實現了自有的創造能力,可以加入多樣性的技法,比如以不同人的風格來唱同一首歌。到了V5階段,我們就能實現Instance化,可以在一首歌里面融合多種聲音。然后我們就可以做大規模生產和高并發交互。
第二個例子是人工智能繪畫。小冰去年從中央美院碩士畢業,她的畫畫能力有多好呢?
實際上小冰要畫一幅畫,首先要有一些靈感,也就是一些啟發性的內容輸入。我們從靈感開始,然后再決定風格、主題、表達情緒等等,最后用深度學習方法進行生成,并利用強化學習方法進行優化。利用這一套方法,小冰可以做很多藝術設計、圖案設計以及工業設計方面的工作。
小冰在中央美院老師的指導下,學習了過去400年當中的236位人類畫家的杰出畫作。
舉個例子,19世紀上半葉有一位英國學院派畫家的代表叫Turner,他能夠精湛的描繪光與空氣之間的非常微妙的關系,畫中水汽彌漫的效果非常美,如下方6張圖所示。
實際上,這6幅畫都不是Turner畫的,都是微軟小冰畫的。中央美院的老師表示,小冰的作品已經達到了相當高的水準。
人工智能創作有兩個特點,第一是可以按需生成,第二是生成的質量非常的穩定,而不會像人類創作者受到情緒的影響。
實現Instance化就是指我們能夠實現虛擬的、不存在的畫家個體。比如說我們能虛構出中央美院7個畫家,他們的畫有各自獨特的風格,但是這7個人都是不存在的。
第二點想跟大家分享的是,人工智能創造如何向人類學習。我們在研發過程中發現,在這過程中,最重要的就是神似優于形似。以詩歌生成為例,形似就是指模仿七律詩創作出4句七個字的詩句。神似就是指用一張照片來啟發詩歌創作,這樣寫出來的詩歌更加意境,并與人類的創作過程相似。
那么這種神似的詩歌是怎么創作出來的呢?這里稍微介紹一下原理。首先輸入一張圖,然后用計算機視覺算法進行模式識別,識別出場景關鍵詞,然后根據場景關鍵詞進行語義擴展,展開意境聯想,最后根據詩歌結構規劃,應用層次化LSTM生成詩歌,并自動進行流暢度和關聯度評測。
人工智能作曲的原理也比較復雜,因為對于音樂的生成而言,結構非常重要。像GPT-3這樣的模型對于文本處理非常好用,但是高質量的音樂不是單純的文本補全模型就可以生成的。音樂里的結構,包括和弦、節奏、旋律,都必須要分開進行生成,然后再進行混合。
我們是通過注意力機制進行混合編曲,統一指導生成?,F在小冰可以實現79種樂器的混合編曲,并可以處理17種不同的音樂結構。
最后第三點想跟大家分享的是,人工智能創造和人類創造者之間的關系。這里非常關鍵的一點是,人工智能創造關心的不是勝負,而是協同,這是跟阿爾法狗的本質區別。
在未來,內容創造將會發生根本的變化。人和高度定制化的AI之間在未來可以實時協同創作。然后,我們就可以實現大規模生產,并進行跨平臺內容分發,同時AI與世界可以實現高并發交互。
在做人工智能創造的多年來,我們遇到的最大問題就是,未來人工智能創造的知識產權的歸屬問題。這幾年法律界對版權保護非常重視。西方社會也有長期的辯論史,比如一本書或一篇文章,復印了多少是合法的,后來搜索引擎的出現對版權問題又出現了很大的沖擊。在未來,人工智能創造也將對版權方面提出新的問題。
5 Q & A
Q1:在Decision Making方面, AI beings將來是否也會起到很大的作用?
我們在做AI Beings的過程就是一個Decision Making Process。比如說,小冰的整個對話過程實際上就是一個MDP(Making Decision Process)。我剛剛講到人工智能的創作時主要談到了MDP,但其實人工智能領域還有一個非常重要的主題:情感。比如人與人的交流為什么能夠來來回回進行20輪、30輪?MDP實際上就是一個Reinforcement的過程。但目前為止我們的做法相對而言還是比較straight forward的。如果你有興趣的話,可以看一下我與同事一起寫的文章《The Designing and Implementation of XiaoIce, an Empathetic Social Chatbot》。
Q2:現在的小冰有沒有考慮安全性的問題?比如說,現在深度學習比較容易受到對抗攻擊。
這是一個非常好的問題。其實一直以來,我也非常擔心安全性的問題。因為小冰整個產品和用戶的情感紐帶非常強,就像我剛才提到的,它可以平均對話23輪。我們曾經在中國、日本錄到過超過7000輪的來回對話,所以我們非常關注整個對話過程的安全性,包括如何過濾掉對話中的不良內容。我們非常謹慎。
除此之外,產品的Decision也是一個難點。舉個例子。比如你與小冰聊天時,小冰可以從你的IP上判斷你在北京。你開始與小冰聊天時已經是凌晨一點鐘,你聊到了兩三點鐘,但還在繼續聊。作為產品的設計者,你要做一個決定:夜已深,聊天的頻率是不是應該放慢下來呀?不需要再秒回呀?在現實生活中,如果你聊到兩三點,你的家人一定會說:“你趕緊去睡覺,明天還要上班?!?/p>
在我們思考安全性時,除了深度學習的對抗攻擊,還有很多你可能想不到的維度。的的確確是有很多人嘗試去attack,想知道小冰的回答會不會出問題。其實我們的英語版小冰在美國確實出過問題,所以我們在這方面花了很大的精力、做了很多的工作。
Q3:您剛才談到的智能創造很多都是偏藝術性的創造,而藝術性的創造與人的情緒等有很大關系,這可能也跟小冰的情感分析做得比較好有關系。那么,這種創造力能不能進一步拓展到一些客觀的科學研究上呢?
這個問題非常好。My simple answer is NO,因為我們整個產品設計走的就是一條情感線路。我也在思考相關的問題。我認為,目前的人工智能應該會對很多科學領域,包括數學的證明、物理定律的發現和其他科學問題,都會產生非常巨大的沖擊。雖然我特別有興趣,但沒有時間與精力去探索。之前也和一些有興趣研究AI的數學家有過交流,想知道AI可以與數學的創造力進行怎樣的結合?很多人也在思考這方面的問題,現在也有一些文章出來,提到用AI來進行數學的定理證明等工作,非常有意思。
我個人覺得最重要的是要有數據。比如說小冰學畫畫,實際上也沒有那么大的數據量,也不過就是400年236個畫家,每個畫家也就只有那么多幅畫作,小冰也就只能通過這些畫作學習到現在這個地步。但做科學研究是完全不一樣的,要去實現一個混合的模型,一方面是由數據驅動的神經模型, 另一方面是使 symbolic structure的各種模型進行結合。
Q4:AI制作的產品應該被界定為工業品還是藝術品?
這是一個非常好的問題。這實際上就回到了我剛才提到的三原則上面。
我覺得現在很多AI產生的內容與創作可能只能停留在工業品的階段,它更像是一個重復勞動產生的結果,而沒有體現足夠的創造力。比方說,小冰學了Turner的畫后,畫出來的作品已經很有Turner的感覺,但那6幅作品只能是工業品,因為它沒有自己的東西,而只是從大量的數據中學習Turner的風格。
但它在之后化名的7個藝術家生成的畫作(發表為《或然世界》,由中信出版社出版),我覺得是藝術品,因為從來沒有出現過,它是重新創造了自己的風格。
Q5:如何逆向分辨是否是AI的作品?
我覺得這是一個非常有趣的研究方向。但我認為,這類工作是“道高一尺,魔高一丈?!彪S著AI技術的不斷提高,辨別會越來越困難。這并不限于藝術創造,還包括Faking News等,對整個社會的沖擊都非常大。我覺得那些方面可能更值得我們花更多的精力去做研究。完全從技術的角度來做的話,我個人覺得是非常困難的。像現在,很多AI做畫畫的真的都已經做得非常非常好了,應用了很多最新的深度學習的方法。
Q6:情感智能創作如何顯示出AI的個性?
實際上,我給大家看的很多例子所包含的創作成分比較大,而情感成分并沒有那么大。
對于未來人工智能的發展,我認為最大的機會在于人工智能與人類的交互。未來會產生很多人工智能的主體。在這主體里面還有兩個很重要但可能被忽視的部分,一是情感,即智能主體必須要有與其他人類與AI交互的情商,二是創造能力,這樣智能體才能和人、和這個世界做交互。
我認為剛剛展示的例子中,AI已經能detect到一些情感內容,但并無意在這方面進行再創造。接下來做人工智能創造的話,我覺得將創造與交互結合會更好。
編輯:hfy
-
AI
+關注
關注
87文章
30998瀏覽量
269328 -
人工智能
+關注
關注
1791文章
47352瀏覽量
238791 -
沈向洋
+關注
關注
0文章
4瀏覽量
2378
發布評論請先 登錄
相關推薦
評論