近期在微軟研究院舉辦的機(jī)器學(xué)習(xí)前沿論壇中,微軟劍橋研究院院長(zhǎng) Christopher Bishop 與微軟全球資深副總裁 Peter Lee 進(jìn)行了一場(chǎng)精彩的爐邊對(duì)談,分享了各自對(duì)機(jī)器學(xué)習(xí)研究和前沿問題的思考與展望。本文為大家節(jié)選、整理了此次對(duì)話。
Christopher Bishop(左)與 Peter Lee(右)線上對(duì)話Christopher Bishop:很高興能與 Peter Lee 交談。首先祝賀你成為微軟研究院的負(fù)責(zé)人。你可以談一下為什么微軟選擇把科研和技術(shù)孵化放在同一個(gè)屋檐下?
Peter Lee: 謝謝 Chris。我認(rèn)為在某種程度上,這個(gè)問題是非常核心的。在過去的幾年里,我們的研究、由研究驅(qū)動(dòng)的想法、甚至是研究人員自身,都已經(jīng)越來越多地參與到了微軟創(chuàng)造新技術(shù)、新工程、新業(yè)務(wù)線和新產(chǎn)品的過程中了。我認(rèn)為這是對(duì)行業(yè)發(fā)展方式的直接回應(yīng)。所以當(dāng)你看到諸如硅在云計(jì)算中的應(yīng)用、保密計(jì)算、或者大規(guī)模 NLP 預(yù)訓(xùn)練模型的應(yīng)用強(qiáng)度時(shí),你會(huì)意識(shí)到所有的這些事情從根本上都需要研究驅(qū)動(dòng),而且需要研究者的思維模式和世界觀。所以和微軟的科研在一起,可以讓我們更能捕捉到新奇的想法,讓微軟的技術(shù)孵化有更多的可能性。
從某種角度來說,特別是從微軟研究院來說,我認(rèn)為這個(gè)方式是振奮人心的。我們有很多同事,比如微軟研究院新體驗(yàn)與新技術(shù)部杰出工程師 Doug Burger 博士等,他們?cè)趧?chuàng)造非常重要的新的機(jī)遇;或者有些同事,他們一開始是研究人員,后來領(lǐng)導(dǎo)了工程團(tuán)隊(duì),現(xiàn)在又回到了研究領(lǐng)域,這種研究領(lǐng)域和公司商業(yè)之間的相互影響,正變得越來越重要。所以我們?cè)噲D創(chuàng)建一個(gè)組織來最大化其中的優(yōu)勢(shì)是合乎邏輯的。
當(dāng)然還有另外一個(gè)因素,我希望這個(gè)機(jī)構(gòu)可以幫助整合微軟的所有研究,從而更好地建立微軟研究院的影響力和領(lǐng)導(dǎo)力。
Christopher Bishop:我同意你的想法,我認(rèn)為這是一個(gè)非常令人興奮的發(fā)展。事實(shí)上,當(dāng)你開始擔(dān)任這個(gè)職位的時(shí)候,你還有另外一個(gè)不同尋常的開始,就是專注到公司對(duì)新冠疫情的應(yīng)對(duì)上,思考科技如何幫助世界對(duì)抗這次疫情。能分享一些你的經(jīng)歷和項(xiàng)目嗎?
Peter Lee:當(dāng)然可以。我記得那是一個(gè)周四,包括 Satya 在內(nèi)的幾位公司高管與我探討了,接下來要集中精力協(xié)調(diào)微軟可以如何通過科技幫助應(yīng)對(duì)新冠疫情。這很有難度,因?yàn)槿绾巫屇愕南敕ū宦牭健⒈豢吹剑绾握心家约罢{(diào)動(dòng)資源,都不是容易的事。我們解決這個(gè)問題的方式之一,就是通過我們每年都會(huì)舉辦的駭客松(Hackathon)活動(dòng)的一個(gè)平臺(tái),號(hào)召大家加入并提出自己的想法。如果你有一個(gè)想法,那么就可以把它寫下來,讓大家知道,并招募想要參與這個(gè)項(xiàng)目的人員。之后我們建立了一個(gè)虛擬團(tuán)隊(duì),其中大部分的人來自微軟研究院,由這些科研人員對(duì)所有項(xiàng)目進(jìn)行篩選,整個(gè)活動(dòng)過程非常棒。活動(dòng)結(jié)束時(shí),有1100名微軟員工參與了此次活動(dòng),共成立了186個(gè)項(xiàng)目,有幾十個(gè)項(xiàng)目被挑選了出來,其中一些產(chǎn)生了巨大的影響。
有一個(gè)項(xiàng)目是直接應(yīng)對(duì)醫(yī)院和診所所面臨的危機(jī)的。該項(xiàng)目構(gòu)建了一個(gè)建立在 Bot Framework 上的 AI 聊天機(jī)器人技術(shù) Microsoft Health Bot。要知道疫情期間,人們會(huì)涌向熱點(diǎn)地區(qū)的急診科咨詢、就診,或者打電話給醫(yī)院的呼叫中心,這使得醫(yī)護(hù)人員不堪重負(fù)。Microsoft Health Bot 可以智能地提供建議,進(jìn)行實(shí)時(shí)的健康咨詢。我們與疾病控制中心(CDC)合作,在 CDC 官方網(wǎng)站上面向全美用戶推出了這一機(jī)器人服務(wù)。目前為止,全球已有2,100多家醫(yī)院和診所部署了這種醫(yī)療機(jī)器人服務(wù)。迄今為止,已有3,900萬(wàn)人使用機(jī)器人對(duì)自己的癥狀進(jìn)行評(píng)估。使用了該醫(yī)療機(jī)器人服務(wù)的多數(shù)醫(yī)療機(jī)構(gòu)表示,其急診部、呼叫中心和遠(yuǎn)程醫(yī)療服務(wù)有關(guān)新冠肺炎的就診或問詢數(shù)量降低了至少30%。
另一個(gè)項(xiàng)目則與診斷有關(guān)。我們與生物技術(shù)公司 Adaptive Biotechnologies 合作,利用機(jī)器學(xué)習(xí)技術(shù)參與了 T 細(xì)胞對(duì)新型冠狀病毒的深入分析,并將所有數(shù)據(jù)公開發(fā)布在 Immune Code 數(shù)據(jù)庫(kù)中,以期促進(jìn)基于 T 細(xì)胞的新診斷方法、新藥物療法和新疫苗的研發(fā)工作。除此之外,我們還有許多與公共健康相關(guān)的項(xiàng)目,比如,分析下一個(gè)熱點(diǎn)地區(qū)在哪里,各個(gè)國(guó)家的弱勢(shì)群體在哪里,重癥監(jiān)護(hù)病房、呼吸機(jī)、個(gè)人防護(hù)裝備的供應(yīng)配備的如何等等。所以我認(rèn)為我們都應(yīng)該為有很多這樣的項(xiàng)目而感到自豪。微軟的反應(yīng)確實(shí)產(chǎn)生了影響,并且還在不斷地持續(xù)下去。在我們整個(gè)駭客松活動(dòng)中,有超過三分之一的參與者和超過三分之一的項(xiàng)目來自微軟的研究部門。我認(rèn)為這很神奇,在應(yīng)對(duì)新冠疫情方面,微軟的科研確實(shí)在一個(gè)前沿和中心地帶。
Christopher Bishop:你能和我們分享一下你對(duì)微軟在醫(yī)療健康領(lǐng)域的戰(zhàn)略嗎?或者說為什么微軟要涉足醫(yī)療領(lǐng)域?
Peter Lee:微軟在醫(yī)療健康領(lǐng)域不僅涉及到科研,還有商業(yè)的業(yè)務(wù),Azure 云計(jì)算平臺(tái),以及相關(guān)的實(shí)踐和設(shè)備。
我對(duì)這個(gè)問題的思考可以分為三個(gè)階段:相關(guān)性,價(jià)值和轉(zhuǎn)變。它們是分階段出現(xiàn)的。當(dāng) Satya 希望我們接手醫(yī)療健康方面的工作時(shí),第一項(xiàng)就是相關(guān)性的問題。我所說的相關(guān)性是指醫(yī)療健康領(lǐng)域的利益相關(guān)者是如何理解微軟可以提供的東西的,我們要如何與醫(yī)療健康行業(yè)、醫(yī)療服務(wù)提供商、醫(yī)院、診所、醫(yī)療系統(tǒng)、保險(xiǎn)公司、供應(yīng)商、生物制藥行業(yè)、醫(yī)療技術(shù)公司、創(chuàng)業(yè)公司等等聯(lián)系起來。相關(guān)性就是指我們必須弄清楚如何獲得他們,因?yàn)檫@樣可以讓我們更加深入的進(jìn)入到合作與伙伴關(guān)系,開始學(xué)習(xí)更多。
在微軟內(nèi)部也存在相關(guān)性,因?yàn)獒t(yī)療健康是每個(gè)人都會(huì)直接接觸到的領(lǐng)域之一,每個(gè)人都有自己的觀點(diǎn)。這種經(jīng)歷往往受到人們與醫(yī)院醫(yī)生和護(hù)士的個(gè)人接觸的影響,但很大程度上我們會(huì)忽略背后更大的醫(yī)療健康體系。所以我們必須努力贏得內(nèi)部的信譽(yù)和相關(guān)性。要做到這一點(diǎn),就意味著我們也要在微軟內(nèi)部找到合適的合作伙伴。
第二個(gè)階段是價(jià)值,這主要和數(shù)據(jù)、人工智能相關(guān)。現(xiàn)在,圍繞著所謂的互操作性問題,醫(yī)療數(shù)據(jù)正在發(fā)生巨大的變化,人們?cè)噲D讓醫(yī)療數(shù)據(jù)以標(biāo)準(zhǔn)化的格式去到所需要的地方,并使其更容易受到機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的影響。因此,我們做了大量的工作來發(fā)展 Azure, Dynamics 和 Microsoft 365,讓它們使用健康數(shù)據(jù)的語(yǔ)言。所以你會(huì)聽到 FHIR 等,這些是健康數(shù)據(jù)的新標(biāo)準(zhǔn)。人工智能也是非常基礎(chǔ)和重要的。大量的健康數(shù)據(jù)是非結(jié)構(gòu)化的文本,所以 NLP 和機(jī)器閱讀就變得非常重要,計(jì)算機(jī)視覺也可以幫助真正理解醫(yī)學(xué)影像、理解分子、理解人類基因組、了解免疫系統(tǒng)和免疫體等。所有這些問題從根本上來說,都是機(jī)器學(xué)習(xí)和人工智能問題。這是我們一直關(guān)注的領(lǐng)域。當(dāng)然,為每一個(gè)東西建立技術(shù)堆棧然后再把它們變成產(chǎn)品是一個(gè)很大的挑戰(zhàn)。
舉一個(gè)例子,全球醫(yī)療健康市場(chǎng)估計(jì)大約是7.5萬(wàn)億美元,這是什么意思呢?比如,與我們合作密切的公司 Optum 是處理醫(yī)療索賠數(shù)據(jù)的,他們會(huì)將這些數(shù)據(jù)從醫(yī)療健康提供者傳遞給支付者,然后將支付者的匯款在返回給提供者。所以數(shù)據(jù)流往返在美國(guó)的醫(yī)療系統(tǒng)中是一個(gè)非常重要的功能。在這種雙向的過程中,大量的數(shù)據(jù)分析將有助于相關(guān)業(yè)務(wù)的發(fā)展。Optum 是美國(guó)醫(yī)療系統(tǒng)中第二大提供這種服務(wù)的公司,所以這樣的利基市場(chǎng)支撐了 Optum,而它擁有和微軟一樣的員工數(shù)量和年收入。因此,如果你考慮一下目前正在發(fā)生的醫(yī)療健康向云計(jì)算進(jìn)行巨大轉(zhuǎn)變的可能性,那么我們?cè)朴?jì)算中的醫(yī)療健康業(yè)務(wù)規(guī)模未來超過微軟目前所有業(yè)務(wù)的總和不是沒有理由的。當(dāng)然,我們合作中最有趣的一個(gè)是和 Novartis 公司的合作,我們都很為這件事激動(dòng)。
Christopher Bishop:是的,這是一個(gè)令人興奮的機(jī)會(huì)。我想,對(duì)于微軟研究院來說,這也是一種非常不同的操作模式。我有幸在微軟研究院工作已經(jīng)超過23年了,從歷史上看,我們會(huì)做很多基礎(chǔ)研究,有時(shí)我們會(huì)把技術(shù)轉(zhuǎn)化為產(chǎn)品,產(chǎn)品會(huì)被賣出去,客戶會(huì)使用它們,然后對(duì)現(xiàn)實(shí)世界產(chǎn)生影響。這是一個(gè)很長(zhǎng)的過程,但通過這種方式我們與現(xiàn)實(shí)世界連接到了一起。
在與 Novartis 公司的合作中,我們直接與客戶的接觸是令人興奮的,這也和在新的數(shù)據(jù)驅(qū)動(dòng)的世界里的機(jī)器學(xué)習(xí)技術(shù)有關(guān),因?yàn)槲覀儾辉倏紤]放之四海而皆準(zhǔn)的技術(shù)——那種放在磁盤里,壓縮、打包再發(fā)送到世界各地的技術(shù),現(xiàn)在更多的是定制,針對(duì)特定的領(lǐng)域、特定的合作者、特定的應(yīng)用程序來進(jìn)行制作。因此,我們與 Novartis 緊密合作,于去年簽署了合作協(xié)議,并在今年1月份正式啟動(dòng)。在這個(gè)合作中, Novartis 的科學(xué)家和微軟研究院的科學(xué)家之間是一個(gè)對(duì)等的伙伴關(guān)系,Novartis 把制藥方面的專業(yè)知識(shí)和積累的數(shù)據(jù)結(jié)合起來,我們則發(fā)揮在機(jī)器學(xué)習(xí)方面的專長(zhǎng),利用微軟云的存儲(chǔ)能力和非常強(qiáng)大的計(jì)算能力。我們會(huì)共同應(yīng)對(duì)一些非常艱巨的挑戰(zhàn),而這些挑戰(zhàn)是任何一個(gè)組織都無法獨(dú)自完成的。
我們所做的一件事就是思考如何將微軟研究院的技術(shù)優(yōu)勢(shì),應(yīng)用到 Novartis 面臨的一些挑戰(zhàn)中。例如,我們幾年前建立了一個(gè)關(guān)注醫(yī)學(xué)成像的項(xiàng)目,特別著重在三維醫(yī)學(xué)圖像的分割,比如 MRI(磁共振成像)。它有很多應(yīng)用,其中一個(gè)很重要的應(yīng)用就是所謂的放射治療計(jì)劃。如果有人有一個(gè)惡性腫瘤要接受放射治療,那么就會(huì)有一些軟件優(yōu)化光束的三維形狀,以便于最大限度地?fù)p害腫瘤并減少對(duì)周圍組織的傷害,特別是對(duì)重要器官的損害。而為了讓這個(gè)軟件工作,它需要一個(gè)腫瘤的三維圖像,這就是 MRI 的用武之地。在那時(shí)候,放射腫瘤學(xué)家會(huì)使用 3D 掃描,然后用電腦屏幕上的手寫筆,一片片地掃描這片區(qū)域,劃出邊界。對(duì)于一個(gè)簡(jiǎn)單的案子來說,這可能就需要20多分鐘。如果轉(zhuǎn)移了,有多個(gè)腫瘤,那么則可能需要幾個(gè)小時(shí)。這是艱苦乏味的,而且必須要準(zhǔn)確。
這就是我們的項(xiàng)目能夠真正幫助放射腫瘤學(xué)家的工作流程的地方。我們的技術(shù)可以通過自動(dòng)化,在幾秒鐘的時(shí)間內(nèi),產(chǎn)生分割的候選區(qū)域,然后專家可以去修改他們想要改變的任何小細(xì)節(jié),這大大加快了這一工作進(jìn)程。目前,這項(xiàng)技術(shù)已經(jīng)被廣泛應(yīng)用于研究環(huán)境中,在劍橋當(dāng)?shù)氐?Addenbrooke 醫(yī)院(歐洲最大的教學(xué)和研究醫(yī)院之一)里,這項(xiàng)技術(shù)在臨床實(shí)踐中正在進(jìn)行有效地探索。
Peter Lee:因?yàn)檫@個(gè)醫(yī)學(xué)成像應(yīng)用不可能僅僅采用現(xiàn)有的機(jī)器學(xué)習(xí)或計(jì)算機(jī)視覺系統(tǒng),甚至是現(xiàn)成的算法。為了使該應(yīng)用程序良好地工作,我們必須專門開發(fā)一些新的東西。而且,這確實(shí)需要一個(gè)世界級(jí)的研究機(jī)構(gòu)來做這樣的事情。
Christopher Bishop:是的。我認(rèn)為正是深度研究和現(xiàn)實(shí)應(yīng)用的交集讓很多研究人員興奮不已。我們有機(jī)會(huì)直接影響現(xiàn)實(shí)世界,在醫(yī)療健康領(lǐng)域拯救生命,當(dāng)然我們首先要解決一些非常困難的研究問題才能實(shí)現(xiàn)。所以,至少對(duì)我來說,深度研究和現(xiàn)實(shí)世界影響的結(jié)合是非常令人興奮的。
我們與 Novartis 合作的另一個(gè)很好的例子是關(guān)于他們的核心業(yè)務(wù)的,也就是創(chuàng)造新藥、新療法,這實(shí)際上意味著發(fā)現(xiàn)新的分子。有趣的是,數(shù)據(jù)的性質(zhì)與許多其他應(yīng)用程序相當(dāng)不同。比如成像,圖像往往是固定的大小,或者你可以重新采樣到固定的大小。神經(jīng)網(wǎng)絡(luò)總是以相同的格式,相同的維度來獲取數(shù)據(jù)。但是分子很有趣,因?yàn)楹苊黠@它們?cè)诖笮。螤詈徒Y(jié)構(gòu)上都是不同的,所以你不能用一個(gè)簡(jiǎn)單的分子展示,然后把這個(gè)當(dāng)作神經(jīng)網(wǎng)絡(luò)的輸入信息,因?yàn)樗慕Y(jié)構(gòu)是可變的。在微軟研究院,一些圖形神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)處于領(lǐng)先地位,這些技術(shù)解決了如何利用機(jī)器學(xué)習(xí),并將其應(yīng)用到數(shù)據(jù)上的問題,這些數(shù)據(jù)具有可變的大小和結(jié)構(gòu),比如分子。這是一個(gè)很好的例子,它把微軟研究院的深入研究,與 Novartis 公司在理解結(jié)構(gòu)和分子之間的關(guān)系以及它們的生物活性上的專業(yè)知識(shí),結(jié)合在了一起。在這個(gè)項(xiàng)目中,很難想象任何一個(gè)小組能夠單獨(dú)完成這么好的工作,但是我們合作的時(shí)候,就可以做一些非常獨(dú)特和非常有趣的事情。
Peter Lee:我認(rèn)為一個(gè)有趣的科學(xué)挑戰(zhàn)是——你不能指望解決一個(gè)問題,僅僅是基于數(shù)據(jù)或僅僅通過我們對(duì)化學(xué)過程的理解,這真的需要兩者的結(jié)合。
Christopher Bishop:確實(shí)。我認(rèn)為關(guān)于醫(yī)療健康最有趣的事情之一,是對(duì)現(xiàn)實(shí)世界產(chǎn)生影響,而且有了造福社會(huì)的機(jī)會(huì)。我也認(rèn)為,醫(yī)療健康確實(shí)把焦點(diǎn)放在了很多深層次的挑戰(zhàn),機(jī)器學(xué)習(xí)的研究挑戰(zhàn)上。
我們已經(jīng)談了很多關(guān)于新冠疫情的話題了,當(dāng)然,這場(chǎng)全球疫情的另一個(gè)重大影響是遠(yuǎn)程工作和在家辦公的驚人轉(zhuǎn)變,以及遠(yuǎn)程協(xié)作技術(shù)的使用,比如微軟 Teams 的使用。
Johannes Gehrke 是微軟的技術(shù)院士,他最近加入了我們,成為了我們?cè)诶椎旅傻难芯控?fù)責(zé)人。在此之前,Johannes 負(fù)責(zé)微軟 Office 的大型工程工作,特別是人工智能和微軟 Teams 的可擴(kuò)展性方面。我認(rèn)為 Johannes 是一個(gè)理想的人選,來和我們分享他對(duì)生產(chǎn)力變化的看法以及支持這種變化的技術(shù),更具體地說是,機(jī)器學(xué)習(xí)如何進(jìn)一步幫助我們的現(xiàn)實(shí)生活。
Christopher Bishop(右)與 Johannes Gehrke(左)線上交流
Christopher Bishop:我們很高興你加入了微軟研究院。你認(rèn)為機(jī)器學(xué)習(xí)在生產(chǎn)力、工具和技術(shù)方面能發(fā)揮什么作用呢?
Johannes Gehrke:我想首先看看音頻和視頻堆棧,了解哪里存在舊的控制理論,我們是否可以用機(jī)器學(xué)習(xí)來代替。我們即將推出的噪聲抑制,基本上就是用機(jī)器學(xué)習(xí)代替了一個(gè)舊的堆棧選項(xiàng)噪聲抑制器。進(jìn)步真的很驚人。這也是機(jī)器學(xué)習(xí)研究發(fā)揮重要作用的一個(gè)很好的例子,但是發(fā)表的論文和實(shí)際應(yīng)用之間還是有很大差距的,所以我們必須做更多的工作來讓模型表現(xiàn)得更出色,同時(shí)也要適應(yīng)我們實(shí)際看到的各種各樣的噪音。所以在我看來,基本上整個(gè)控制平面,甚至音頻/視頻堆棧的數(shù)據(jù)平面都可以用機(jī)器學(xué)習(xí)代替。
其次,可能會(huì)有非常有趣的面向用戶的特性。試想,我們有一個(gè)功能,我可以舉起我的手,但當(dāng)結(jié)束講話時(shí),人們忘記放下來了。所以我認(rèn)為有很多面向用戶的功能,我們可以根據(jù)微妙的信號(hào)減輕互動(dòng)的程度,在現(xiàn)實(shí)世界中交流的時(shí)候,我們通常能看到這種信號(hào),但是在虛擬的環(huán)境中,我們是做不到的。
Christopher Bishop:我覺得這很有趣,看看機(jī)器學(xué)習(xí)是如何變得無處不在的。就像你說的,在這些更傳統(tǒng)的問題上現(xiàn)在已經(jīng)被機(jī)器學(xué)習(xí)所解決了,而且它們?cè)诤芏鄷r(shí)候都更加有效,因?yàn)樗鼈儽徽{(diào)整到了特定的數(shù)據(jù)或特定的環(huán)境中使用,而不是通用的。我認(rèn)為這是當(dāng)今機(jī)器學(xué)習(xí)的一大前沿。
Peter Lee:Chris,讓我們回到你身上,在過去的30多年里,你是機(jī)器學(xué)習(xí)領(lǐng)域的先驅(qū)之一。在你從事這一行的30多年里,你認(rèn)為這個(gè)領(lǐng)域是如何變化和發(fā)展的?
Christopher Bishop:我認(rèn)為這30多年來最大的轉(zhuǎn)變是這個(gè)領(lǐng)域的重點(diǎn)。老實(shí)說,在這30年的前20年里,機(jī)器學(xué)習(xí)并不是真的那么很有效,雖然有很多令人興奮的事情,每個(gè)人都知道機(jī)器學(xué)習(xí)是前途無限的,這很吸引人。但現(xiàn)實(shí)是,那時(shí)許多機(jī)器學(xué)習(xí)系統(tǒng)的性能還不足以在現(xiàn)實(shí)世界中使用。可能有一些間隙中的應(yīng)用程序,但大多數(shù)都沒有真正實(shí)現(xiàn)它們的承諾,也不令人興奮。當(dāng)然,在過去的十年里,這種情況發(fā)生了改變,特別是隨著深度神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的發(fā)展,以及大規(guī)模數(shù)據(jù)集和大量計(jì)算的擴(kuò)展。
我們所處的世界中,機(jī)器學(xué)習(xí)的應(yīng)用有上千種。今天大多數(shù)人都已經(jīng)使用了幾個(gè),甚至可能都不知道。機(jī)器學(xué)習(xí)正變得無處不在,這意味著,盡管我們?nèi)猿掷m(xù)強(qiáng)烈關(guān)注機(jī)器學(xué)習(xí)在準(zhǔn)確性方面的表現(xiàn),但我們總是想讓它更準(zhǔn)確。因?yàn)楫?dāng)我們?cè)诂F(xiàn)實(shí)世界中使用機(jī)器學(xué)習(xí)時(shí),它帶來了一系列的新挑戰(zhàn)。我把這看做是圍繞著機(jī)器學(xué)習(xí)工作核心問題的隱蔽性問題。我認(rèn)為由于數(shù)據(jù)集的偏見,預(yù)測(cè)結(jié)果中就會(huì)有隱藏的偏見,比如公平問題,可解釋性問題,因果關(guān)系的問題,如果我們真的想對(duì)結(jié)果的偏見進(jìn)行干預(yù)的話,那么還有很多工作要做。20年前是沒有人會(huì)攻擊一篇論文的,但是現(xiàn)在一旦你把東西放到網(wǎng)上,有數(shù)億人在使用互聯(lián)網(wǎng),那么就會(huì)有敵對(duì)的人,出于各種不同的原因會(huì)有人以各種各樣的方式攻擊它。我們不得不擔(dān)心這些問題。
在某種意義上,我不認(rèn)為我們會(huì)得到所有的答案,但通過類似此次機(jī)器學(xué)習(xí)前沿論壇這類交流活動(dòng),我們肯定會(huì)觸及許多關(guān)鍵問題,并聽到一些非常有趣的前沿觀點(diǎn)。關(guān)于我們現(xiàn)在看到的趨勢(shì),我認(rèn)為是非常令人興奮的。其中一個(gè),我認(rèn)為是相當(dāng)明顯的,就是縮放。今天機(jī)器學(xué)習(xí)工作做得這么好的一個(gè)原因是因?yàn)槲覀円呀?jīng)學(xué)會(huì)了縮放,縮放數(shù)據(jù)集的大小,縮放學(xué)習(xí)算法的大小,縮放參數(shù)數(shù)量方面的模型。當(dāng)然,為了能夠在大數(shù)據(jù)集上訓(xùn)練大模型,我們必須擴(kuò)大計(jì)算機(jī)的規(guī)模,而這一趨勢(shì)看來還將繼續(xù)下去。例如,當(dāng)我們思考自然語(yǔ)言模型的發(fā)展時(shí),我們并沒有意識(shí)到我們已經(jīng)達(dá)到了某種漸近線。所有的跡象都表明,更大的數(shù)據(jù)集、更大的模型,更多的計(jì)算,將讓我們看到性能上越來越多的改進(jìn),越來越多的新屬性。這真的很了不起。對(duì)該領(lǐng)域的一個(gè)真正的挑戰(zhàn)是如何保持這個(gè)趨勢(shì),我們?nèi)绾卫^續(xù)看到這些機(jī)器學(xué)習(xí)性能的大規(guī)模突破。我認(rèn)為這是一個(gè)非常重要的趨勢(shì),而且將繼續(xù)下去。
另一個(gè)與機(jī)器學(xué)習(xí)相關(guān)的是數(shù)據(jù)。數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心。當(dāng)我們?cè)噲D讓機(jī)器學(xué)習(xí)擴(kuò)展到越來越多的領(lǐng)域,比如我們討論了很多在醫(yī)療健康方面的例子,以及其他領(lǐng)域的,收集數(shù)據(jù)、收集可用的數(shù)據(jù),會(huì)給社會(huì)帶來巨大的潛在好處。但是很多數(shù)據(jù)非常敏感,非常個(gè)人化,比如醫(yī)療數(shù)據(jù),就是一個(gè)很好的例子。所以從隱私和安全的角度來看數(shù)據(jù),我們也需要多多注意這方面的發(fā)展。我認(rèn)為這是一個(gè)令人興奮和重要的前沿領(lǐng)域。在為云機(jī)器學(xué)習(xí)提供保密性方面,微軟在很多方面都處于領(lǐng)先地位。我們是第一個(gè)部署數(shù)據(jù)加密技術(shù)的云提供商,不僅在數(shù)據(jù)通過互聯(lián)網(wǎng)傳輸和存儲(chǔ)的時(shí)候,而且在數(shù)據(jù)進(jìn)入處理器的時(shí)候都是加密的。所以解密只發(fā)生在處理器內(nèi)部,這意味著即使數(shù)據(jù)中心里有物理訪問芯片的人,他也只能看到加密的數(shù)據(jù)進(jìn)出芯片,無法獲得數(shù)據(jù)。這是非常高的安全性和私密性。
我們知道機(jī)器學(xué)習(xí)不僅受益于更多的數(shù)據(jù),而且受益于不同的數(shù)據(jù)。有時(shí),你可以將多個(gè)數(shù)據(jù)集放在一起,你得到的不僅僅是部分之和。但問題在于,不同的組織,不同的人,如何把他們的數(shù)據(jù)放在一起,匯集這些數(shù)據(jù)來進(jìn)行機(jī)器學(xué)習(xí),而不是簡(jiǎn)單地讓其他人或其他組織直接訪問這些數(shù)據(jù)。機(jī)密的機(jī)器學(xué)習(xí)提供了這種可能性,數(shù)據(jù)可以整合,但只能在芯片上解密。它在芯片中被用來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,然后這個(gè)機(jī)器學(xué)習(xí)模型或者它的預(yù)測(cè)結(jié)果被提供給數(shù)據(jù)提供者。由于它是在匯集的數(shù)據(jù)上訓(xùn)練的,所以它更有效,更有能力,但在任何階段,任何實(shí)體都不能訪問其他實(shí)體的數(shù)據(jù)。事實(shí)上,微軟在任何階段也都無法訪問這些數(shù)據(jù)。所以我認(rèn)為隱私與機(jī)器學(xué)習(xí)的交叉將是未來幾年一個(gè)非常重要的領(lǐng)域。
Peter Lee:這很有趣。正如你之前所說,確實(shí)改變了很多。這也讓我們回到了我們談話的開始——為什么要把科研和技術(shù)孵化結(jié)合起來。
Christopher Bishop:是的,我認(rèn)為把科研和技術(shù)孵化結(jié)合在一起是非常自然的。由于機(jī)器學(xué)習(xí)的普遍性,這意味著機(jī)器學(xué)習(xí)不僅會(huì)出現(xiàn)在許多不同的地方,而且它正在以我們從未見過的新方式影響著社會(huì)。
Q&A
Q:由于醫(yī)療健康數(shù)據(jù)是敏感且隱私的,因此在維護(hù)隱私與解釋方面如何實(shí)現(xiàn)兩者間的平衡?是否有關(guān)于安全的多方計(jì)算研究來維護(hù)數(shù)據(jù)隱私?
Christopher Bishop:我認(rèn)為在讓數(shù)據(jù)增值和保護(hù)數(shù)據(jù)隱私之間存在著一種博弈。對(duì)于這個(gè)問題并沒有一個(gè)放之四海而皆準(zhǔn)的答案,但我們?cè)谖④浹芯吭鹤龅囊恍┭芯看_實(shí)是旨在找到這個(gè)問題的核心并解決這個(gè)問題。
當(dāng)數(shù)據(jù)處于靜止?fàn)顟B(tài)或從一個(gè)地方傳輸?shù)搅硪粋€(gè)地方時(shí),保護(hù)數(shù)據(jù)是非常容易的,因?yàn)樗羌用艿模獜臄?shù)據(jù)中獲得價(jià)值,就需要對(duì)它進(jìn)行解密。所以這種安全計(jì)算的思想是只在芯片上解密數(shù)據(jù),而真正的目標(biāo)則是:即使有人在數(shù)據(jù)中心里,即使他們有所有的密碼,即使他們有芯片,可以測(cè)量輸入輸出的信號(hào),但他們?nèi)匀粺o法看到數(shù)據(jù),他們只會(huì)看到隨機(jī)噪聲和加密的數(shù)據(jù)。這就是我們的目標(biāo)。
當(dāng)你想把來自不同來源、不同人群、不同提供者的數(shù)據(jù)進(jìn)行聚合并建立相關(guān)模型時(shí),機(jī)器學(xué)習(xí)會(huì)特別強(qiáng)大,因?yàn)檫@些模型通常比僅根據(jù)單一數(shù)據(jù)源訓(xùn)練的模型更好,但仍有需要研究的問題。微軟研究院開發(fā)的技術(shù)現(xiàn)在已經(jīng)部署在了 Azure 上。微軟是世界上第一家將這項(xiàng)技術(shù)應(yīng)用于云計(jì)算的公司。針對(duì)那些仍懸而未決的問題,我們?cè)谶@個(gè)領(lǐng)域還有很多研究要做。
還有一個(gè)同態(tài)加密的問題,也很有趣,我把它看作是一種互補(bǔ)的技術(shù)。它能提供非常非常高的安全性和私密性,但它可能缺乏機(jī)密計(jì)算所提供的通用性和伸縮性。所以我認(rèn)為現(xiàn)在,機(jī)密計(jì)算看起來是一個(gè)非常實(shí)用的技術(shù),而且已經(jīng)應(yīng)用在真實(shí)的場(chǎng)景中,但在這個(gè)領(lǐng)域還有很多工作要做。
Peter Lee:關(guān)于研究,我還想到了另一個(gè)方面,因?yàn)榧词刮覀冋J(rèn)為一個(gè)普遍的同態(tài)加密部署在現(xiàn)在的產(chǎn)品上是沒有必要的,但它也會(huì)極大地影響我們的思考。它讓我們對(duì)整個(gè)問題以及如何處理這個(gè)問題有了不同的思考,所以它給了我們更多的空間去創(chuàng)造。
Q:Peter,能分享一下微軟在人工智能公平性上做的努力嗎?
Peter Lee:當(dāng)然,有很多方面。之前聊天的時(shí)候,在我的閱讀清單上我貼出了一篇論文,是對(duì)偏見的分析,以及 NLP 訓(xùn)練的模型。當(dāng)然,退一步說,我們所有的技術(shù)人員都在尋找工具。在工具方面,我們正在非常密集的研究和開發(fā)像 SHAP 和 LIME 這樣的框架,這讓我們有能力創(chuàng)建模型,分析不同種類的偏見。如果你想問一個(gè)問題,假設(shè)這個(gè)模型對(duì)年齡有偏見,亦或?qū)夏耆恕⒎N族或者性別有歧視,SHAP、LIME 以及類似類型的框架讓你能夠向模型詢問這些問題,進(jìn)行分析,并了解這些問題是不是真的。這實(shí)際上已經(jīng)開始產(chǎn)生影響了。這是一方面,只是一般的政策。但隨后,我們應(yīng)該如何以負(fù)責(zé)任的方式來行動(dòng)、思考、進(jìn)行研究和部署技術(shù),在某種程度上,這確實(shí)讓我們看到了隨著技術(shù)發(fā)展,技術(shù)用最道德的方式產(chǎn)生最積極的社會(huì)影響的可能性。所以我們嘗試專注于這些具體的工具上,研究人員和開發(fā)者可以使用這些工具來思考這些技術(shù)對(duì)我們政策的影響。
編輯:hfy
-
微軟
+關(guān)注
關(guān)注
4文章
6621瀏覽量
104267 -
人工智能
+關(guān)注
關(guān)注
1793文章
47539瀏覽量
239394 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132868
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論