編者按:隨時隨地使用各種系統和工具,對現代人來說早已是司空見慣的事,但這一切完美工作的技術和服務并不是憑空出現的。正是因為微軟亞洲研究院副院長周禮棟博士和他帶領的團隊這樣從事系統和網絡研究工作的研發人員在幕后不斷的努力和創新,才能保證各種技術無縫、穩定、高效、持續地協同進行。
在本文中,周禮棟博士接受訪談,介紹了在這個系統擁有前所未有的復雜性的時代,如何精進系統與網絡的研究工作,解釋了像CloudBrain這樣的項目針對實時故障排查來解決云規模問題,也探討了網絡相關的“灰色故障”問題,并告訴我們為什么現在是系統和網絡研究的“最好的時代”。本文編譯自微軟研究院播客“The brave new world of cloud-scale systems and networking with Dr. Lidong Zhou”。
主持人:作為微軟亞洲研究院的副院長,您領導著計算機系統和網絡方面的研究,我知道您自己也從事很多研究。先簡單告訴我們您做了些什么,為什么要做這些事情。讓您每天起床的動力是什么?
周禮棟:我認為現在是研究系統和網絡最激動人心的時刻之一。系統和網絡的進步推動了眾多技術的發展,比如互聯網、網絡搜索、大數據、人工智能、云計算等,現在我們每個人都依賴這些服務。反過來,所有的這些技術進展又為系統和網絡帶來了前所未有的復雜性、規模性、動態性。而系統就是在混亂中帶來秩序,把所有那些原本毫無關聯的部分整合成一個統一的整體。
近年來,隨著系統的發展,一些傳統的系統專業知識,比如分布式系統、操作系統或網絡,已經不足以解決我們面臨的挑戰。我們還必須掌握其它領域的知識,比如數據庫系統、編程語言、編譯器、硬件、人工智能、機器學習和深度學習等。在微軟亞洲研究院,我們把一個擁有不同專業知識的團隊聚集起來,一起解決那些最具挑戰性的問題。
主持人:近20年的職業生涯中,您一直致力于推進分布式系統的理論和實踐。請談談這些年來您參與的項目,以及您為分布式系統所做的技術貢獻。剛剛提到了系統的復雜性,您如何看待這些年的演變呢?
周禮棟:我們正進入分布式系統的時代。作為分布式系統研究人員,我們總是相信,我們在做最重要的部分。微軟研究院擁有獨特而優越的聯系理論和應用的研究和實踐環境,讓我們有機會了解產品團隊面臨的的技術挑戰。在幫他們解決難題的同時,我們也有足夠的靈活性,不局限于解決當前具體的問題,而是從更長遠的視角深入思考問題的本質,思考開發什么樣的新理論、新方法來應對這些挑戰。2000年初,當微軟開始做網絡搜索時,我和Roy Levin、Leslie Lamport等當時的同事一起和搜索的開發經理開會,了解他們遇到的分布式系統方面的挑戰,并分享我們研究的分布式系統協議,它能保證分布式系統在各種故障下持續正常運行,并提供可靠的故障搜索服務。剛開始,開發經理認為他們可以自己實現故障處理和容錯。但是幾個月之后,面對眾多復雜的情況,他開始與我們合作,來支持和實現那些協議。
在開發各種協議時,我們傾向于做一些假設,比如可以容忍的故障數量。當我們做研究時,這些假設是可行的。但在實踐中,我們必須考慮假設不成立的極端情況。理論和實踐是有區別的。在微軟研究院工作的好處是,你可以接觸真正的問題,讓你了解哪些假設是合理的,哪些假設不合理,然后思考從更廣泛的意義上解決這些問題的最好方法,而不只是停留在解決某個特定的問題。
主持人:除了技術難題的研究,您也一直致力于推動系統研究人員的社區發展,能否分享一下您推動亞太地區系統研究人員社區發展的經驗?尤其是亞太系統研討會(APSys)的發展及成果。
周禮棟:一直以來,美國都擁有非常強大的系統社區。最近十幾年,我們看到歐洲系統界的成長和壯大,歐洲的系統研討會開始興起,并發展成成功的EuroSys會議。健康的學術社區和學術會議可以極大地促進一個區域內的學術研究,吸引更多研究人員的參與。
2010年,我已經在微軟亞洲研究院工作,我和同事們想為亞太地區的系統社區貢獻一些力量。于是,我們舉辦了第一個亞太系統研討會(APSys)。那是一個非常小的開端,但此后它的發展遠遠超出了我們的預期。今年8月我們將在杭州舉辦第十屆APSys研討會,來自世界各地的研究人員和專家都在為研討會的成功做貢獻,它的影響力已經遠遠超出了某個特定的地區。
主持人:您把這歸功于什么?
周禮棟:首先這是自然趨勢,這些年亞洲出現很多技術進步,研究社區向亞太地區擴展是必然的。另一個原因,是整個社區真正走到了一起。許多頂尖的系統研究人員都來自亞太地區,我們想回饋亞太的愿望非常強烈。
主持人:2017年,在您的爭取下,計算機系統領域頂級會議操作系統原理研討會(SOSP)成功在上海舉辦,據我所知,競標的難度堪比承辦奧運會!
周禮棟:SOSP是計算機系統界最重要的會議之一,最初一直在美國舉行,后來開始在歐洲國家輪流舉辦。2011年開始,我們和上海交通大學的陳海波教授開始為亞太地區爭取SOSP的舉辦機會,并得到了ACM SIGOPS的兩任主席和很多同行的鼎力支持。經過三次努力,SOSP最終在2017年來到上海,吸引了創紀錄的800多名參會專家。這次會議對亞太地區的系統研究的意義重大,我們很高興看到越來越多來自亞太的高質量研究出現在頂級的系統學術會議上。
主持人:讓我們談談教育。微軟亞洲研究院舉辦的中國計算機系統教學研討會今年已經是第四屆。圖靈獎得主John Hopcroft稱贊它是“邁向改善教育和培養世界級人才的一步”,請分享您對這個研討會的看法?
周禮棟:首先,系統教育需要更進一步。對微軟亞洲研究院來說,我們非常自豪能通過研討會將來自世界的系統研究和教育人員聯系在一起,促進歐美和亞太地區的的交流。另外,通過研討會,我們也致力于培養下一代系統科學家和工程師。在這個過程中,我們得到了像Lorenzo Alvisi、Robbert Van Renesse、Geoff Voelker等知名教授和中國系統界一線教授的支持,他們全情投入參與研討會。相信有這些充滿激情的教授,我們將看到中國發展出更強大的新一代系統研究人員。
主持人:您曾經提到,在云計算和人工智能時代,我們設計系統的方式要發生根本性轉變。哪些事情發生了變化?如何構建下一代系統?
周禮棟:過去的30年里,計算機系統界致力于系統可靠性的工作,開發了很多相關技術和網絡協議,以為它們可以解決所有的問題。這套機制源自上世紀70年代末的飛機可靠性機制研究和設計。我們根據這類系統故障做了一些合理的假設,提出了現在仍然適用的網絡協議。
但比起之前的系統,云計算系統要復雜得多,發展也更迅速,過去的很多假設被打破,有時應用了所有的現有方法和理論都無法解決這個僵局。
另一方面,過去的計算系統很容易理解,但現在的復雜性已經超出了我們的理解。但很多新技術能帶來更有趣的改變,例如機器學習和深度學習,我們可以將其應用于處理系統的復雜性,這是一個非常有前景的方向。
主持人:讓我們聊聊云時代的故障。在不那么復雜的“前云時代”,您如何處理異常和故障,現在又在嘗試哪些新方法呢?
周禮棟:過去,我們研究的系統可靠性機制是基于過時的故障假設。但是,隨著某些故障假設不再成立,我們定義了一種新的故障類型,“灰色故障”,一個系統組件不再是“非黑即白”,從某種角度看,它的行為是正確的,但在另外一個角度卻不是。“灰色故障”是許多云計算系統宕機背后的主要原因。
對我們而言,云計算服務故障每時每刻都在發生,但是很難找出哪些故障更加重要。我們要了解故障,并進一步了解整個系統的運行情況。我們在試圖弄清什么時候、何種情況下,災難性的故障會發生,進而阻止它的發生。
CloudBrain是一個云計算自動故障排除的研究,利用系統規模來幫助我們診斷問題,找出問題所在。它有三個組成部分:一是準實時監控和診斷系統目前的狀況,而不是在事后查看和分析系統日志;二是全局視圖,不僅是對系統進行單次觀察,而是融合對系統的所有觀察,理解整個系統如何運行,哪個部分存在問題;三是統計推斷:用統計方法真正推斷出存在問題的部分。這個項目把大規模數據處理的挑戰,轉化成了解決系統復雜性的新手段。
主持人:這個灰色故障的研究進展到了哪個階段?
周禮棟:我們離徹底解決問題還有距離,但是已經可以解決一些特定的問題,如DeepView和CloudBrain兩個項目已經整合到Azure來處理與網絡有關的問題。我們也在探索其它有趣而實用的想法,比如從思維方式上根本改變程序設計的范式。以前的防御性編程設計強調的是完善的異常處理,但在大型復雜的系統中僅僅處理異常是不夠的。因此,在我們最新的研究工作中,我們將異常處理的邏輯改為異常報告和匯總分析。實際上,我們也在構建一個系統,可以自動將傳統的處理錯誤的代碼轉變成以我們期待的方式進行錯誤報告的代碼,這樣開發者不需要重寫整個代碼庫。這為我們解決灰色故障提供了全新的思路和可能。
主持人:您是如何來到微軟研究院的?為我們分享一下您的職業發展。
周禮棟:在我博士畢業的時候,導師給了我一個非常簡單的建議,就是去那些能找到最好的同事的地方,去和那些可能有圖靈獎水準的同事一起工作,所以我最終選擇了微軟研究院,那時,我們并沒有圖靈獎得主,十年后我們有兩個!我覺得同事很重要,特別是在我職業生涯的早期。從某種意義上我學會了如何做研究,不是發多少論文,而是推動研究的內在激情。我職業生涯的第一階段更多是個人發展,第二階段是來到微軟亞洲研究院,成為一個研究組的負責人,這不僅關乎個人發展,也關乎著如何組建團隊,如何幫助他人成功,為他人的成功產生影響也可以帶來極大的成就感。也是在那段時間里,我意識到自己的職責不僅僅是建設亞太地區最好的系統研究團隊,還要為社區做出貢獻。所以我們啟動研討會,并將會議帶入亞太地區,還有人才培養和許多其它事情。在我看來,隨著我們的職業發展,這些變得越來越重要。
這就是我職業生涯的三個階段:始于個人發展、個人學習,愛你所做的,做你所愛的;然后開始不斷為他人的成功做出貢獻,提高影響他人的能力,并積極地影響他人;最后是思考自己能為整個社區、整個社會做些什么。我很幸運在這個過程中能結識很多優秀的領導和同事,并從他們身上學習到很多。
主持人:我想請您對剛剛涉足系統和網絡研究的研究人員提供一些建議,您認為即將出現哪些尚未解決的重大問題?
周禮棟:在這個時代從事計算機系統和網絡的青年研究員是很幸運的。Butler Lampson曾說過他自己非常幸運,因為他經歷了70年代末、80年代初的計算范式變革。而現在,我們也正處在一個變革時期。上一次的計算范式變革中,施樂帕克研究中心的研究人員定義了以后30年的計算機。即使是現在,我們仍然生活在他們定義的世界里:電腦、手機、鼠標、激光打印機、用戶界面。上一次的計算范式變革的原因是計算機變得越來越強大,能把一臺巨型計算機的計算能力裝進一臺個人電腦里。
現在的計算能力達到了另一個里程碑,計算能力將隱形于我們周圍,計算支持的智能將無處不在。計算機的虛擬世界和我們的物理世界之間的界限將會消失,這將帶來新一次的范式變革,我們的首要任務是要探索在接下來的十年二十年里,計算到底意味著什么。我們必須從一個不同的角度來看待未來世界,而不僅僅是關注系統和網絡協議的漸進式改進。未來,我們不會是在電腦前才能進行計算,而是可以利用身邊無所不在的計算能力。這一切都亟待我們年輕的研究人員通過研究和創新來實現。
-
微軟
+關注
關注
4文章
6620瀏覽量
104246 -
網絡
+關注
關注
14文章
7589瀏覽量
89026 -
人工智能
+關注
關注
1793文章
47532瀏覽量
239305
原文標題:周禮棟:現在是計算機系統和網絡研究“最好的時代”
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論