在阿里巴巴2019云棲大會第二天的飛天智能主論壇上,阿里巴巴副總裁賈揚清宣布,運行在英特爾至強可擴展處理器上的阿里云大數據計算服務MaxCompute,在大數據性能基準測試TPCx-BB(TPCx-BigBench)中以100TB的規模創造世界紀錄,并在30TB規模下性能比第二名高一倍、便宜一半。
TPCx-BB是目前業界最全面的端到端大數據標準測試集,阿里云成為首家公布TPCx-BB成績的云服務提供商,MaxCompute達到的100TB是目前為止的最大數據集。
會后,英特爾高級首席工程師、大數據分析和人工智能創新院院長戴金權,阿里云計算平臺高級總監關濤接受智東西等少數媒體的采訪,就英特爾與阿里云在大數據上的合作、雙方在AI和云計算上的合作、選擇TPCx-BB測試的原因、阿里云大數據平臺的特性、升級大數據平臺可能遇到的挑戰等問題一一予以解答。
“我們是第一家非Hadoop體系的大數據系統接入到這個測試,我們也是第一家以公共云的形式接入這個測試的。”關濤表示,“之前的測試基本上都是用戶買一些服務器,然后在服務器上來做,最多是一個之前那種數據中心的形式。我們這次推動是以云推動服務的形式在上面做的測試。”
▲阿里云計算平臺高級總監關濤(左),英特爾高級首席工程師、大數據分析和人工智能創新院院長戴金權(右)
一、阿里大數據服務打破兩項世界紀錄
大數據性能基準測試TPCx-BB由國際標準組織TPC(Transaction Processing Performance Council)制定,通過最常用大數據應用場景,來全面衡量系統軟硬件性能,是業界選擇最佳軟硬件平臺的重要參考標準。
阿里云MaxCompute是一項大數據計算服務,能面向大數據開發者,提供快速、完全托管的PB級數據倉庫解決方案,從而經濟、高效地分析和處理海量數據,并支持SQL、MapReduce、Graph等多種計算模型。
這一新的世界紀錄源自英特爾和阿里云多年的合作。
英特爾作為測試基準中BigBench的重要貢獻者,與阿里云開發團隊深入合作,在軟硬結合層面做優化,共同擴展TPCx-BB測試集,增加對MaxCompute計算引擎的支持,并一起在TPCx-BB委員會中共同推廣MaxCompute,促成TPCx-BB官方測試集升級,繼而正式納入阿里云MaxCompute計算引擎的支持。
此外,阿里云的EMR(Elastic MapReduce)大數據服務在另一項測試TPC-DS中也創造紀錄。
作為云服務提供商,相較于之前OEM公布的結果,阿里云大數據服務的成績不僅衡量了軟硬件的資本性投入,還包含了對運營成本的考量。
英特爾均以軟硬件全方位支持阿里云MaxCompute,為其提供在大數據引擎的標準適配、支持云計算模型、性能優化及最大化內存利用率等方面,大大提升大數據分析的性能和可擴展性,從而增強云上的大數據挖掘和商業智能分析的能力。
它在TPCx-BB中可以達到25641BBQpm(每分鐘處理的請求量),最高性價比可達USD224.49/BBQpm。
由兩項紀錄可見,在英特爾先進技術支持下,阿里云在云上大數據服務的規模和性價比方面都占據了業界領先的地位。
二、英特爾:硬件提升+軟硬協同優化
英特爾與阿里云MaxCompute在Benchmark方面合作了約3年,希望通過軟硬件協作,在改進硬件的同時也優化軟件,從而使關鍵的計算性能有更大的提升。
從硬件角度來說,主要是硬件本身性能的提升,阿里云MaxCompute跑在基于英特爾至強可擴展處理器的服務器上。
從軟件角度來說,雙方合作做了很多軟硬結合的相關優化。第一,用大量英特爾工具去分析性能,找到性能的瓶頸;第二,針對其中很多核心的算法或算子,雙方工程師合作去提高各種性能。
比如說英特爾新的硬件比如說AVX-512以前是256位,現在是512位,那么這個新技術就會被應用。再加上在純軟件層面的優化,疊加到一起使得系統性能翻一倍。
另外,雙方也在探索如何將包括大數據和AI計算框架在內的整個計算流水線上,能在補充能力上有更好的合作。
關濤說,這些優化大多數不會是一項優化提升30%、40%,更多可以理解是幾十到幾百個小點上的優化在一起,是一個逐步的過程。
英特爾的人會定期從上海到杭州來,除此之外,阿里與英特爾在上海有聯合的實驗室,雙方中間還打通了很多合作層面的環節,讓兩個公司真正無縫的合作,因為阿里云是國內最大的云廠商,英特爾從芯片層面是最大的公司,雙方有非常好的合作意愿,聯合實驗室、聯合項目組等工作都在進行。
三、英特爾和阿里云在AI和云計算的合作
除了TPCx-BB合作外,英特爾與阿里云在機器學習、深度學習等AI方面也有很多合作,包括英特爾的BigDL也可以跑在MaxCompute平臺上,為阿里內部提供服務。
戴金權舉了個例子,今年7月,英特爾和阿里共同開啟了大數據處理分析競賽天池大賽,其中英特爾就將Flink、Analytics Zoo以及其非易失內存等產品提供給大賽。
作為戰略合作伙伴,英特爾與阿里云還有著從云到端的合作。雙方在云計算方面還共同發布了“阿拉丁神燈計劃”,共建“開發者云”平臺。這一平臺將全面覆蓋從入門級云客戶到頂級ISV開發者社區,為開發者提供零門檻云體驗。
英特爾不僅提供第二代英特爾至強可擴展處理器、英特爾傲騰數據中心級持久內存、英特爾深度學習加速技術等先進軟硬件,以建設“開發者云”平臺,幫助開發者持續進行創新,還將提供工程資源和推廣方面的支持,促進阿里云平臺的生態系統發展,并推動阿里云上的PaaS和IaaS應用。
此外,英特爾與阿里云在物聯網、邊緣計算等方面也將繼續深入合作,為各行各業數字化轉型注入更強動力。
四、阿里為什么選擇TPCx-BB測試?
阿里云計算平臺高級總監關濤回憶了選擇TPCx-BB測試的原因。
2015年阿里最初開始測試時,做的是非常簡單的Softmark測試,是在大規模上純做排序。后來他們發現,如果只做排序,無法代表越來越豐富的用戶作業場景,所以最后他們選擇了BigBench。
BigBench是一個相對權威的Benchmarking組織,同時包含大數據和機器學習的工作負載。它既包含了結構化的24小時數據,也包含了非結構化的數據組成。它的測試結果更加豐富,有30種不同的維度基準聯合來測評。
阿里通過這個測試來評判其系統優化程度,這需要一個穩定的測試集合。據關濤介紹,其成績基本上每年約翻一倍,2018年的成績比2017年的成績快一倍還多一點,2019年的成績比2018年一倍稍差一點,但這幾個成績都是現今在世界上非常領先的成績。
目前,阿里巴巴和英特爾新發布的成績是兩個:(1)全球唯一一家通過100TB測試的系統;(2)由于通過100TB的僅阿里一家,很難跟其他系統做對比,所以他們把這個維度稍微降低,和第二名系統在30TB上做對比,性能快一倍的同時,成本還可以大約降低一半。
這意味著,如果用阿里的系統,以前需要1000臺機器完成的工作,MaxCompute僅用一半就能完成。
阿里集團內部有接近10萬臺服務器的規模,同時保持著非常高的增速,從這個角度上,性能對他們來說是非常重要的。關濤說,“這也是為什么我們一直通過以Benchmark作為抓手,來鍛煉我們的平臺去做更多的優化。”
五、阿里云MaxCompute的兩個唯一性
關濤說,阿里巴巴是國內唯一一家,也是英特爾的客戶里唯一一家具備全棧自研大平臺的公司。
他告訴智東西,目前阿里巴巴公共云付費口的量級達到5000-10000,阿里將國內行業性的專有云大概分成17個維度,其中有16個均已覆蓋,浙江省的“最多跑一次”項目、浙江省稅務系統、新浪微博、國內最大在線互聯網保險公司眾安保險等都跑在阿里云上。
阿里巴巴從2009年就開始做飛天系統,飛天系統當時分為三大塊,分別是分布式存儲“盤古”、資源調度“伏羲”、分布式計算MaxCompute。
約從2015年起,阿里云開始通過各種Benchmark,一方面以此為抓手優化其系統,另外一方面用以來體現其性能和性價比。
在阿里巴巴內部,MaxCompute存儲了阿里巴巴99%的數據,承接95%以上的計算需求,可以理解成阿里巴巴經濟體的大數據內存,大家能想到的所有阿里數據都從這個平臺走,比如淘寶、拍立淘、支付寶、支付信用分等應用,以及城市大腦、市政、石油、石化等面向各行業的底層性服務。
同樣也是從2015年開始,阿里在云上提供對外云服務,這也是目前阿里云排名前十的旗艦產品之一。
關濤表示,MaxCompute的功能和能力和Hadoop是同樣場景,但是其實現并非基于Hadoop,而是按照從存儲到計算都完全自研的系統。它有兩個唯一性:
其一,MaxCompute所做的是一個非Hadoop的系統測試;
其二,該系統在10年前開始做時,即按照云原生的角度設計,是第一個以云平臺的方式做這個測試的,而此前接入此測試的基本屬于Hadoop體系的原版或改進版,以線下自己買服務器這種方式來做。
這對計價系統、計費系統、整個BigBench的體系都有改變。他舉例道,之前的計費計價模式是,如果購買線下服務器可能要3年,而測試只用3天,但在云上的話,因為云端本來就是開箱即用,不用時也不收費,無需做采購硬件和應用規劃,時間上只用算3天即可。
阿里云與英特爾認為,云是未來發展的方向,大家會慢慢自建機房的方式轉向云。
六、升級大數據平臺所面臨的挑戰
在采訪期間,關濤從多個維度分享了升級大數據平臺可能會面臨的挑戰。
從最底層看,雖然大數據平臺是分布式系統,但最基本的單元實際上是每個機器上運行的算子。這個算子運行在下層硬件的操作系統之上的,是最基礎的優化,需考慮怎么樣讓底層設計更快、怎樣支持下層硬件。再往上是多機之間的網絡通訊問題,再往上是分布式系統的另外一點,叫水平拓展。
另外一個挑戰是,如何能在10萬臺規模上做到對應的水平。舉例而言,以前是5萬臺,增加到10萬臺后,性能能否按照服務器數量的增長水平翻一番。
如果分布式系統只有幾十臺、幾百臺服務器可能比較容易,但到萬臺規模還是比較難的,特別是當達到10萬臺規模時,這些機器甚至都不在一個數據中心里面。
比如10萬臺機器分散在杭州、內蒙、河北,要使得在用戶看來這10萬臺機器是一體的,而實際上它又是分布式的,其調度系統、智能調度數據和作業使它們在10萬臺機器上能暢通地瀏覽,這里面包含負載均衡、調度策略的平衡,還要考慮偶爾某些機器壞掉的情況。
另外,TPCx-BB測試不僅看速度,還要看成本,這也是大數據平臺的客戶所在意的兩個指標。而僅僅是機器數量的增多,會導致成本上升,如何實現兩者的平衡同樣是一個考驗。
七、阿里大數據平臺的三個特點
關于阿里大數據平臺的特點,關濤談到評測、具體能力和系統特點等三個角度。
從評測層面來說,阿里應該是國內做所有大數據評測中評價最高的一家公司。
從具體能力來說,阿里較早開始做云計算、大數據,當初最早發現很多開源的技術很難達到阿里內部和他們所認為的云成本控制要求,因此選擇了更艱難的自研之路,需要更多的資源投入、自己建標準。“但是我們花時間堅持下來了。”關濤說。
從系統特點來說,其系統有如下幾個方面。
第一方面,阿里非常關注性能和成本,包括底層實現,比如阿里更多在大數據平臺下層用C++代碼,而大部分大數據平臺都是用Java來做的。我們C++可以更容易發揮優勢,同時在優化層面也可以更容易。
第二方面,阿里也是一家大數據的公司,有非常多的數據,其大數據系統經過阿里巴巴業務的充分錘煉和實踐。它既包括螞蟻金服這種金融級大數據的要求,也包括雙十一極致峰值沖擊的要求。
第三方面,其研發團隊背后靠的是阿里研究體系“達摩院”,MaxCompute也是“達摩院”加持的大數據平臺。
在偏硬件層面,阿里云和包括英特爾在內的企業合作,這種合作也會給他們帶來非常好的性能提升。
結語:大數據是AI的數據支撐底座
在當日上午的主論壇中,阿里巴巴副總裁賈揚清提到一個概念:“AI算法孕育于數據的土壤。”他說,由于深度學習的發展,人們發現更多數據往往帶來更好性能;真正落地的實際應用背后都有大量數據在支撐;數據有非常大的多樣性和復雜性,需要一套成熟的方法論做數據清洗、建模。
會后采訪期間,關濤也表達了相似的看法,他表示大數據是AI的數據支撐底座,在阿里,大數據平臺和AI平臺是一個“雙生系統”。比如,AI平臺的數據是從大數據平臺上來的,在前一部分數據的處理也是由大數據平臺來做,完成后會推到AI平臺上做機器學習和深度學習的處理,數據也可能再回流大數據平臺做其他的工作。
同樣,戴金權認為大數據和AI在真正的現實應用中應緊密聯合在一起。如何把AI模型應用和大數據處理分析的一整套流水線打通、將不同的組件更好的結合,是英特爾、阿里云都在做的事情。
他對國內大數據技術的實力非常認可,認為國內外大數據技術都在同一個起跑線,都能做到非常好的水準。全世界的工程師都在合作,某種意義上,國內的數據更大、應用場景更多。
-
英特爾
+關注
關注
61文章
9995瀏覽量
172030 -
阿里巴巴
+關注
關注
7文章
1617瀏覽量
47345 -
大數據
+關注
關注
64文章
8899瀏覽量
137580
發布評論請先 登錄
相關推薦
評論