基于Power 8平臺的大數據算法探索與實踐分享
大小:0.13 MB 人氣: 2017-10-13 需要積分:1
標簽:POWER8(6630)
實時大數據處理時代的來臨促使了諸多不可預見的新業務挑戰與威脅的出現,2016年,“數字化轉型相應擴大”成為了企業的首要主題。在此背景之下,除了決定結果準確性的數據以外,決定快慢的算法模型就顯得尤為重要。然而,當前大數據所使用的算法絕大多數都是幾十年前的老算法,而隨著硬件與分布式技術的革新升級,機器學習得到了高速發展,但在算法上卻沒有顯著突破。由此,IBM在聯合CSDN連續舉辦8期Power 8極限挑戰賽后,火熱發起“Linux on Power算法馬拉松挑戰賽”年度總決賽。以大數據算法為主題,提供豐厚的獎金、完全免費的IBM Power虛擬環境、豐富的工具鏈與文檔、強大的后場資源管理團隊,共襄這場程序員盛宴。讓歷經重重篩選殺入決賽的大數據技術和算法高手們盡情揮灑創意,一起切磋算法技術。
經過12小時的組隊較量,最終,由張冠星、王瑞、黃平春組成的團隊奪得總決賽冠軍,IBM大中華區硬件系統部服務器解決方案副總裁施東峰蒞臨現場為其頒發了10000元現金支票。為此,CSDN特地采訪了施東峰與獲獎者,從他們的口中探知大數據算法的發展以及IBM對于大數據算法的深度研究與支持。
基于Power 8平臺的大數據算法探索與實踐針對大數據處理壓力等現實需求,總決賽冠軍團隊在比賽中基于IBM Power 8同步開發了兩套算法,并根據比賽在算法準確性、測試時間等方面的評判標準,提交了其中更具優勢的一套算法。當然,從算法到提交程序運行等整個開發過程中,他們的團隊也遇到了許多問題,并在數據專家的幫助下得以解決,比如由于訓練集主題相對集中,用LDA或PLSA效果并不理想,反而使用傳統的TextRank、TF-IDF較好;對于語料的處理,更關注樣本集特點,預處理中主要是去除HTML標簽、標點符號、代碼塊等。
IBM在現場提供的專業支持也幫助他們快速熟悉Power 8的環境和編譯工具,同時還有gcc-ppc64編譯套件、jdk8-ibm、pypy等工具。張冠星表示,Power平臺擁有著強大的內存帶寬和超線程處理能力,并且配套了相關的優化工具,使開發更加容易。“以前主要是在x86平臺下開發,沒有遇到過交叉編譯、性能調優等場景,而借助這個機會,在Power 8平臺上針對自己的程序有目的地調優,并達到效果,收獲很大。”
開放的Linux 開放的Power在大賽過程中,IBM專門安排了技術專家為所有參賽選手做技術輔導,施東峰表示,舉辦此次大賽的初衷在于希望能夠為開發者們建立一個良好的溝通平臺,幫助開發者拓展編程思路,同時也提升他們對基于Linux平臺進行大數據分析的能力。采訪過程中,施東峰詳談了IBM對于支持Linux以及開源社區所做的種種努力。“IBM的發展離不開Linux,而IBM對于Linux的投入與支持也是最直接的,這種投入既包括公司對開發人員的培養,又包含在產品上的支持,所有服務器平臺都支持Linux。同時,IBM在開源社區也做了很大的投入,包括大數據方面的智能運算解決方案、Hadoop、Spark等。”
IBM大中華區硬件系統部服務器解決方案副總裁 施東峰
那么,在云計算和開源軟件風靡的今天,用戶應如何選擇IT架構?施東峰談到,在一個私有云或數據中心中,由于機器數量的增加,硬件設備的損壞是不可避免的,這些能耗將會成為用戶一個很大的開支,基于x86通用服務器進行集群和橫向擴展等的IT云架構存在很多問題需要用戶去面對。在這方面,IBM通過自己的技術來解決用戶需求,以基于Power 8技術的產品讓效能得到大幅提升,而針對用戶的特定應用,IBM會提供特制的大內存機器,更好地支持Hadoop和Spark應用的運行。
施東峰講道:“IBM對所有開源的軟件都抱以開放的態度,并針對大數據做了一些硬件配置,讓新的服務器產品在大數據應用性能方面得到了極大提升。而IBM也以OpenPower開放計劃聯盟的方式,與硬件、軟件、處理器、數據庫等廠商進行合作。隨著OpenPower的持續深入,越來越多的國內公司參與進來,發展迅猛的Linux也將透過IBM迎來大的機遇!”
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%