11月5日,在2022云棲大會一體化大數據智能峰會上,由開放原子開源基金會、X-lab開放實驗室和阿里巴巴開源委員會聯合出品的《2022年開源大數據熱力報告》重磅發布。 開放原子開源基金會副秘書長劉京娟女士對報告進行了深度解讀。報告基于公開數據研究最活躍的102個開源大數據項目,探尋出開源大數據技術發展背后的“摩爾定律”:每隔40個月,開源項目熱力值就會翻一倍,技術完成一輪更新迭代。在過去8年里,發生了5次較大規模的技術熱力躍遷,多元化、一體化、云原生成為當前開源大數據發展趨勢的最顯著特征。
定量分析“后Hadoop時代”開源趨勢
Hadoop 作為開源大數據技術的起源,興起于2006年,至今已有16年歷史。我們收集了從Hadoop 發展第10年(即2015年)至今的相關公開數據,并進行了關聯分析,定義了開源項目熱力值研究模型,使用量化指標,來刻畫開源項目的開發迭代活躍度和受開發者歡迎程度。 報告所呈現的開源大數據熱力圖,從技術全景、技術棧分類以及項目維度對入圍項目的熱力表現進行洞察,將項目進程中的關鍵事件與熱力表現關聯分析,并訪談了開源基金會、知名開源項目等領域專家,嘗試找到項目健康發展一般規律,并對有效提升項目影響力的方法論進行了歸納總結。
開源大數據技術的“摩爾定律”即將打破
報告發現,每隔40個月,熱力值會提升1倍,開源大數據完成一輪技術迭代升級,而且技術周期在加速縮短。在8年時間內,發生了多輪熱力變遷,反映出背后技術的更新換代趨勢。開發者對「數據查詢與分析」保持了長期的開發熱情,這一技術棧連續8年位于熱力值榜首。2017年,「流處理」熱力值超過「批處理」,大數據處理進入實時階段。隨著數據規模越來越大,數據結構更多樣化,「數據集成」從2020年開始爆發式增長。
三大熱力趨勢:多元化、一體化和云原生
用戶需求多樣化推動技術多元化。「數據湖」以34%的熱力值年均復合增長率高居熱力值增速第一位,「交互式分析」、「DataOps」緊隨其后,分列第二、三位。而原有Hadoop體系的產品迭代則趨于穩定,熱力值年均復合增長率為1%。 從2015年開始,計算部分率先進入「一體化」演進歷程,其中的典型代表「流批一體」在2019年出現第一個熱力峰值。以數據湖存儲為代表的存儲一體化從2019年起進入了一個新的發展階段,涌現了Delta Lake、 Iceberg和Hudi等熱點項目。 云原生大規模重構開源技術棧。誕生于云原生時代的開源項目如雨后春筍般破土成長。「數據集成」、「數據存儲」、「數據開發與管理」等領域都發生了非常大的項目更迭,新項目熱力值占比已經超過了80%。
開源大數據熱力榜單TOP30
本報告從102個入圍項目中,評選出了TOP30熱力榜單。Kibana以989.40的熱力值高居榜首。ClickHouse(數據查詢與分析)、Airflow(數據調度與編排)、Flink(流處理)、Airbyte(數據集成)分別摘得各自細分領域的TOP1。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel等一眾中國開源項目也表現出高熱力趨勢。把解決用戶痛點作為核心競爭力,是這些優秀開源項目的共同特征,這一特征保證它們與時俱進,成為熱力趨勢中的“常青樹”。
感謝開源中國、InfoQ和阿里云開發者社區的戰略支持,感謝對本報告內容產出做出重要貢獻的32位專家和貢獻者。感謝CSDN、DataFun、Segmentfault思否、開源社等社區合作。
-
開源
+關注
關注
3文章
3349瀏覽量
42500 -
Hadoop
+關注
關注
1文章
90瀏覽量
15984 -
大數據
+關注
關注
64文章
8889瀏覽量
137442 -
云棲大會
+關注
關注
0文章
33瀏覽量
8661 -
云原生
+關注
關注
0文章
249瀏覽量
7950
原文標題:開源“摩爾定律”即將打破,《2022開源大數據熱力報告》重磅發布
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論