資料介紹
軟件簡介
Taier是袋鼠云數棧大數據家族的開源項目之一 ,它是一個分布式可視化的DAG任務調度系統,旨在降低ETL開發成本、提高大數據平臺穩定性,讓大數據開發人員可以在Taier直接進行業務邏輯的開發,而不用關心任務錯綜復雜的依賴關系與底層的大數據平臺的架構實現,將工作的重心更多地聚焦在業務之中。
一、架構設計和功能詳解
在架構設計與功能特點上,Taier整體架構是使用插件式的開發模式,在任務開發下面有調度模塊和各項組件,也包括數棧開源家族的Chunjun等等。
(一)Taier功能特點
Taier的功能特點有下面幾個比較重要的方面:
1.任務類型:Spark SQL、數據同步(流計算任務);
2.控制臺:包括隊列管理、資源管理、多集群管理等;
3.運維中心:比如任務管理、周期調度、補數據等;
4.插件化開發:具體包括 taier-plugin、、DatasourceX、Chunjun等幾個插件。
(二)Taier功能特征
隨著不斷更新完善,現在的Taier已經具有以下的幾種特性:
1、拓展性
-
單點故障:去中心化的分布式模式
-
高可用方式:Zookeeper
-
過載處理∶分布式節點+兩級存儲策略+隊列機制。每個節點都可以處理任務調度與提交;任務多時會優先緩存在內存隊列,超出可配置的隊列最大數量值后會全部落數據庫;任務處理以隊列方式消費,隊列異步從數據庫獲取可執行實例
-
實戰檢驗:得到數百家企業客戶生產環境實戰檢驗
2、易用性
-
支持大數據作業Spark、Flink的調度;
-
支持眾多的任務類型,目前支持Spark SQL、Chunjun
-
可視化工作流配置︰支持封裝工作流、支持單任務運行,不必封裝工作流、支持拖拽模式繪制;
-
DAG監控界面:運維中心、支持集群資源查看,了解當前集群資源的剩余情況、支持對調度隊列中的任務批量停止、任務狀態、任務類型、重試次數、任務運行機器、可視化變量等關鍵信息一目了然;
-
調度時間配置:可視化配置;
-
多集群連接:支持一套調度系統連接多套Hadoop集群。
3、多版本引擎
-
支持Spark 、Flink等引擎的多個版本共存,例如可同時支持Flink1.10、Flink1.12(后續開源)
-
Kerberos支持Spark、Flink
-
豐富,支持3種時間基準,且可以靈活設置輸出格式。
4、拓展性
-
設計之處就考慮分布式模式,目前支持整體Taier 水平擴容方式;調度能力也隨集群線性增長。
?
二、Taier重要概念
下面從原理和操作層面給大家進一步介紹Taier,還有一些具體概念的解釋。
(一)任務與實例
方便起見,數棧在Taier中提出“任務”和“實例”兩個概念,例如數據開發的數據同步這項工作稱之為“任務”,而已經提交并且配置了周期屬性的任就稱之為“實例”。
(二)實例具體操作
在Taier中,實例有這幾種構建的方式:
1.基于Zookeeper選舉Master節點參與Job 實例構建,T+1構建JobGraph
2. JobGraph構建前check &clean DirtyData
3.依據Task、TaskTask的數據(JobGraph)生成Job .JobJob實例數據
4.Master節點控制實例數據的負載均衡持久化入數據庫
構建完畢后,實例處理的幾種方式如下圖所示:
其中:
1.三種任務類型:周期任務、補數據任務、重跑任務,統一調度方式
2. Job 優先入隊列(1),隊列容量不足入DB (2)
3.當隊列容量空余時,異步線程從DB加載數據入隊列(3)
4. Job出隊列后進行任務提交
?
處理完成后,實例提交我們也做了思考,具體設計:
1.內存優先級隊列,控制Job有序執行
2.多線程并發提交(可配置)
3. Job 執行超時判斷(可配置)
4. Job資源不足/失敗重試進入延遲隊列(可配置)﹔避免長時間占用提交權
?
Taier 的實例狀態大家主要應該關注標志停止的幾個,具體有下面幾種:
1.?WaitEngine:內存隊列中的Job、內存容量不足存儲在DB中的Job(默認500 )
2.?Lacking:資源不足暫時等待的Job(默認2min)
3. Restarting:失敗重試的Job(默認2min )
4. Finshed、Failed、Canceled、Killed:結束狀態
Taier的整個控制臺設計分為公共組件、調度組件、存儲組件和計劃組件。通過一個租戶ID,拿到這個集群下common, YARN-conf等的四個配置信息,組成包含一個任務插件所有信息的pluginlnfo。將它解析之后,一些資源初始化上傳,以便我們緩存對應的客戶端。?
Taier Client Plugin這里,要快速開發一個插件要注意以下幾點:
-
一種任務類型對應一個插件,即一個jar包
-
SPI: 在classpath 下的META-INF/services/目錄下,創建以接口IClient 全限定名命名的文件,內容是上一步中實現類的全限定名
?
?
?
- 基于Simulink的電子對抗分布式仿真系統 26次下載
- 異構環境下的多DAG任務調度算法綜述 13次下載
- 面向聯邦學習的分布式與隱私安全性綜述 3次下載
- 一種分布式網絡掃描架構和任務調度算法 19次下載
- 如何通過YARN設計分布式資源動態調度協同分配系統 12次下載
- 如何設計液壓式雙足機器人運動數據可視化系統 6次下載
- 分布式智能電網控制系統的設計與實現 2次下載
- 電力系統分布式經濟調度 10次下載
- SCADA過程可視化系統用戶手冊 2次下載
- 分布式系統進程調度方法研究
- 基于GIS的配電網調度可視化研究 16次下載
- 三層分布式計算網格任務調度系統 25次下載
- 基于Multi-Agent的分布式測控系統任務調度算法
- 基于實數編碼免疫算法的分布式任務調度
- 基于擴展的隨機DAG的EST估算與任務調度
- 分布式SCADA系統的特點的組成 324次閱讀
- 任務調度系統設計的核心邏輯 602次閱讀
- 訊維分布式可視化控制系統的功能特點 392次閱讀
- Java手寫分布式鎖的實現 424次閱讀
- tldb提供分布式鎖使用方法 761次閱讀
- 訊維分布式智慧指揮系統有哪些“黑科技”? 517次閱讀
- 如何使用分布式存儲系統促進AI模型訓練 494次閱讀
- 利用NI VeriStand 2010實現分布式同步系統的設計 3154次閱讀
- 詳談分布式系統的定義及屬性 3689次閱讀
- 關于騰訊的開源分布式存儲系統DCache 1970次閱讀
- 分布式可視化管理系統的關鍵技術到底有哪些呢?詳細資料分析 7028次閱讀
- 存儲分布式系統中如何從CAP轉到PACELC 2692次閱讀
- AS:可視化的調試工具--FreeRTOS+Trace 6619次閱讀
- 深度解讀分布式存儲技術之分布式剪枝系統 1773次閱讀
- 基于CAN總線的分布式網架健康狀態監測系統的設計 963次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數據手冊
- 1.06 MB | 532次下載 | 免費
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費
- 5元宇宙深度解析—未來的未來-風口還是泡沫
- 6.40 MB | 227次下載 | 免費
- 6迪文DGUS開發指南
- 31.67 MB | 194次下載 | 免費
- 7元宇宙底層硬件系列報告
- 13.42 MB | 182次下載 | 免費
- 8FP5207XR-G1中文應用手冊
- 1.09 MB | 178次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關電源設計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數字電路基礎pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅動電路設計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191187次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多