最好看的小说排行,我吃西红柿,灵域

對于流處理引擎來說，處理延遲到達的事件是至關重要的功能。解決這個問題的方法是加水位線的概念。從Spark 2.1開始，結構化流API就支持它。

什么是水位線？

加水位線是一種有用的方法，可幫助流處理引擎處理延遲。基本上，水印是一個閾值，用于指定系統等待延遲事件的時間。如果到達事件位于水位線之內，它將用于更新查詢。否則，如果它早于水位線，它將被丟棄，并且流引擎不會對其進行進一步處理。

> Flooding watermarks

如何使用它？

自Spark 2.1起，水位線被引入到結構化流API中。您可以通過將withWatermark-Operator添加到查詢中來啟用它：

withWatermark（eventTime：String，delayThreshold：String）：數據集[T]

它需要兩個參數，a）一個事件時間列（必須與聚合正在處理的列相同）和b）一個閾值，用于指定應處理多長時間的延遲數據（以事件時間為單位）。然后，Spark將維持聚合狀態，直到max eventTime — delayThreshold> T，其中max eventTime是引擎看到的最新事件時間，T是窗口的開始時間。如果后期數據落入此閾值之內，則查詢將最終得到更新（下圖中的右圖）。否則，它將被丟棄，并且不會觸發任何重新處理（下圖中的左圖）。

Spark結構化流中的加水位線方法

> Late donkey in structured word count: event dropped (left), event within watermark updates Window

值得一提的是，查詢的輸出模式必須設置為"追加"（默認）或"更新"。完全模式不能與設計中的水印結合使用，因為它需要所有要保存的數據，用于將整個結果表輸出到接收器。

可以在這里找到如何在簡單的Spark結構化流應用程序中使用該概念的快速演示-它是字數統計（對NLP進行了一些小的增強），還有其他：D

但是，為什么我要關心？

在分布式和聯網的系統中，總會有中斷的機會-節點故障，傳感器丟失連接等等。因此，不能保證數據將按創建順序到達流處理引擎。為了容錯，因此有必要處理此類亂序數據。

為了解決此問題，必須保留聚合狀態。如果發生延遲事件，則可以重新處理查詢。但這意味著所有聚合的狀態必須無限期地保持，這也導致內存使用量也無限期地增長。除非系統具有無限的資源（即無限的預算），否則在現實世界中這是不切實際的。因此，加水位線是一個有用的概念，可以通過設計約束系統并防止其在運行時爆炸。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

API

API

+關注

關注
2

文章
1502

瀏覽量
62086
SPARK

SPARK

+關注

關注
1

文章
105

瀏覽量
19920

結構化布線在AI數據中心的關鍵作用

AI 正在不斷顛覆各行各業，推動從電影制作到金融行業等各個領域的創新。而在 AI 系統的背后，隱藏著這樣一位無名英雄：結構化布線。

發表于 11-21 16:51 ?340次閱讀

基于分布式對象存儲WDS的信托非結構化數據整合平臺

基于分布式對象存儲WDS的信托非結構化數據整合平臺

發表于 08-28 09:56 ?350次閱讀

基于分布式對象存儲WDS的信托非<b class='flag-5'>結構化</b>數據整合平臺

spark運行的基本流程

前言：由于最近對spark的運行流程非常感興趣，所以閱讀了《Spark大數據處理：技術、應用與性能優化》一書。通過這本書的學習，了解了spark的核心技術、實際應用場景以及性能優化的方法

發表于 07-02 10:31 ?416次閱讀

Spark基于DPU的Native引擎算子卸載方案

1.背景介紹 Apache Spark（以下簡稱Spark）是一個開源的分布式計算框架，由UC Berkeley AMP Lab開發，可用于批處理、交互式查詢（Spark SQL）、實時流

發表于 06-28 17:12 ?691次閱讀

水位傳感器怎么測好壞

水位傳感器是一種檢測水位變化的傳感器，廣泛應用于工業、農業、城市供水等領域。本文將詳細介紹水位傳感器的工作原理、類型、性能指標、安裝方法以及如何檢測

發表于 06-19 10:38 ?1760次閱讀

定期維護結構化布線對于辦公室得重要性

最大限度地減少網絡停機時間，確保最佳性能，并延長基礎設施的使用壽命。忽視維護可能會導致連接問題、數據傳輸速度變慢，甚至整個系統故障。投入時間和資源進行結構化布線維護是一種積極主動的方法，從長遠來看，可以節省

發表于 06-14 10:44 ?246次閱讀

什么是結構化網絡布線？結構化網絡布線有哪些好處？

在電纜領域，結構化網絡布線這個術語經常被提及。人們將其用作流行語，但它的真正含義是什么?結構化布線到底是什么? 為了了解真正的含義，讓我們看它的一些相關定義。根據光纖協會的說法，結構化布線是由

發表于 04-11 11:54 ?531次閱讀

結構化布線的好處多嗎

結構化布線是網絡系統中的重要組成部分，因為它為數據傳輸提供了強大、可擴展且可靠的基礎。通過遵守全球公認的標準，結構化布線可促進高速連接、簡化故障排除并確保未來的可擴展性。考慮到這些優勢，企業應優先

發表于 04-07 11:15 ?448次閱讀

什么是網絡系統中的結構化布線？

。什么是結構化布線? 結構化布線是指旨在支持網絡性能和可靠性的建筑基礎設施。它包含許多標準化的較小元件(結構化)和各種組件，包括電纜、連接器、機架和接線板，所有這些都安裝在預定義的分

發表于 04-07 10:58 ?413次閱讀

Spark基于DPU Snappy壓縮算法的異構加速方案

Spark 在某些工作負載方面表現得更加優越。換句話說，Spark 啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。Spark SQL是Spark的計算模塊

發表于 03-26 17:06 ?821次閱讀

RDMA技術在Apache Spark中的應用

背景介紹在當今數據驅動的時代，Apache?Spark已經成為了處理大規模數據集的首選框架。作為一個開源的分布式計算系統，Spark因其高效的大數據處理能力而在各行各業中廣受歡迎。無論是金融服務

發表于 03-25 18:13 ?1550次閱讀

基于DPU和HADOS-RACE加速Spark 3.x

、Python、Java、Scala、R）等特性在大數據計算領域被廣泛使用。其中，Spark SQL 是 Spark 生態系統中的一個重要組件，它允許用戶以結構化數據的方式進行數據處理

發表于 03-25 18:12 ?1381次閱讀

水位傳感器怎么調水位高低

水位傳感器是一種用于測量液體水位高低的設備，廣泛應用于各種工業、農業和家用領域。調整水位的高低對于確保設備的正常運行和合理利用水資源非常重要。在本篇文章中，我們將詳細介紹

發表于 02-14 16:23 ?3510次閱讀

科通技術推出基于FPGA的應用設計結構化技術

隨著汽車技術的飛速發展，汽車功能的復雜性對處理芯片的算力及IO端口數量提出了更高的要求。作為一家正在進行IPO排隊的公司，深圳市科通技術股份有限公司（以下簡稱：科通技術）積極應對市場挑戰，針對新一代汽車輔助駕駛的需求，研發了一系列基于FPGA的應用設計結構化技術。

發表于 02-02 09:34 ?556次閱讀

從記錄的傳感器數據中獲取駕駛場景

此工作流使用 MATLAB 和 RoadRunner 產品完成，它提供了一種結構化的方法來創建虛擬場景，使安波福的工程師能夠通過仿真嚴格驗證 ADAS/AD 閉環算法。

發表于 01-18 11:05 ?460次閱讀