我吃西红柿,绝色狂妃仙魅小说,盗墓笔记小说txt下载

關于 sql 語句的執行順序網上有很多資料，但是大多都沒進行驗證，并且很多都有點小錯誤，尤其是對于 select 和 group by 執行的先后順序，有說 select 先執行，有說 group by 先執行，到底它倆誰先執行呢？

今天我們通過 explain 來驗證下 sql 的執行順序。

在驗證之前，先說結論，Hive 中 sql 語句的執行順序如下：

from 。. where 。. join 。. on 。. select 。. group by 。. select 。. having 。. distinct 。. order by 。. limit 。. union/union all

可以看到 group by 是在兩個 select 之間，我們知道 Hive 是默認開啟 map 端的 group by 分組的，所以在 map 端是 select 先執行，在 reduce 端是 group by先執行。

下面我們通過一個 sql 語句分析下：

select

sum（b.order_amount） sum_amount，

count（a.userkey） count_user

from user_info a

left join user_order b

on a.idno=b.idno

where a.idno 》 ‘112233’group by a.idno

having count_user》1limit 10;

上面這條 sql 語句是可以成功執行的，我們看下它在 MR 中的執行順序：

Map 階段：

執行 from，進行表的查找與加載；

執行 where，注意：sql 語句中 left join 寫在 where 之前的，但是實際執行先執行 where 操作，因為 Hive 會對語句進行優化，如果符合謂詞下推規則，將進行謂詞下推；

執行 left join 操作，按照 key 進行表的關聯；

執行輸出列的操作，注意： select 后面只有兩個字段（order_amount，userkey），此時 Hive 是否只輸出這兩個字段呢，當然不是，因為 group by 的是 idno，如果只輸出 select 的兩個字段，后面 group by 將沒有辦法對 idno 進行分組，所以此時輸出的字段有三個：idno，order_amount，userkey;

執行 map 端的 group by，此時的分組方式采用的是哈希分組，按照 idno 分組，進行order_amount 的 sum 操作和 userkey 的 count 操作，最后按照 idno 進行排序（group by 默認會附帶排序操作）；

Reduce 階段：

執行 reduce 端的 group by，此時的分組方式采用的是合并分組，對 map 端發來的數據按照 idno 進行分組合并，同時進行聚合操作 sum（order_amount）和 count（userkey）；

執行 select，此時輸出的就只有 select 的兩個字段：sum（order_amount） as sum_amount，count（userkey） as count_user;

執行 having，此時才開始執行 group by 后的 having 操作，對 count_user 進行過濾，注意：因為上一步輸出的只有 select 的兩個字段了，所以 having 的過濾字段只能是這兩個字段；

執行 limit，限制輸出的行數為 10。

上面這個執行順序到底對不對呢，我們可以通過 explain 執行計劃來看下，內容過多，我們分階段來看。

首先看下 sql 語句的執行依賴：

我們看到 Stage-5 是根，也就是最先執行 Stage-5，Stage-2 依賴 Stage-5，Stage-0 依賴 Stage-2。

首先執行 Stage-5：

圖中標 ① 處是表掃描操作，注意先掃描的 b 表，也就是 left join 后面的表，然后進行過濾操作（圖中標 ② 處），我們 sql 語句中是對 a 表進行的過濾，但是 Hive 也會自動對 b 表進行相同的過濾操作，這樣可以減少關聯的數據量。

接下來執行 Stage-2：

首先是 Map 端操作：

先掃描 a 表（圖中標 ① 處）；接下來進行過濾操作 idno 》 ‘112233’（圖中標 ② 處）；然后進行 left join，關聯的 key 是 idno（圖中標 ③ 處）；執行完關聯操作之后會進行輸出操作，輸出的是三個字段，包括 select 的兩個字段加 group by 的一個字段（圖中標 ④ 處）；然后進行 group by 操作，分組方式是 hash（圖中標 ⑤ 處）；然后進行排序操作，按照 idno 進行正向排序（圖中標 ⑥ 處）。

然后是 Reduce 端操作：

首先進行 group by 操作，注意此時的分組方式是 mergepartial 合并分組（圖中標 ① 處）；然后進行 select 操作，此時輸出的字段只有兩個了，輸出的行數是 30304 行（圖中標 ② 處）；接下來執行 having 的過濾操作，過濾出 count_user》1 的字段，輸出的行數是 10101 行（圖中標 ③ 處）；然后進行 limit 限制輸出的行數（圖中標 ④ 處）；圖中標 ⑤ 處表示是否對文件壓縮，false 不壓縮。

執行計劃中的數據量只是預測的數據量，不是真實運行的，所以數據可能不準！

最后是 Stage-0 階段：

限制最終輸出的行數為 10 行。

總結

通過上面對 SQL 執行計劃的分析，總結以下幾點：

每個 stage 都是一個獨立的 MR，復雜的 hive sql 語句可以產生多個 stage，可以通過執行計劃的描述，看看具體步驟是什么。

對于 group by 的 key，必須是表中的字段，對于 having 的 key，必須是 select 的字段。

order by 是在 select 后執行的，所以 order by 的 key 必須是 select 的字段。

select 最好指明字段，select * 會增加很多不必要的消耗（CPU、IO、內存、網絡帶寬）。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

SQL

SQL

+關注

關注
1

文章
767

瀏覽量
44173
數據庫

數據庫

+關注

關注
7

文章
3821

瀏覽量
64506

原文標題：Hive SQL 語句的正確執行順序

文章出處：【微信號：LinuxHub，微信公眾號：Linux愛好者】歡迎添加關注！文章轉載請注明出處。

通過Skyvia Connect SQL終端節點訪問任何數據

通過 Skyvia Connect SQL 終端節點訪問任何數據 ? 通過 Skyvia Connect SQL 終端節點訪問任何數據ADO.NET 數據網關使用 Skyvia Co

發表于 01-02 09:31 ?73次閱讀

<b class='flag-5'>通過</b>Skyvia Connect <b class='flag-5'>SQL</b>終端節點訪問任何數據

淺談SQL優化小技巧

存儲在緩存中的數據；（3）未命中緩存后，MySQL通過關鍵字將SQL語句進行解析，并生成一顆對應的解析樹，MySQL解析器將使用MySQL語法進行驗證和解析。例如，驗證是否使用了錯

發表于 12-25 09:59 ?492次閱讀

常用SQL函數及其用法

的 SQL 函數及其用法：一、聚合函數（Aggregate Functions）聚合函數對一組值執行計算，并返回單個值。 COUNT() 用途：返回匹配指定條件的行數。示例： SELECT

發表于 11-19 10:18 ?327次閱讀

SQL與NoSQL的區別

景。 SQL數據庫 SQL數據庫，也稱為關系型數據庫管理系統（RDBMS），是一種基于關系模型的數據庫。它使用表格、行和列來組織數據，并通過SQL

發表于 11-19 10:15 ?184次閱讀

大數據從業者必知必會的Hive SQL調優技巧

不盡人意。本文針對Hive SQL的性能優化進行深入研究，提出了一系列可行的調優方案，并給出了相應的優化案例和優化前后的SQL代碼。通過合理的優化策略和技巧，能夠顯著提升Hive SQL

發表于 09-24 13:30 ?279次閱讀

IP 地址在 SQL 注入攻擊中的作用及防范策略

SQL 注入是通過將惡意的 SQL 代碼插入到輸入參數中，欺騙應用程序執行這些惡意代碼，從而實現對數據庫的非法操作。例如，在一個登錄表單中，如果輸入的用戶名被直接拼接到

發表于 08-05 17:36 ?330次閱讀

如何在SQL中創建觸發器

在SQL中，觸發器（Trigger）是一種特殊類型的存儲過程，它自動執行或激活響應表上的數據修改事件（如INSERT、UPDATE、DELETE等）。觸發器可以用于維護數據庫的完整性、自動化復雜

發表于 07-18 16:01 ?1964次閱讀

什么是 Flink SQL 解決不了的問題？

簡介在實時數據開發過程中，大家經常會用 Flink SQL 或者 Flink DataStream API 來做數據加工。通常情況下選用2者都能加工出想要的數據，但是總會有 Flink SQL

發表于 07-09 20:50 ?332次閱讀

PLC順序啟動逆順序停止電路如何運行

了解了順序啟動電路，今天再來看看順序啟動逆順序停止電路如何運行。

發表于 04-09 14:13 ?805次閱讀

SQL全外連接剖析

SQL中的全外連接是什么？在SQL中，FULLOUTERJOIN組合左外連接和右外連接的結果，并返回連接子句兩側表中的所有（匹配或不匹配）行。接下面sojson給大家詳細講解。 ? 圖解：SQL全

發表于 03-19 18:28 ?2253次閱讀

為什么需要監控SQL服務器？

服務器是存儲、處理和管理數據的關系數據庫管理系統 (RDBMS) 工具或軟件，例如Microsoft的MSSQL、Oracle DB和PostgreSQL。此外，服務器執行SQL查詢和命令來操作關系數據庫。實際上，

發表于 02-19 17:19 ?485次閱讀

plc梯形圖順序執行的原則是什么

PLC（可編程邏輯控制器）梯形圖（或稱為梯形邏輯圖）是用于描述和編程PLC的一種常用圖形化編程語言。它采用了一種順序執行的原則，即按照圖中元素的排列順序從左到右、從上到下依次執行。梯

發表于 02-05 11:13 ?4582次閱讀

觸發器的觸發順序是什么

不同類型的觸發器可能有不同的執行順序。例如，對于同一個表上的多個觸發器，插入觸發器（INSERT trigger）可能先于更新觸發器（UPDATE trigger）執行。

發表于 02-05 10:09 ?1158次閱讀

查詢SQL在mysql內部是如何執行？

我們知道在mySQL客戶端，輸入一條查詢SQL,然后看到返回查詢的結果。這條查詢語句在 MySQL 內部到底是如何執行的呢？本文跟大家探討一下哈，我們先來看下MySQL基本架構~

發表于 01-22 14:53 ?586次閱讀

mysql8.0流程控制介紹

? 流程控制介紹解決復雜問題不可能通過一個SQL語句完成，我們需要執行多個SQL操作。流程控制語句的作用就是控制存儲過程中SQL語句的

發表于 01-13 10:36 ?729次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

如何通過explain來驗證sql的執行順序

評論

通過Skyvia Connect SQL終端節點訪問任何數據

淺談SQL優化小技巧

常用SQL函數及其用法

SQL與NoSQL的區別

大數據從業者必知必會的Hive SQL調優技巧

IP 地址在 SQL 注入攻擊中的作用及防范策略

如何在SQL中創建觸發器

什么是 Flink SQL 解決不了的問題？

PLC順序啟動逆順序停止電路如何運行

SQL全外連接剖析

為什么需要監控SQL服務器？

plc梯形圖順序執行的原則是什么

觸發器的觸發順序是什么

查詢SQL在mysql內部是如何執行？

mysql8.0流程控制介紹