在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

百億級數據分表后 怎樣才能分頁查詢

數據分析與開發 ? 來源:數據分析與開發 ? 作者:科技繆繆 ? 2020-11-19 15:43 ? 次閱讀

當業務規模達到一定規模之后,像淘寶日訂單量在5000萬單以上,美團3000萬單以上。數據庫面對海量的數據壓力,分庫分表就是必須進行的操作了。而分庫分表之后一些常規的查詢可能都會產生問題,最常見的就是比如分頁查詢的問題。一般我們把分表的字段稱作shardingkey,比如訂單表按照用戶ID作為shardingkey,那么如果查詢條件中不帶用戶ID查詢怎么做分頁?又比如更多的多維度的查詢都沒有shardingkey又怎么查詢?

唯一主鍵

一般我們數據庫的主鍵都是自增的,那么分表之后主鍵沖突的問題就是一個無法避免的問題,最簡單的辦法就是以一個唯一的業務字段作為唯一的主鍵,比如訂單表的訂單號肯定是全局唯一的。 常見的分布式生成唯一ID的方式很多,最常見的雪花算法Snowflake、滴滴Tinyid、美團Leaf。以雪花算法舉例來說,一毫秒可以生成4194304多個ID。第一位不使用,默認都是0,41位時間戳精確到毫秒,可以容納69年的時間,10位工作機器ID高5位是數據中心ID,低5位是節點ID,12位序列號每個節點每毫秒累加,累計可以達到2^12 4096個ID。

分表

第一步,分表后要怎么保證訂單號的唯一搞定了,現在考慮下分表的問題。首先根據自身的業務量和增量來考慮分表的大小。 舉個例子,現在我們日單量是10萬單,預估一年后可以達到日100萬單,根據業務屬性,一般我們就支持查詢半年內的訂單,超過半年的訂單需要做歸檔處理。 那么以日訂單100萬半年的數量級來看,不分表的話我們訂單量將達到100萬X180=1.8億,以這個數據量級部分表的話肯定單表是扛不住的,就算你能扛RT的時間你也根本無法接受吧。根據經驗單表幾百萬的數量對于數據庫是沒什么壓力的,那么只要分256張表就足夠了,1.8億/256≈70萬,如果為了保險起見,也可以分到512張表。那么考慮一下,如果業務量再增長10倍達到1000萬單每天,分表1024就是比較合適的選擇。 通過分表加上超過半年的數據歸檔之后,單表70萬的數據就足以應對大部分場景了。接下來對訂單號hash,然后對256取模的就可以落到具體的哪張表了。

那么,因為唯一主鍵都是以訂單號作為依據,以前你寫的那些根據主鍵ID做查詢的就不能用了,這就涉及到了歷史一些查詢功能的修改。不過這都不是事兒對吧,都改成以訂單號來查就行了。這都不是問題,問題在我們的標題說的點上。

C端查詢

說了半天,總算到了正題了,那么分表之后查詢和分頁查詢的問題怎么解決? 首先說帶shardingkey的查詢,比如就通過訂單號查詢,不管你分頁還是怎么樣都是能直接定位到具體的表來查詢的,顯然查詢是不會有什么問題的。 如果不是shardingkey的話,上面舉例說的以訂單號作為shardingkey的話,像APP、小程序這種一般都是通過用戶ID查詢,那這時候我們通過訂單號做的sharding怎么辦?很多公司訂單表直接用用戶ID做shardingkey,那么很簡單,直接查就完了。那么訂單號怎么辦,一個很簡單的辦法就是在訂單號上帶上用戶ID的屬性。舉個很簡單的例子,原本41位的時間戳你覺得用不完,用戶ID是10位的,訂單號的生成規則帶上用戶ID,落具體表的時候根據訂單號中10位用戶ID hash取模,這樣無論根據訂單號還是用戶ID查詢效果都是一樣的。 當然,這種方式只是舉例,具體的訂單號生成的規則,多少位,包含哪些因素根據自己的業務和實現機制來決定。

好,那么無論你是訂單號還是用戶ID作為shardingkey,按照以上的兩種方式都可以解決問題了。那么還有一個問題就是如果既不是訂單號又不是用戶ID查詢怎么辦?最直觀的例子就是來自商戶端或者后臺的查詢,商戶端都是以商戶或者說賣家的ID作為查詢條件來查的,后臺的查詢條件可能就更復雜了,像我碰到的有些后臺查詢條件能有幾十個,這怎么查???別急,接下來分開說B端和后臺的復雜查詢。 現實中真正的流量大頭都是來自于用戶端C端,所以本質上解決了用戶端的問題,這個問題就解了大半,剩下來自商戶賣家端B端、后臺支持運營業務的查詢流量并不會很大,這個問題就好解。

其他端查詢

針對B端的非shardingkey的查詢有兩個辦法解決。雙寫,雙寫就是下單的數據落兩份,C端和B端的各自保存一份,C端用你可以用單號、用戶ID做shardingkey都行,B端就用商家賣家的ID作為shardingkey就好了。有些同學會說了,你雙寫不影響性能嗎?因為對于B端來說輕微的延遲是可以接受的,所以可以采取異步的方式去落B端訂單。你想想你去淘寶買個東西下單了,賣家稍微延遲個一兩秒收到這個訂單的消息有什么關系嗎?你點個外賣商戶晚一兩秒收到這個訂單有什么太大影響嗎?

這是一個解決方案,另外一個方案就是走離線數倉或者ES查詢,訂單數據落庫之后,不管你通過binlog還是MQ消息的都形式,把數據同步到數倉或者ES,他們支持的數量級對于這種查詢條件來說就很簡單了。同樣這種方式肯定是稍微有延遲的,但是這種可控范圍的延遲是可以接受的。

而針對管理后臺的查詢,比如運營、業務、產品需要看數據,他們天然需要復雜的查詢條件,同樣走ES或者數倉都可以做得到。如果不用這個方案,又要不帶shardingkey的分頁查詢,兄弟,這就只能掃全表查詢聚合數據,然后手動做分頁了,但是這樣查出來的結果是有限制的。 比如你256個片,查詢的時候循環掃描所有的分片,每個片取20條數據,最后聚合數據手工分頁,那必然是不可能查到全量的數據的。

總結

分庫分表后的查詢問題,對于有經驗的同學來說其實這個問題都知道,但是我相信其實大部分同學做的業務可能都沒來到這個數量級,分庫分表可能都停留在概念階段,面試被問到后就手足無措了,因為沒有經驗不知道怎么辦。 分庫分表首先是基于現有的業務量和未來的增量做出判斷,比如拼多多這種日單量5000萬的,半年數據得有百億級別了,那都得分到4096張表了對吧,但是實際的操作是一樣的,對于你們的業務分4096那就沒有必要了,根據業務做出合理的選擇。 對于基于shardingkey的查詢我們可以很簡單的解決,對于非shardingkey的查詢可以通過落雙份數據和數倉、ES的方案來解決,當然,如果分表后數據量很小的話,建好索引,掃全表查詢其實也不是什么問題。

責任編輯:xj

原文標題:百億級數據分表后,該怎么分頁查詢?

文章出處:【微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7103

    瀏覽量

    89287
  • 數據分析
    +關注

    關注

    2

    文章

    1455

    瀏覽量

    34090

原文標題:百億級數據分表后,該怎么分頁查詢?

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用STM32F407的硬件SPI接口去讀取ADS8694的18位ad數據怎樣才能讀取出來?

    使用STM32F407的硬件SPI接口去讀取ADS8694的18位ad數據怎樣才能讀取出來,因為STM32F407的硬件SPI接口只能設置每次讀取的數據位是8位或者16位,看了TI的ADS8694芯片手冊上的SPI時序圖發現
    發表于 12-27 06:23

    在應TPA3110D2時,上電有POP聲怎樣才能消除?

    在應TPA3110D2時,上電有POP聲.怎樣才能消除?
    發表于 11-01 07:50

    通過簡單的電阻電容組合怎樣才能把25K方波變成正弦?

    通過簡單的電阻電容組合怎樣才能把25K方波變成正弦呢。加了濾波電路后方波的上升沿變緩了,可是下降沿基本沒有變化。怎樣才能把下降沿也變緩呢
    發表于 10-22 06:02

    TPA3118D2怎樣才能不使用靜音功能,通電就能輸出音頻?

    如圖,12腳MUTE接一個100K電阻到地,不使用靜音功能,這樣使用是否正確。焊接好通電沒聲音輸出,但手碰一下MUTE腳就有輸出了,再碰一下又沒聲音了,就像是按了MUTE按鈕。手觸摸一次就等于加了一次高電平。不知是什么問題,怎樣才能不使用靜音功能,通電就能輸出音頻。
    發表于 09-29 08:38

    怎樣才能避免LM3886損壞?

    損壞。 A、過流損壞:雖有電流監測,可能是響應不夠快; B、過壓損壞:負載上殘留的工頻電壓過高損壞。請問怎樣才能避免LM3886損壞,新的D類放大器是否更能勝任些功能需求,可推薦一下方案。謝謝
    發表于 09-06 06:31

    怎樣才能在調用deep_sleep_set_option(4)后手動打開RF?

    請教下,怎樣才能在調用deep_sleep_set_option(4) 手動打開RF,而不是要通過其他deep_sleep_set_option()來打開RF,我想在自己想要發射廣播包的時候打開RF,主要其他模式太耗電
    發表于 07-22 07:26

    esp8266怎樣才能正確的把更新的代碼升級到target上?

    請問下: user1.bin、user2.bin它們編譯后分別鏈接哪些文件生成呢?怎樣才能正確的把更新的代碼升級到target上? 以下是Esp8266燒錄和運行信息: update.jpg
    發表于 07-12 11:50

    分庫復雜查詢的應對之道:基于DTS實時性ES寬構建技術實踐

    ,通過分庫應對存系統讀寫性能瓶頸和存儲瓶頸;分庫幫我們解決問題的同時,也帶來了復雜性
    的頭像 發表于 06-25 18:30 ?889次閱讀
    分庫<b class='flag-5'>分</b><b class='flag-5'>表</b><b class='flag-5'>后</b>復雜<b class='flag-5'>查詢</b>的應對之道:基于DTS實時性ES寬<b class='flag-5'>表</b>構建技術實踐

    怎樣才能選到合適的無線模塊?

    市面上無線模塊的類型多種多樣,如LoRa、藍牙、ZigBee、SPI、SoC等等,怎樣才能選擇到合適的無線模塊呢?為了確保所選模塊能滿足特定應用的需求并實現最佳性能,在選擇模塊時可以重點考慮以下幾個
    的頭像 發表于 05-31 08:21 ?830次閱讀
    <b class='flag-5'>怎樣才能</b>選到合適的無線模塊?

    GS12070怎樣才能輸出帶16聲道的高清SDI信號呢?

    請教下各位,GS12070怎樣才能輸出帶16聲道的高清SDI信號呢
    發表于 03-13 07:48

    CY8C4025怎樣才能提高SPI的速率?

    我只使用SPI的MOSI來發送數據,不需要過度采樣,我怎樣才能提高SPI的速率? 我看到 SPI 的最大波特率是 4MHz,我需要它是 8MHz,超采樣至少是 6,如何將其配置為 3? 芯片是 CY8C4025,謝謝。
    發表于 02-26 07:11

    怎樣才能驗證ADAS功能的抗干擾能力?

    來自一位客戶的咨詢,麻煩幫忙解答,越詳細越好,有圖有真相,可以適當提供一些英飛凌解決方案和產品推薦。 現如今無線通信設備這么多,怎樣才能驗證ADAS功能的抗干擾能力?
    發表于 02-02 07:20

    怎樣才能降低變壓器的鐵損?

    怎樣才能降低變壓器的鐵損? 降低變壓器的鐵損是一項技術挑戰,需要綜合考慮設計、材料、制造和運行等各個方面的因素。 引言 變壓器是電力系統中不可或缺的核心設備之一,起到將電能從一個電壓等級傳輸到另一個
    的頭像 發表于 01-30 17:00 ?1952次閱讀

    PSOC63-BLE怎樣才能讓4個pwm同步輸出?

    我正在使用 PSOC63-BLE。 我正在嘗試使用 HAL 輸出 4 個 pwm,但我無法同步 4 個 pwm。 我怎樣才能讓 4 個 pwm 同步輸出?
    發表于 01-22 06:18

    怎樣才能配置lsl或工具來獲取HEX文件中的PSRAM地址?

    我把這個函數放進了 PSRAM 地址,我檢查了地圖,它起作用了。 但是十六進制文件不包括 PSRAM地址。 我怎樣才能配置 lsl 或工具來獲取 HEX 文件中的 PSRAM 地址?
    發表于 01-22 06:05
    主站蜘蛛池模板: 免费观看一区二区| 国产青草| 男人性天堂| 毛片官网| 色香焦| 大黄一级片| 天堂在线网站| 午夜影视体验区| www毛片| 国产婷婷一区二区三区| 免费观看黄色网页| 色福利网站| 婷婷久久综合九色综合九七| 伊人久久大香线焦在观看| 老司机精品视频免费| 亚洲视频一区在线观看| tube69xxxxhd日本| 69女poren60| 黄色永久网站| 男女交性特一级| 亚洲精品乱码久久久久久蜜桃图片| 狠狠色噜噜狠狠狠狠97影音先锋| 日本一道高清不卡免费| 一级毛片不卡| 性做久久久久久久免费观看 | 亚洲无线视频| 伊人久久综合网站| 色站视频| 激情都市亚洲| 高清国产下药迷倒美女| 干美女在线视频| 天天操操| 久久久久免费| 国内色视频| aa国产| 好紧好爽的午夜寂寞视频| 丁香在线| 亚洲高清国产拍精品影院| 欧美日韩国产乱了伦| 黄色生活毛片| 天天搞夜夜爽|