在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用Flood多維索引技術實現優化數據存儲布局

牽手一起夢 ? 來源:學術頭條 ? 作者:佚名 ? 2020-09-22 16:38 ? 次閱讀

在多維索引表格(multi-dimensional table)上進行掃描和篩選是現代分析型數據庫引擎的關鍵技術。為了對這些操作進行優化,數據庫常建立起聚類的索引結構(indexes),如R-Trees,Z-ordering等,然而這些索引結構在不同的數據集以及查詢集合(query workload)下很難進行統一優化。在本篇論文中,提出了名為Flood的多維學習索引結構。通過同時優化索引結構以及存儲布局,這種結構自動地調整自身以適應具體數據集和查詢集合。該工作用來為端到端學習型數據庫系統構建索引模塊。

論文背景

在多維索引表格上進行掃描和篩選是現代分析型數據庫引擎的關鍵技術之一。如果數據完全根據其中某一個屬性(attribute)進行組織,即不會涉及到多個屬性同時被訪問的情況,那么通過建立平衡樹或者進行簡單二分搜索的方法已經足夠。然而,如果數據需要通過不同屬性進行篩選,那么通過建立多層索引的方法是不足以解決問題的。多層索引所帶來的存儲代價是的這項技術只能被應用在很小的范圍內。另一種解決方案是建立起多維索引(multi-dimensional indexes)對數據進行組織管理。如Redshift以及Spark-SQL使用Z-ordering技術來對數據進行布局,一些空間數據庫則嘗試使用R-tree來進行索引。然而,現有的多維索引技術有著顯著的缺點。首先,這些技術都非常難以根據實際的數據集進行優化。其次,沒有一項方案可以作為所有問題的統一解決方法。不同的數據集以及查詢集合將會決定使用不同的多維索引技術。

為了解決上述缺點,本文提出了名為Flood的基于內存的學習多維索引。該索引方案的重點在于自動地同時優化數據存儲布局以及索引的結構,以此來獲得優于其他所有多維索引的索引速度。Flood框架有以下兩個重點idea:

1. 使用一個下采樣的查詢集合,即一小部分查詢樣例構成的查詢集合樣本,以此來學習不同維度屬性在查詢過程中的使用頻率。基于該信息,Flood框架自動地調節數據存儲布局,以此優化索引性能。

2. 使用一個累計分布函數CDF(Calculative Distribution Function)模型來將多維上可能的傾斜數據映射到一個均勻空間中。這個平滑(Flatten)過程使得每一個存儲的存儲單元儲存的數據量基本一致。以此更快地進行索引。

Flood框架的主要貢獻有三:

1. 提出了第一個學習型多維索引,Flood框架。Flood從一個篩選斷言集合,即一個下采樣的查詢集合中學習查詢集合的分布函數,以此調節數據存儲布局。

2. 使用三個真實數據集評估了多個不同的多維索引結構,實驗顯示Flood框架大大優于其他的多維索引結構。

3. 實驗顯示出Flood框架在不同的Filter Predicates上都實現了搜索加速,其索引結構的建立速度與其他多維索引的建立速度相當。

論文模型

如何利用Flood多維索引技術實現優化數據存儲布局

多維索引查詢的難點在于同時對Y和Z兩個屬性進行篩選,對其中某一個維度進行排序的二分搜索無法順利完成該任務。

數據布局

如果把整個多維空間看作一個歐幾里得空間的話,不同于單維數據,多維數據不可以基于一個維度,或者屬性進行排序,這導致很多單維上可以使用的索引方法在多維索引上并不適用。但是如果將整個空間分成一個個小的格子,在單獨一個格子內使用統一維度進行排序,則在訪問該格子內的數據中就可以通過使用單維索引技術加速索引。

模型基本操作

1. 映射查找存儲塊(Projection):通過查詢中的篩選條件得到需要遍歷的數據網格,并且將索引范圍約束在這些網格當中。

2. 凝練查找范圍(Refinement):對按照某一維度進行排序的網格數據進行進一步篩選,根據查找篩選條件對排序維度的限制進一步縮小檢索的范圍。

3. 進行搜索。

網格優化

網格分割需要決定每一個維度所應該分割的子空間個數。Flood框架可以通過學習選擇合適的網格個數以及決定哪一個維度作為排序維度,即在網格內對數據進行排序的維度。

數據學習優化索引結構

1. 數據平滑化

根據CDF模型,對空間進行不均勻的劃分,達到每一個網格的數據點數量基本一致。實驗顯示當數據量方差較小時,索引的速度有所加快。

2. 快速查找范圍凝練(使用機器學習方法)

在凝練搜索范圍的過程中,通過使用學習索引模型,RMI(Recursive Model Index),這一個多層線性回歸模型的索引結構,加速范圍索引的速度。論文中稱之為piecewise linear model。

實驗

本文在Sales,OSM,Perform三個真實數據上進行了試驗。

同時,還驗證了數據扁平化等優化方法在提升索引速度上的有效性。

責任編輯:gt

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 內存
    +關注

    關注

    8

    文章

    3045

    瀏覽量

    74204
  • 數據庫
    +關注

    關注

    7

    文章

    3842

    瀏覽量

    64574
  • 引擎
    +關注

    關注

    1

    文章

    361

    瀏覽量

    22605
收藏 人收藏

    評論

    相關推薦

    創建唯一索引的SQL命令和技巧

    在創建唯一索引時,以下是一些SQL命令和技巧,可以幫助優化性能: 使用合適的索引類型:對于需要保證唯一性的列,使用UNIQUE索引來避免重復數據
    的頭像 發表于 01-09 15:21 ?52次閱讀

    利用Arm Kleidi技術實現PyTorch優化

    PyTorch 是一個廣泛應用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協作,持續改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術提升 Arm
    的頭像 發表于 12-23 09:19 ?257次閱讀
    <b class='flag-5'>利用</b>Arm Kleidi<b class='flag-5'>技術</b><b class='flag-5'>實現</b>PyTorch<b class='flag-5'>優化</b>

    SSM框架的性能優化技巧 SSM框架中RESTful API的實現

    : 緩存可以顯著提高系統的響應速度。 在SSM中,可以使用Redis或Memcached等緩存技術來緩存頻繁訪問的數據,如數據庫查詢結果、用戶信息等。 同時,也可以利用Spring
    的頭像 發表于 12-17 09:10 ?240次閱讀

    如何優化EEPROM的數據存儲策略

    。它廣泛應用于需要存儲少量數據的場合,如微控制器、傳感器和嵌入式系統中。優化EEPROM的數據存儲策略可以提高
    的頭像 發表于 12-16 17:21 ?485次閱讀

    Vivado之實現布局布線流程介紹

    一、前言 本文將介紹Vivado進行綜合,以及布局布線的內部流程,熟悉該流程后結合Settings中對應的配置選項,對于時序收斂調試將更具有針對性。 二、Implementation(實現實現
    的頭像 發表于 12-06 09:08 ?650次閱讀
    Vivado之<b class='flag-5'>實現</b><b class='flag-5'>布局</b>布線流程介紹

    SMT流水線布局優化技巧

    在電子制造領域,SMT(表面貼裝技術)流水線的布局優化對于提高生產效率、降低成本和提升產品質量至關重要。一個合理的流水線布局可以減少物料搬運時間,提高設備
    的頭像 發表于 11-14 09:11 ?441次閱讀

    如何優化emc存儲性能

    在當今的數據中心環境中,存儲性能對于業務連續性和數據訪問速度至關重要。EMC作為領先的存儲解決方案提供商,其產品線涵蓋了從入門級到企業級的存儲
    的頭像 發表于 11-01 15:57 ?365次閱讀

    優化TPS546xx的布局實現熱性能

    電子發燒友網站提供《優化TPS546xx的布局實現熱性能.pdf》資料免費下載
    發表于 10-12 10:31 ?0次下載
    <b class='flag-5'>優化</b>TPS546xx的<b class='flag-5'>布局</b>以<b class='flag-5'>實現</b>熱性能

    如何利用三種 SOT-563 封裝實現共同布局

    電子發燒友網站提供《如何利用三種 SOT-563 封裝實現共同布局.pdf》資料免費下載
    發表于 09-10 14:25 ?0次下載
    如何<b class='flag-5'>利用</b>三種 SOT-563 封裝<b class='flag-5'>實現</b>共同<b class='flag-5'>布局</b>

    一文了解MySQL索引機制

    的呢?一起靜下心來,耐心看完這篇文章吧,干貨不啰嗦,相信你一定會有所收獲。 一、索引模型 模型也就是數據結構,常見的三種模型分別是哈希表、有序數組和搜索樹。 了解MySQL的朋友已經知道,現在MySQL默認使用的是InnoDB存儲
    的頭像 發表于 07-25 14:05 ?321次閱讀
    一文了解MySQL<b class='flag-5'>索引</b>機制

    ClickHouse內幕(3)基于索引的查詢優化

    ClickHouse索引采用唯一聚簇索引的方式,即Part內數據按照order by keys有序,在整個查詢計劃中,如果算子能夠有效利用輸入數據
    的頭像 發表于 06-11 10:46 ?1055次閱讀
    ClickHouse內幕(3)基于<b class='flag-5'>索引</b>的查詢<b class='flag-5'>優化</b>

    佰維存儲RAID固件優化,助力數據中心強化效能與安全

    人工智能和物聯網等先進技術的普及將推動對數據存儲的需求升級,企業將需要更快、更安全、更密集的SSD,以實現各種高性能計算。隨著固態硬盤技術
    發表于 04-16 18:18 ?466次閱讀
    佰維<b class='flag-5'>存儲</b>RAID固件<b class='flag-5'>優化</b>,助力<b class='flag-5'>數據</b>中心強化效能與安全

    FPGA布局布線優化技術

    寄存器排序是布局工具把多位寄存器的相鄰位分組放進單個邏輯元件所利用的方法。大多數基于單元的邏輯元件有不止一個觸發器,因此,相鄰位放置在一起,時序可以被優化
    發表于 03-29 11:30 ?428次閱讀
    FPGA<b class='flag-5'>布局</b>布線<b class='flag-5'>優化</b><b class='flag-5'>技術</b>

    數據存儲技術未來發展趨勢與前景展望

    數據存儲對于數據挖掘與分析、數據整合與共享、智能決策支持、業務模式創新以及優化資源配置等方面具有重要作用。按照
    發表于 02-27 09:29 ?3581次閱讀
    <b class='flag-5'>數據</b><b class='flag-5'>存儲</b><b class='flag-5'>技術</b>未來發展趨勢與前景展望

    谷歌搜索引優化的各個方面和步驟

    谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一,為了使你的網站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌搜索引優化的步驟。 使用關鍵字研究工具,如Google AdWords
    的頭像 發表于 01-25 10:29 ?936次閱讀
    主站蜘蛛池模板: 网友偷自拍原创区| 亚洲成人高清在线| 99自拍视频| 草草影院私人免费入口| 亚洲操综合| 日本午夜片| 日韩美aaa特级毛片| 欧美地区一二三区| 精品三级国产精品经典三| 国产码一区二区三区| 岛国午夜| 天天操夜夜操视频| 好吊色视频988gao在线观看| 性欧美丰满xxxx性久久久| 在线视频一区二区| 伊人久久大香线蕉综合bd高清| 婷婷五月花| 农村女人的一级毛片| 久草色播| 天天综合色天天综合色sb| 九九久久九九久久| 天天搞天天色| 国产一级簧片| 亚洲欧美色一区二区三区| 亚洲三级理论| 欧美一区二区三区高清视频| 久久国产精品网| 午夜在线播放视频| 好吊色7777sao在线视频观看| 国产成人啪午夜精品网站| 黄视频网站在线看| 国模欢欢大尺度| 四虎4hu| 久久婷婷久久一区二区三区| 欲色淫香| 爱插综合网| jizz免费一区二区三区| 日本天堂网在线观看| 高清人人天天夜夜曰狠狠狠狠| 手机看片日韩高清1024| www.91大神|