基于分段聚類壓縮和Hash recoding壓縮方法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
今日頭條的服務(wù)器每天都會(huì)產(chǎn)生規(guī)模龐大的訓(xùn)練數(shù)據(jù),為方便進(jìn)行訓(xùn)練,這些數(shù)據(jù)都具有特定的格式和分布特征。使用不同類型的通用壓縮算法(字典類型及非字典類型)進(jìn)行測(cè)試,發(fā)現(xiàn)單獨(dú)任何一種算法都無(wú)法在滿足業(yè)務(wù)需求(速率需求和CPU占比等)的同時(shí)獲得較為可觀的壓縮比。針對(duì)今日頭條的訓(xùn)練數(shù)據(jù),提出了分段聚類壓縮和Hash recoding壓縮兩種策略。實(shí)驗(yàn)結(jié)果表明,分段聚類壓縮方式在更好地保證了壓縮率的同時(shí)提高了壓縮速率的目的;Hash recoding壓縮方式則更好地達(dá)到了以少量壓縮速率的損失換取更可觀的壓縮率的目的。分段聚類方式搭配Gzip壓縮算法的組合能使壓縮速率提高300%以上;Hash recoding方式匹配Snappy壓縮算法能使壓縮率縮小50%以上。根據(jù)實(shí)際需求,不論選擇哪種策略,對(duì)于降低今日頭條的運(yùn)營(yíng)成本,提升業(yè)務(wù)處理的效率,提供更好的用戶體驗(yàn),都有一定意義。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于分段聚類壓縮和Hash recoding壓縮方法下載
相關(guān)電子資料下載
- 新能源汽車空調(diào)壓縮機(jī)三相全橋SiC MOSFET方案 41
- 垃圾壓縮處理設(shè)備數(shù)據(jù)采集遠(yuǎn)程監(jiān)控系統(tǒng) 119
- 產(chǎn)線自動(dòng)化改造,智能化空調(diào)壓縮機(jī)中的工業(yè)RFID技術(shù)應(yīng)用 63
- 從燃油車到電動(dòng)汽車,空調(diào)壓縮機(jī)也在“新能源化” 4858
- 變頻空調(diào)和普通空調(diào)有什么區(qū)別? 544
- 集成32GB HBM2e內(nèi)存,AMD Alveo V80加速卡助力傳感器處理、存儲(chǔ)壓縮等 1753
- 第三講:?jiǎn)纹瑱C(jī)STC89C52+RA8889驅(qū)動(dòng)控制彩屏 代碼的壓縮(Keil編譯器) 183
- 威靈汽車獲得ISO 26262 ASIL-D汽車功能安全流程認(rèn)證證書 902
- 壓縮空氣儲(chǔ)能與抽水蓄能的區(qū)別 289
- 壓縮空氣儲(chǔ)能與液化空氣儲(chǔ)能的區(qū)別 280