在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據的4個關鍵技術

jf_78858299 ? 來源:Datawhale ? 作者:牧小熊 ? 2023-05-10 15:30 ? 次閱讀

我們引用了大數據的4V特征

  • Volume 大數據數據量大,數據量單位為T 或者P級
  • Variety 數據類型多,大數據包含多種數據維度 比如 日志、視頻、圖片
  • Value 價值密度低,商業價值高 比如監控視頻,其中關鍵1-2秒可能具有極高的價值
  • Velocity 要求處理速度塊

1.2 大數據的4個關鍵技術

圖片

1.3 ETL/ELT的區別

ETL 包含的過程是 Extract、Transform、Load的縮寫

包括了數據抽取 => 轉換 => 加載三個過程

圖片

在數據源抽取后首先進行轉換,然后將轉換的結果寫入目的地

ETL 包含的過程是 Extract、Load、Transform的縮寫

ELT的過程是,在抽取后將結果先寫入目的地,然后利用數據庫的聚合分析能力或者外部計算框架,如Spark來完成轉換

目前數據主流框架是ETL,重抽取和加載,輕轉換,搭建的數據平臺屬于輕量級

ELT架構,在提取完成之后,數據加載會立即開始,更省時,數據變換這個過程根據后續使用需求在 SQL 中進行,而不是在加載階段

ELT框架的優點就是保留了原始數據,能夠將原始數據展現給數據分析人員

ETL相關軟件:

  • 商業軟件:Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services等
  • 開源軟件:Kettle、DataX、Sqoop

1.4 大數據與數據庫管理系統

DataBase Management System,數據庫管理系統,可以管理多個數據庫

目前關系型數據庫在DBMS中占據主流地位,常用的關系型數據庫有Oracle、MySQL和SQL Server

其中SQL就是關系型數據庫的查詢語言

SQL是與數據直接打交道的語言,是與前端、后端語言進行交互的“中臺”語言

SQL語言特點:

  • 價值大,技術、產品、運營人員都要掌握SQL,使用無處不在
  • 很少變化,SQL語言從誕生到現在,語法很少變化
  • 入門并不難,很多人都會寫SQL語句,但是效率差別很大

除了關系型數據庫還有文檔型數據庫MongoDB、鍵值型數據庫Redis、列存儲數據庫Cassandra等

提到大數據就不得不說Hive

Hive是基于Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。

Hive與關聯型數據庫RDBMS相比

不足:

  • 不能像 RDBMS 一般實時響應,Hive 查詢延時大
  • 不能像 RDBMS 做事務型查詢,Hive 沒有事務機制
  • 不能像 RDBMS 做行級別的變更操作(包括插入、更新、刪除)

優點:

  • Hive 沒有定長的 varchar 這種類型,字符串都是 string
  • Hive 是讀時模式,保存表數據時不會對數據進行校驗,而在讀數據時將校驗不符合格式的數據設置為NULL

1.5 OLTP/OLAP

在數據倉庫架構中有非常相關的2個概念,一個是OLTP,一個是OLAP

圖片

  • OLTP( On-Line Transaction Processing )

聯機事務處理,主要是對數據的增刪改

記錄業務發生,比如購買行為,發生后,要記錄是誰在什么時候做了什么事,數據會以增刪改的方式在數據庫中進行數據的更新處理操作

實時性高、穩定性強,ATM,ERP,CRM,OA等都屬于OLTP

  • OLAP( On-Line Analytical Processing )

聯機分析處理,主要是對數據的分析查詢

當數據積累到一定的程度,需要做總結分析,BI報表=> OLAP

OLTP產生的數據通常在不同的業務系統中

OLAP需要將不同的數據源 => 數據集成 => 數據清洗 => 數據倉庫,然后由數據倉庫統一提供OLAP分析

2.大數據計算

2.1 大數據計算模式

大數據計算模式 解決問題 代表產品
批處理計算 針對大規模數據的批量處理 MapReduce、Spark等
流計算 針對流數據的實時計算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流數據處理平臺
圖計算 針對大規模圖結構數據的處理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查詢分析計算 大規模數據的存儲管理和查詢分析 Dremel、Hive、Cassandra、Impala等

2.2 Lambda大數據框架

圖片

Lambda架構:

Batch Layer(批處理層),對離線的歷史數據進行預計算,能讓下游進行快速查詢。因為基于完整的數據集,準確性能得到保證??梢杂肏adoop、Spark 和 Flink 等計算框架

Speed Layer(加速處理層),處理實時的增量數據,加速層的數據不如批處理層完整和準確,但重點在于低延遲。可以用 Spark streaming、Storm 和 Flink 等計框架算

Serving Layer(合并層),將歷史數據計算與實時數據計算合并,輸出到數據庫,供下游分析

2.3 大數據典型技術

  • Hadoop

一個文件系統,外加一個離線處理框架MapReduce,由于提供的上層api不太友好,加上MapReduce 處理框架比較慢,基本上都用作文件系統

  • Spark

本身是一個執行引擎,不保存數據,所以需要外部的文件系統(通常會基于hadoop)提出了內存計算的概念,即盡可能把數據放到內存中,還提供了良好的上層使用接口,包括spl語句(spark sql)處理數據十分方便。相比 Hadoop MapReduce 獲得了百倍的性能提升,基本上用它來做離線數據處理

  • Flink

分布式實時計算框架,具有超高的性能,支持Flink流式計算與Storm性能差不多,支持毫秒級計算

Spark 和 Flink的區別

圖片

3.大數據實踐

本文主要講解了大數據的概念和基礎知識,幫助讀者對大數據有一個基本了解。如果對實踐有學習需要(可以留言),我再花時間整理大數據的實踐講解:Pyspark進行Titanic乘客生存預測。使用pyspark進行初步的大數據操作,數據選取Kaggle泰坦尼克號項目的數據,通過Spark讀取數據,并利用Spark中的ML工具對數據進行構建模型。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    771

    瀏覽量

    44192
  • volume
    +關注

    關注

    0

    文章

    5

    瀏覽量

    7855
  • 大數據
    +關注

    關注

    64

    文章

    8900

    瀏覽量

    137580
收藏 人收藏

    評論

    相關推薦

    一文匯總大數據四大方面十五大關鍵技術

    本文針對大數據關鍵技術大數據采集、大數據預處理、大數據存儲、大數據分析挖掘四大方面的15大
    發表于 11-11 15:46 ?1.1w次閱讀

    汽車總線及其關鍵技術的研究

    汽車總線及其關鍵技術的研究
    發表于 07-10 11:33

    CDMA原理與關鍵技術

    CDMA原理與關鍵技術
    發表于 08-16 20:25

    工業4.O的關鍵技術

    和靈活性在內的智能制造設計,同時提供制造流程的實時視圖、連通性和通信。以下為促成更智能、更高效制造的工業4.0的一些關鍵技術,:兼容的工業通信。為了獲得完整制造系統的透明視圖,所有數據必須通過具有共同
    發表于 03-06 06:45

    智能穿戴產業的五大關鍵技術

    運算與抓取顯然是難以滿足物聯網時代發展需求的,于是,具有自我運算、判斷能力的人工智能技術勢必將成為下一關鍵技術。當前,不論是IBM,還是阿里、百度、360等都已經開始布局云平臺。顯然,他們已經
    發表于 05-09 06:20

    無人駕駛汽車的關鍵技術是什么?

    無人駕駛汽車開發的關鍵技術主要有兩方面:車輛定位和車輛控制技術。這兩方面相輔相成共同構成無人駕駛汽車的基礎。
    發表于 03-18 09:02

    物聯網的關鍵技術有哪些

    物聯網關鍵技術————傳感器技術
    發表于 06-16 17:25

    4G移動通信關鍵技術及特征是什么?

    4G移動通信關鍵技術及特征是什么?
    發表于 05-26 06:37

    MIMO-OFDM中有哪些關鍵技術

    本文介紹了MIMO-OFDM技術中的關鍵技術,如信道估計、同步、分集技術和空時編碼等。
    發表于 05-27 06:05

    4G移動通信是什么?4G中有哪些關鍵技術

    4G移動通信是什么?4G中有哪些關鍵技術?
    發表于 05-27 06:17

    POE的關鍵技術有哪些?

    使用以太網線供電的優勢是什么?PoE設備是怎么供電的?POE的關鍵技術有哪些?
    發表于 06-10 09:26

    明白VPP關鍵技術有哪些

    隨著人工智能技術的不斷發展,越來越多的行業開始使用人工智能技術,這也使得智能虛擬代理技術得到了廣泛的應用。為了能夠深入了解智能虛擬代理技術,需要明白VPP
    發表于 08-31 07:28

    視覺導航關鍵技術及應用

    由于視覺導航技術的應用越來越普及 ,因此 ,有必要對視覺導航中的關鍵技術及應用進行研究。文章對其中的圖像處理技術和定位與跟蹤技術進行了詳細研究 ,并與此相對應 ,介紹的相關的應用。
    發表于 09-25 08:09

    大數據時代,這十五大關鍵技術你竟不知道?

    近年來,大數據來勢洶洶,滲透到各行各業,帶來了一場翻天覆地的變革。讓人們越發認識到,比掌握龐大的數據信息更重要的是掌握對含有意義的數據進行專業化處理的技術。
    發表于 12-06 11:08 ?0次下載

    貴州省大數據領域技術榜單“大數據安全與隱私保護關鍵技術”項目啟動

    記者從貴州省科技廳獲悉,日前,貴州省大數據領域技術榜單“大數據安全與隱私保護關鍵技術”項目啟動,將對公共大數據安全、隱私保護等課題開展研究。
    發表于 05-09 16:08 ?1753次閱讀
    主站蜘蛛池模板: 人与牲动交bbbbxxxx| 噜噜噜狠狠夜夜躁| 一级毛片免费全部播放完整| 狠狠色噜噜狠狠狠97影音先锋| 国产一区二区三区美女图片 | 欧美日韩中文字幕在线| 伊人亚洲综合网成人| 最新人妖shemaletube人妖| 亚洲一级香蕉视频| 四虎影院在线免费观看视频| 国产一区中文字幕| 亚洲综合第一区| 色婷婷777| 天天操bb| 亚洲国产色图| 色视频国产| 毛片你懂的| www.黄色免费| 成年在线视频| 国产三级在线免费观看| 成熟女人免费一级毛片| 天天综合五月天| 永久免费视频| 日本精品视频一视频高清| 午夜免费福利在线| 亚洲第一视频在线观看| 男人免费看片| 久久久久久天天夜夜天天| 日本美女视频网站| 91精品国产色综合久久不卡蜜| 一区二区网站| 香蕉视频在线观看黄| 午夜精品福利在线观看| 亲女乱h文小兰第一次| 国产色网| 欧美黑人粗硬大在线看| 久久草在线视频国产一| 中文字幕国产一区| 香港三级在线视频| 黄 色 片免费观看| 日本free护士姓交|