大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)(Hadoop+Spark+Flink,數(shù)據(jù)處理)培訓(xùn)
-
-
培訓(xùn)對(duì)象:適合具備Java/Scala/Python基礎(chǔ),希望系統(tǒng)掌握大數(shù)據(jù)處理核心技術(shù)、進(jìn)入大數(shù)據(jù)開發(fā)領(lǐng)域的軟件開發(fā)人員及數(shù)據(jù)工程師。
-
-
培訓(xùn)目標(biāo):完成本課程后,學(xué)員將能夠深入理解Hadoop生態(tài)體系的核心組件與架構(gòu)設(shè)計(jì)。熟練掌握HDFS分布式文件系統(tǒng)、MapReduce計(jì)算框架、Hive數(shù)據(jù)倉(cāng)庫(kù)、Spark/Flink實(shí)時(shí)計(jì)算框架的應(yīng)用。具備獨(dú)立搭建大數(shù)據(jù)集群、編寫數(shù)據(jù)處理任務(wù)、實(shí)現(xiàn)離線與實(shí)時(shí)數(shù)據(jù)分析的能力。
-
-
培訓(xùn)內(nèi)容:
-
(1)大數(shù)據(jù)技術(shù)概述:了解大數(shù)據(jù)的概念、特征(4V)與核心價(jià)值。掌握Hadoop生態(tài)體系的演進(jìn)歷程與核心組件(HDFS、MapReduce、YARN、Hive、HBase)。學(xué)習(xí)大數(shù)據(jù)處理的兩種模式:離線批處理與實(shí)時(shí)流處理。
-
(2)Hadoop集群搭建:掌握Hadoop完全分布式集群的安裝與配置。學(xué)習(xí)HDFS(NameNode/DataNode)與YARN(ResourceManager/NodeManager)的配置。實(shí)踐完成Hadoop集群的啟動(dòng)與測(cè)試。
-
(3)HDFS原理與操作:深入理解HDFS的架構(gòu)設(shè)計(jì)(NameNode元數(shù)據(jù)管理、DataNode數(shù)據(jù)存儲(chǔ))。掌握HDFS Shell命令行操作與Java API訪問。學(xué)習(xí)HDFS的數(shù)據(jù)讀寫流程與副本機(jī)制。
-
(4)MapReduce編程:理解MapReduce的設(shè)計(jì)思想(分而治之、計(jì)算向數(shù)據(jù)移動(dòng))。掌握MapReduce編程模型(Mapper、Reducer、Driver)。實(shí)踐完成詞頻統(tǒng)計(jì)、數(shù)據(jù)去重等經(jīng)典案例。
-
(5)Hive數(shù)據(jù)倉(cāng)庫(kù):掌握Hive的安裝與配置,理解Hive與MySQL的元數(shù)據(jù)存儲(chǔ)關(guān)系。學(xué)習(xí)HiveQL數(shù)據(jù)定義語(yǔ)言(DDL)與數(shù)據(jù)操作語(yǔ)言(DML)。掌握分區(qū)表、分桶表的創(chuàng)建與使用。
-
(6)Hive高級(jí)特性:學(xué)習(xí)Hive的自定義函數(shù)(UDF)開發(fā)。掌握Hive的查詢優(yōu)化策略(索引、謂詞下推、MapJoin)。了解Hive on Spark的配置與性能對(duì)比。
-
(7)Spark基礎(chǔ):了解Spark與MapReduce的對(duì)比優(yōu)勢(shì)(內(nèi)存計(jì)算、DAG執(zhí)行引擎)。掌握Spark的架構(gòu)組件(Driver、Executor)與運(yùn)行模式(Local、Standalone、YARN)。
-
(8)Spark Core編程:掌握RDD(彈性分布式數(shù)據(jù)集)的創(chuàng)建、轉(zhuǎn)換操作(Transformation)與行動(dòng)操作(Action)。理解RDD的寬窄依賴與Stage劃分。實(shí)踐實(shí)現(xiàn)基于Spark的數(shù)據(jù)分析任務(wù)。
-
(9)Spark SQL:掌握DataFrame與Dataset API的使用。學(xué)習(xí)Spark SQL操作Hive數(shù)據(jù)的方法。實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的查詢與聚合分析。
-
(10)Spark Streaming理解微批處理流計(jì)算的概念,掌握DStream(離散流)的編程模型。學(xué)習(xí)使用Kafka與Spark Streaming集成,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)處理。了解Structured Streaming的改進(jìn)。
-
(11)Flink基礎(chǔ):了解Flink作為新一代流處理框架的核心優(yōu)勢(shì)(低延遲、Exactly-Once語(yǔ)義)。掌握Flink的架構(gòu)與基本編程模型(DataStream API)。實(shí)現(xiàn)簡(jiǎn)單的實(shí)時(shí)流計(jì)算任務(wù)。
-
(12)綜合項(xiàng)目實(shí)戰(zhàn):完成一個(gè)完整的大數(shù)據(jù)處理項(xiàng)目(如電商用戶行為日志分析)。涵蓋數(shù)據(jù)采集(Flume/Kafka)、離線批處理(Spark/Hive)、實(shí)時(shí)計(jì)算(Spark Streaming/Flink)、結(jié)果存儲(chǔ)(MySQL/Redis)的全流程。
如果您想學(xué)習(xí)本課程,請(qǐng)
預(yù)約報(bào)名
如果沒找到合適的課程或有特殊培訓(xùn)需求,請(qǐng)
訂制培訓(xùn)
除培訓(xùn)外,同時(shí)提供相關(guān)技術(shù)咨詢與技術(shù)支持服務(wù),有需求請(qǐng)發(fā)需求表到郵箱soft@info-soft.cn,或致電4007991916
技術(shù)服務(wù)需求表點(diǎn)擊在線申請(qǐng)
服務(wù)特點(diǎn):
海量專家資源,精準(zhǔn)匹配相關(guān)行業(yè),相關(guān)項(xiàng)目專家,針對(duì)實(shí)際需求,顧問式咨詢,互動(dòng)式授課,案例教學(xué),小班授課,實(shí)際項(xiàng)目演示,快捷高效,省時(shí)省力省錢。
專家力量:
中國(guó)科學(xué)院軟件研究所,計(jì)算研究所高級(jí)研究人員
oracle,微軟,vmware,MSC,Ansys,candence,Altium,達(dá)索等大型公司高級(jí)工程師,項(xiàng)目經(jīng)理,技術(shù)支持專家
中科信軟培訓(xùn)中心,資深專家或講師
大多名牌大學(xué),碩士以上學(xué)歷,相關(guān)技術(shù)專業(yè),理論素養(yǎng)豐富
多年實(shí)際項(xiàng)目經(jīng)歷,大型項(xiàng)目實(shí)戰(zhàn)案例,熱情,樂于技術(shù)分享
針對(duì)客戶實(shí)際需求,案例教學(xué),互動(dòng)式溝通,學(xué)有所獲