(1)大數(shù)據(jù)技術(shù)概述與開發(fā)環(huán)境準(zhǔn)備:了解大數(shù)據(jù)的基本概念、發(fā)展歷程與核心價值。掌握大數(shù)據(jù)處理框架的分類與選型策略:批處理框架(Hadoop MapReduce、Spark)、流處理框架(Flink、Storm)、混合處理框架(Spark Streaming)。學(xué)習(xí)大數(shù)據(jù)技術(shù)生態(tài)全景圖:數(shù)據(jù)采集層(Flume、Kafka)、數(shù)據(jù)存儲層(HDFS、HBase)、數(shù)據(jù)處理層(MapReduce、Spark、Hive)、數(shù)據(jù)可視化層(ECharts、Superset)。搭建開發(fā)環(huán)境:VMware虛擬機(jī)安裝、Linux系統(tǒng)(CentOS/Ubuntu)配置、網(wǎng)絡(luò)設(shè)置與SSH免密登錄配置。
(2)Hadoop分布式集群環(huán)境搭建:掌握Hadoop的核心架構(gòu)與組件:HDFS分布式文件系統(tǒng)、YARN資源調(diào)度框架、MapReduce計算框架。學(xué)習(xí)Hadoop完全分布式集群的安裝與配置流程:JDK環(huán)境配置、Hadoop安裝包解壓與配置、核心配置文件修改(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)。掌握集群啟動與驗證方法:NameNode格式化、各節(jié)點(diǎn)服務(wù)啟動、Web UI訪問驗證。實踐完成3節(jié)點(diǎn)Hadoop集群的搭建與測試。
(3)HDFS分布式存儲系統(tǒng)實戰(zhàn):深入理解HDFS的架構(gòu)設(shè)計:NameNode元數(shù)據(jù)管理、DataNode數(shù)據(jù)存儲、SecondaryNameNode輔助節(jié)點(diǎn)。掌握HDFS的讀寫流程與數(shù)據(jù)副本機(jī)制。學(xué)習(xí)HDFS Shell命令行操作:文件上傳下載、目錄創(chuàng)建刪除、權(quán)限管理、文件系統(tǒng)檢查。掌握HDFS Java API開發(fā):使用FileSystem類實現(xiàn)文件的創(chuàng)建、讀寫、追加、刪除等操作。實踐完成基于HDFS的文件管理程序開發(fā)。
(4)MapReduce離線計算框架實戰(zhàn):理解MapReduce的設(shè)計思想:分而治之、計算向數(shù)據(jù)移動。掌握MapReduce的工作流程:輸入分片、Map階段、Shuffle階段、Reduce階段。學(xué)習(xí)MapReduce編程模型:Mapper類實現(xiàn)、Reducer類實現(xiàn)、Driver驅(qū)動類編寫。掌握自定義數(shù)據(jù)類型與分區(qū)器的實現(xiàn)方法。實踐完成詞頻統(tǒng)計、倒排索引、數(shù)據(jù)去重等經(jīng)典MapReduce案例。
(5)Hive數(shù)據(jù)倉庫設(shè)計與開發(fā):了解數(shù)據(jù)倉庫的核心概念與分層架構(gòu)(ODS原始數(shù)據(jù)層、DWD明細(xì)數(shù)據(jù)層、DWS數(shù)據(jù)服務(wù)層、ADS數(shù)據(jù)應(yīng)用層)。掌握Hive的安裝與配置:MySQL元數(shù)據(jù)存儲配置、Hive服務(wù)啟動。學(xué)習(xí)Hive數(shù)據(jù)定義語言(DDL):數(shù)據(jù)庫與表創(chuàng)建、內(nèi)部表與外部表區(qū)別、分區(qū)表與分桶表設(shè)計。掌握Hive數(shù)據(jù)操作語言(DML):數(shù)據(jù)加載與插入、數(shù)據(jù)查詢與過濾、多表關(guān)聯(lián)查詢。學(xué)習(xí)HiveQL高級特性:窗口函數(shù)、自定義函數(shù)(UDF)開發(fā)。實踐完成電商用戶行為數(shù)據(jù)的Hive分析。
(6)數(shù)據(jù)采集系統(tǒng)構(gòu)建(Flume+Kafka):掌握分布式日志采集工具Flume的工作原理與架構(gòu):Source、Channel、Sink三大組件。學(xué)習(xí)Flume的安裝配置與多場景應(yīng)用:采集端口數(shù)據(jù)、采集目錄文件、采集Kafka數(shù)據(jù)。理解Kafka分布式消息隊列的核心概念:Producer、Consumer、Topic、Partition、Broker。學(xué)習(xí)Kafka集群的搭建與命令行操作:主題創(chuàng)建、消息生產(chǎn)與消費(fèi)。實踐構(gòu)建Flume-Kafka-Flume數(shù)據(jù)采集管道,實現(xiàn)日志數(shù)據(jù)的實時采集與緩沖。
(7)數(shù)據(jù)遷移工具Sqoop與DataX應(yīng)用:了解數(shù)據(jù)遷移工具在Hadoop生態(tài)中的重要作用。掌握Sqoop的安裝與配置,學(xué)習(xí)MySQL與HDFS/Hive之間的數(shù)據(jù)導(dǎo)入導(dǎo)出操作。學(xué)習(xí)DataX的安裝與使用,掌握異構(gòu)數(shù)據(jù)源間的數(shù)據(jù)同步方法。實踐完成關(guān)系型數(shù)據(jù)庫與大數(shù)據(jù)平臺間的數(shù)據(jù)遷移任務(wù)。
(8)Zookeeper分布式協(xié)調(diào)服務(wù):理解Zookeeper的核心概念與應(yīng)用場景:分布式協(xié)調(diào)、配置管理、命名服務(wù)、集群管理。掌握Zookeeper集群的安裝與配置,學(xué)習(xí)Zookeeper Shell命令行操作。了解Zookeeper在Hadoop、Kafka等組件中的協(xié)調(diào)作用。實踐完成Zookeeper集群的搭建與驗證。
(9)Spark分布式計算框架實戰(zhàn):了解Spark與MapReduce的對比優(yōu)勢:內(nèi)存計算、DAG執(zhí)行引擎、豐富的數(shù)據(jù)源支持。掌握Spark的安裝與配置,學(xué)習(xí)Spark的運(yùn)行模式(Local、Standalone、YARN)。理解Spark Core的核心概念:RDD(彈性分布式數(shù)據(jù)集)的創(chuàng)建、轉(zhuǎn)換操作(Transformation)與行動操作(Action)、寬窄依賴、Stage劃分。學(xué)習(xí)Spark SQL的使用:DataFrame與Dataset API、Spark SQL操作Hive數(shù)據(jù)。實踐完成基于Spark的電商數(shù)據(jù)分析任務(wù)。
(10)實時計算框架Flink入門:了解流處理與批處理的統(tǒng)一框架Flink的核心優(yōu)勢。掌握Flink的基本架構(gòu)與安裝配置。學(xué)習(xí)DataStream API的使用:數(shù)據(jù)源接入、轉(zhuǎn)換操作、窗口計算、結(jié)果輸出。理解Flink的事件時間處理機(jī)制與狀態(tài)管理。實踐完成簡單的實時計算任務(wù)開發(fā)。
(11)數(shù)據(jù)可視化與BI工具應(yīng)用:掌握數(shù)據(jù)可視化的核心原則與圖表選型策略。學(xué)習(xí)Python數(shù)據(jù)可視化庫的使用:Matplotlib、PyEcharts的基礎(chǔ)繪圖方法。了解Superset等BI工具的安裝配置與儀表盤制作。實踐完成電商數(shù)據(jù)分析結(jié)果的可視化大屏展示。
(12)綜合項目實戰(zhàn):企業(yè)級大數(shù)據(jù)平臺開發(fā):結(jié)合所學(xué)知識,完成一個完整的企業(yè)級大數(shù)據(jù)項目(如電商用戶行為數(shù)據(jù)分析平臺、金融風(fēng)控數(shù)據(jù)系統(tǒng)、智慧社區(qū)實時數(shù)倉)。涵蓋需求分析、環(huán)境搭建、數(shù)據(jù)采集、離線/實時處理、數(shù)據(jù)可視化、性能優(yōu)化的全流程。形成規(guī)范的大數(shù)據(jù)項目報告與可運(yùn)行的代碼庫。