數(shù)據(jù)湖(Delta Lake/Iceberg)構建與治理培訓課程
-
-
【培訓對象】
數(shù)據(jù)平臺架構師、數(shù)據(jù)湖工程師、大數(shù)據(jù)開發(fā)人員,希望解決傳統(tǒng)數(shù)據(jù)倉庫局限性,構建統(tǒng)一的數(shù)據(jù)湖平臺。
-
-
【培訓目標】
一、 理解數(shù)據(jù)湖的核心概念及其與數(shù)據(jù)倉庫的差異,熟悉Delta Lake、Iceberg、Hudi等主流數(shù)據(jù)湖表格式。
二、 掌握數(shù)據(jù)湖的ACID事務、Schema演化、Time Travel等核心特性的原理與應用。
三、 能夠基于數(shù)據(jù)湖技術構建支持流批一體、支持多種計算引擎的統(tǒng)一數(shù)據(jù)存儲和管理平臺。
四、 學會對數(shù)據(jù)湖中的數(shù)據(jù)進行有效治理,包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、權限控制等。
-
-
【培訓內(nèi)容介紹】
一、 數(shù)據(jù)湖概念與演進:從數(shù)據(jù)倉庫到數(shù)據(jù)湖再到湖倉一體,數(shù)據(jù)湖的核心價值(存儲多結構數(shù)據(jù)、支持多種計算引擎、TCO)。
二、 數(shù)據(jù)湖表格式概述:Delta Lake、Apache Iceberg、Apache Hudi三大主流格式的對比與發(fā)展趨勢。
三、 Delta Lake深度解析:事務日志、ACID事務、Schema強制與演化、Time Travel、Z-Order優(yōu)化。
四、 Delta Lake實戰(zhàn):在Spark中集成Delta Lake,進行讀寫操作,利用其特性解決數(shù)據(jù)一致性問題。
五、 Apache Iceberg深度解析:Iceberg的表格式規(guī)范、隱藏分區(qū)、分區(qū)演化、快照隔離、樂觀并發(fā)控制。
六、 Apache Iceberg實戰(zhàn):在Spark/Flink中集成Iceberg,實現(xiàn)高效的流批讀寫和精確的增量讀取。
七、 數(shù)據(jù)湖計算引擎集成:如何讓Spark、Flink、Trino/Presto、Hive無縫讀寫數(shù)據(jù)湖表。
八、 流批一體在數(shù)據(jù)湖上的實踐:利用Flink將實時數(shù)據(jù)流寫入Iceberg/Delta表,實現(xiàn)分鐘級數(shù)據(jù)可見性。
九、 數(shù)據(jù)湖構建實戰(zhàn):在對象存儲(如MinIO/S3/HDFS)上搭建數(shù)據(jù)湖平臺,配置元數(shù)據(jù)服務。
十、 數(shù)據(jù)湖治理:元數(shù)據(jù)管理(跟蹤表的Schema和歷史)、數(shù)據(jù)質(zhì)量監(jiān)控(在寫入時檢查數(shù)據(jù)質(zhì)量)、數(shù)據(jù)安全與權限控制(對接Ranger)。
十一、 數(shù)據(jù)湖上的數(shù)據(jù)科學:如何利用數(shù)據(jù)湖存儲的特征數(shù)據(jù)和模型,支持機器學習訓練。
十二、 實戰(zhàn)演練:基于開源組件搭建一個小型數(shù)據(jù)湖平臺,演示從數(shù)據(jù)攝入、流批處理、到數(shù)據(jù)查詢和治理的全流程。
如果您想學習本課程,請
預約報名
如果沒找到合適的課程或有特殊培訓需求,請
訂制培訓
除培訓外,同時提供相關技術咨詢與技術支持服務,有需求請發(fā)需求表到郵箱soft@info-soft.cn,或致電4007991916
技術服務需求表點擊在線申請
服務特點:
海量專家資源,精準匹配相關行業(yè),相關項目專家,針對實際需求,顧問式咨詢,互動式授課,案例教學,小班授課,實際項目演示,快捷高效,省時省力省錢。
專家力量:
中國科學院軟件研究所,計算研究所高級研究人員
oracle,微軟,vmware,MSC,Ansys,candence,Altium,達索等大型公司高級工程師,項目經(jīng)理,技術支持專家
中科信軟培訓中心,資深專家或講師
大多名牌大學,碩士以上學歷,相關技術專業(yè),理論素養(yǎng)豐富
多年實際項目經(jīng)歷,大型項目實戰(zhàn)案例,熱情,樂于技術分享
針對客戶實際需求,案例教學,互動式溝通,學有所獲