
|
課程培訓(xùn)
|
大數(shù)據(jù)建模與挖掘培訓(xùn)課程6
大數(shù)據(jù)建模與挖掘培訓(xùn)課程大綱
培訓(xùn)對象:
培訓(xùn)目標(biāo):
培訓(xùn)內(nèi)容介紹:
一、數(shù)據(jù)建模概述與方法論 1.1 數(shù)據(jù)建模概念:數(shù)據(jù)建模解決的核心問題;為什么要數(shù)據(jù)建模;什么是邏輯數(shù)據(jù)模型;模型設(shè)計的完整流程。 1.2 預(yù)測建模六步法:選擇模型(基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型);特征工程(選擇對目標(biāo)變量有顯著影響的屬性);訓(xùn)練模型(采用合適算法尋找到最優(yōu)參數(shù));評估模型(判斷模型是否可用);優(yōu)化模型(評估結(jié)果不理想時的優(yōu)化策略);應(yīng)用模型(評估通過后應(yīng)用于業(yè)務(wù)場景)。 1.3 數(shù)據(jù)挖掘核心任務(wù):數(shù)據(jù)挖掘的五大核心任務(wù)(分類/聚類/回歸/關(guān)聯(lián)規(guī)則/時序預(yù)測);定量預(yù)測模型(回歸預(yù)測、時序預(yù)測);定性預(yù)測模型(邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機等)。
二、大數(shù)據(jù)平臺分析與挖掘工具 2.1 平臺架構(gòu):業(yè)界主流基于Hadoop和Spark的大數(shù)據(jù)分析挖掘解決方案;Hadoop生態(tài)體系與數(shù)據(jù)倉庫工具Hive、Tez、Kylin、Presto;Spark實時數(shù)據(jù)倉庫工具Spark SQL。 2.2 挖掘工具:Spark機器學(xué)習(xí)與數(shù)據(jù)挖掘工具M(jìn)Llib和SparkR;R語言介紹與常用分析庫;Python數(shù)據(jù)挖掘生態(tài)(NumPy/Pandas/Matplotlib/Scikit-learn);大數(shù)據(jù)分析挖掘項目的實施步驟。
三、數(shù)據(jù)集成與預(yù)處理技術(shù) 3.1 數(shù)據(jù)集成:多源異構(gòu)數(shù)據(jù)采集(日志/數(shù)據(jù)庫/API);日志數(shù)據(jù)解析與導(dǎo)入導(dǎo)出;從原始數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理形成規(guī)范的數(shù)據(jù)倉庫。 3.2 數(shù)據(jù)預(yù)處理:數(shù)據(jù)清洗(缺失值處理/異常值檢測與處理/噪聲平滑);數(shù)據(jù)變換(標(biāo)準(zhǔn)化/歸一化/離散化);數(shù)據(jù)規(guī)約與特征提取。
四、探索性數(shù)據(jù)分析與特征工程 4.1 探索性數(shù)據(jù)分析:數(shù)據(jù)探索的目標(biāo)與流程;單變量數(shù)據(jù)探索(分布/集中趨勢/離散程度);數(shù)據(jù)關(guān)聯(lián)性分析(相關(guān)性矩陣/交叉分析);數(shù)據(jù)相似性度量。 4.2 特征工程:特征工程構(gòu)建與選擇;特征選擇方法(過濾式/包裹式/嵌入式);特征提。≒CA主成分分析/因子分析);IV值篩選(評分卡使用);基于信息增益判斷(決策樹使用)。
五、Hive數(shù)據(jù)倉庫集群的多維分析建模 5.1 Hive架構(gòu):基于Hadoop的大型分布式數(shù)據(jù)倉庫在行業(yè)中的應(yīng)用案例;Hive數(shù)據(jù)倉庫集群的體系結(jié)構(gòu)與核心技術(shù)剖析;Hive Server工作原理與機制。 5.2 多維分析:Hive SQL剖析與應(yīng)用實踐;Hive數(shù)據(jù)倉庫表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出;Hive數(shù)據(jù)倉庫報表設(shè)計;將原始日志數(shù)據(jù)集加載至Hadoop+Hive集群。
六、分類預(yù)測模型(上)——邏輯回歸與決策樹 6.1 邏輯回歸:邏輯回歸的適用場景;邏輯回歸的模型原理(Sigmoid函數(shù)/最大似然估計);二項與多項邏輯回歸;邏輯回歸系數(shù)解讀(優(yōu)勢比);SAS/EM邏輯回歸節(jié)點配置。 6.2 決策樹模型:決策樹算法(C5.0/CHAID/CART/QUEST);構(gòu)建決策樹的三個關(guān)鍵問題(如何選擇最佳屬性/如何分裂變量/修剪決策樹);決策樹在客戶流失預(yù)警、風(fēng)險識別中的應(yīng)用;Spark決策樹算法實現(xiàn)。
七、分類預(yù)測模型(下)——神經(jīng)網(wǎng)絡(luò)與支持向量機 7.1 神經(jīng)網(wǎng)絡(luò)模型:人工神經(jīng)網(wǎng)絡(luò)基本原理;神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與分類幾何意義;BP反向傳播網(wǎng)絡(luò)(MLP);徑向基網(wǎng)絡(luò)(RBF);神經(jīng)網(wǎng)絡(luò)在信用卡欺詐檢測中的應(yīng)用。 7.2 支持向量機:SVM基本原理(最大邊界超平面);線性可分與線性不可分問題;核函數(shù)技巧(線性核/多項式核/徑向基核);維災(zāi)難與核函數(shù);Spark SVM程序設(shè)計。 7.3 其他分類算法:樸素貝葉斯分類器(貝葉斯原理/條件概率計算/拉普拉斯修正);K-近鄰(KNN)算法;判別分析(DA)。
八、模型評估與集成優(yōu)化 8.1 模型評估指標(biāo):兩大矩陣(混淆矩陣、代價矩陣);六大指標(biāo)(準(zhǔn)確率/召回率/精確率/F1值/Lift值/特異性);三條曲線(ROC曲線與AUC、PR曲線與BEP、KS曲線與KS值)。 8.2 模型驗證方法:留出法(Hold-Out);K折交叉驗證(K-fold cross validation);自助采樣法(Bootstrapping)。 8.3 集成優(yōu)化:集成學(xué)習(xí)思想(單獨構(gòu)建多個弱分類器組合投票);Bagging集成(隨機森林RF);Boosting集成(AdaBoost/GBDT/XGBoost);Stacking集成。
九、聚類分析建模 9.1 聚類算法:聚類問題與應(yīng)用場景(客戶分群/圖像分割/異常檢測);K-Means聚類原理(肘部法則/輪廓系數(shù));層次聚類(凝聚式/分裂式/樹狀圖);DBSCAN密度聚類;EM聚類(期望最大化);Canopy聚類。 9.2 平臺實現(xiàn):Spark MLlib聚類算法實現(xiàn);航空公司客戶價值分析案例。
十、關(guān)聯(lián)規(guī)則與推薦系統(tǒng) 10.1 關(guān)聯(lián)規(guī)則挖掘:關(guān)聯(lián)規(guī)則基本概念(支持度/置信度/提升度);Apriori算法原理與FP-Growth算法;購物籃分析與商品捆綁策略;中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘案例。 10.2 推薦系統(tǒng):推薦算法原理(Item-based/User-based協(xié)同過濾);Spark協(xié)同過濾算法實現(xiàn);交叉銷售推薦模型;電子商務(wù)智能推薦服務(wù)案例。
十一、時序預(yù)測與回歸分析 11.1 時序預(yù)測:回歸預(yù)測與時序預(yù)測對比;因素分解思想與平穩(wěn)性檢驗;移動平均(MA):一次/二次/加權(quán)移動平均;指數(shù)平滑(ES):一次/二次/三次指數(shù)平滑;溫特斯季節(jié)預(yù)測模型(Holt-Winters加法/乘法模型);ARIMA模型(AR(p)/MA(q)/ARMA(p,q))。 11.2 回歸分析:線性回歸(一元/多元);非線性回歸;基于SparkR實現(xiàn)回歸分析;異常點檢測與預(yù)測評估。
十二、綜合實戰(zhàn):全流程大數(shù)據(jù)挖掘項目 12.1 電力竊漏電用戶自動識別:背景與挖掘目標(biāo);數(shù)據(jù)抽取與探索;數(shù)據(jù)清洗與缺失值處理;數(shù)據(jù)變換;模型構(gòu)建與分析。 12.2 電商產(chǎn)品評論數(shù)據(jù)情感分析:背景與挖掘目標(biāo);數(shù)據(jù)獲取;文本切詞;評論數(shù)據(jù)情感分析。 12.3 基于基站定位數(shù)據(jù)的商圈分析:挖掘背景與目標(biāo);分析方法與過程;數(shù)據(jù)預(yù)處理;模型構(gòu)建與分析。 12.4 項目總結(jié)與報告撰寫:數(shù)據(jù)挖掘項目文檔規(guī)范;面向業(yè)務(wù)人員的成果匯報技巧;模型落地與監(jiān)控機制;項目復(fù)盤與經(jīng)驗總結(jié)。 如果您想學(xué)習(xí)本課程,請預(yù)約報名
如果沒找到合適的課程或有特殊培訓(xùn)需求,請訂制培訓(xùn) 除培訓(xùn)外,同時提供相關(guān)技術(shù)咨詢與技術(shù)支持服務(wù),有需求請發(fā)需求表到郵箱soft@info-soft.cn,或致電4007991916 技術(shù)服務(wù)需求表點擊在線申請 服務(wù)特點: 海量專家資源,精準(zhǔn)匹配相關(guān)行業(yè),相關(guān)項目專家,針對實際需求,顧問式咨詢,互動式授課,案例教學(xué),小班授課,實際項目演示,快捷高效,省時省力省錢。 專家力量: 中國科學(xué)院軟件研究所,計算研究所高級研究人員 oracle,微軟,vmware,MSC,Ansys,candence,Altium,達(dá)索等大型公司高級工程師,項目經(jīng)理,技術(shù)支持專家 中科信軟培訓(xùn)中心,資深專家或講師 大多名牌大學(xué),碩士以上學(xué)歷,相關(guān)技術(shù)專業(yè),理論素養(yǎng)豐富 多年實際項目經(jīng)歷,大型項目實戰(zhàn)案例,熱情,樂于技術(shù)分享 針對客戶實際需求,案例教學(xué),互動式溝通,學(xué)有所獲 |
|