美女国产精品,香蕉人妻AV在线看,日韩1区手机在线观看,日本精品二区,在线伊人青青国产,国产激情四射夜夜,91人妻福利久久视频,日韩精品亚洲香蕉,在线99第一页

課程培訓(xùn)
大數(shù)據(jù)建模與挖掘培訓(xùn)課程6

 

大數(shù)據(jù)建模與挖掘培訓(xùn)課程大綱

 

培訓(xùn)對象

  • 數(shù)據(jù)分析師/數(shù)據(jù)挖掘工程師/算法工程師

  • 大數(shù)據(jù)系統(tǒng)開發(fā)部、運營分析部、業(yè)務(wù)支撐部等相關(guān)人員

  • 需要從數(shù)據(jù)中挖掘價值的產(chǎn)品經(jīng)理/業(yè)務(wù)人員

  • 金融/電商/電信/互聯(lián)網(wǎng)等行業(yè)的數(shù)據(jù)從業(yè)者

  • 希望提升數(shù)據(jù)建模與分析能力的職場人士

 

培訓(xùn)目標(biāo)
使學(xué)員系統(tǒng)掌握大數(shù)據(jù)建模與分析挖掘的核心方法論與完整流程,理解從業(yè)務(wù)理解、數(shù)據(jù)探索、特征工程到模型構(gòu)建與評估的全鏈路技術(shù)
;熟練運用主流大數(shù)據(jù)平臺工具(Hadoop/Spark/Hive)進(jìn)行分布式數(shù)據(jù)處理與挖掘;掌握分類、聚類、回歸、推薦、時序預(yù)測等經(jīng)典算法的原理與實戰(zhàn)應(yīng)用;能夠結(jié)合具體業(yè)務(wù)場景(客戶流失預(yù)警、電商推薦、金融風(fēng)控等)完成數(shù)據(jù)挖掘項目,提升數(shù)據(jù)驅(qū)動業(yè)務(wù)決策的能力。


 

培訓(xùn)內(nèi)容介紹

 

一、數(shù)據(jù)建模概述與方法論

1.1 數(shù)據(jù)建模概念:數(shù)據(jù)建模解決的核心問題;為什么要數(shù)據(jù)建模;什么是邏輯數(shù)據(jù)模型;模型設(shè)計的完整流程。

1.2 預(yù)測建模六步法:選擇模型(基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型);特征工程(選擇對目標(biāo)變量有顯著影響的屬性);訓(xùn)練模型(采用合適算法尋找到最優(yōu)參數(shù));評估模型(判斷模型是否可用);優(yōu)化模型(評估結(jié)果不理想時的優(yōu)化策略);應(yīng)用模型(評估通過后應(yīng)用于業(yè)務(wù)場景)。

1.3 數(shù)據(jù)挖掘核心任務(wù):數(shù)據(jù)挖掘的五大核心任務(wù)(分類/聚類/回歸/關(guān)聯(lián)規(guī)則/時序預(yù)測);定量預(yù)測模型(回歸預(yù)測、時序預(yù)測);定性預(yù)測模型(邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機等)。

 

二、大數(shù)據(jù)平臺分析與挖掘工具

2.1 平臺架構(gòu):業(yè)界主流基于Hadoop和Spark的大數(shù)據(jù)分析挖掘解決方案;Hadoop生態(tài)體系與數(shù)據(jù)倉庫工具Hive、Tez、Kylin、Presto;Spark實時數(shù)據(jù)倉庫工具Spark SQL。

2.2 挖掘工具:Spark機器學(xué)習(xí)與數(shù)據(jù)挖掘工具M(jìn)Llib和SparkR;R語言介紹與常用分析庫;Python數(shù)據(jù)挖掘生態(tài)(NumPy/Pandas/Matplotlib/Scikit-learn);大數(shù)據(jù)分析挖掘項目的實施步驟。

 

三、數(shù)據(jù)集成與預(yù)處理技術(shù)

3.1 數(shù)據(jù)集成:多源異構(gòu)數(shù)據(jù)采集(日志/數(shù)據(jù)庫/API);日志數(shù)據(jù)解析與導(dǎo)入導(dǎo)出;從原始數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理形成規(guī)范的數(shù)據(jù)倉庫。

3.2 數(shù)據(jù)預(yù)處理:數(shù)據(jù)清洗(缺失值處理/異常值檢測與處理/噪聲平滑);數(shù)據(jù)變換(標(biāo)準(zhǔn)化/歸一化/離散化);數(shù)據(jù)規(guī)約與特征提取

 

四、探索性數(shù)據(jù)分析與特征工程

4.1 探索性數(shù)據(jù)分析:數(shù)據(jù)探索的目標(biāo)與流程;單變量數(shù)據(jù)探索(分布/集中趨勢/離散程度);數(shù)據(jù)關(guān)聯(lián)性分析(相關(guān)性矩陣/交叉分析);數(shù)據(jù)相似性度量。

4.2 特征工程:特征工程構(gòu)建與選擇;特征選擇方法(過濾式/包裹式/嵌入式);特征提。≒CA主成分分析/因子分析);IV值篩選(評分卡使用);基于信息增益判斷(決策樹使用)。

 

五、Hive數(shù)據(jù)倉庫集群的多維分析建模

5.1 Hive架構(gòu):基于Hadoop的大型分布式數(shù)據(jù)倉庫在行業(yè)中的應(yīng)用案例;Hive數(shù)據(jù)倉庫集群的體系結(jié)構(gòu)與核心技術(shù)剖析;Hive Server工作原理與機制。

5.2 多維分析:Hive SQL剖析與應(yīng)用實踐;Hive數(shù)據(jù)倉庫表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出;Hive數(shù)據(jù)倉庫報表設(shè)計;將原始日志數(shù)據(jù)集加載至Hadoop+Hive集群。

 

六、分類預(yù)測模型(上)——邏輯回歸與決策樹

6.1 邏輯回歸:邏輯回歸的適用場景;邏輯回歸的模型原理(Sigmoid函數(shù)/最大似然估計);二項與多項邏輯回歸;邏輯回歸系數(shù)解讀(優(yōu)勢比);SAS/EM邏輯回歸節(jié)點配置。

6.2 決策樹模型:決策樹算法(C5.0/CHAID/CART/QUEST);構(gòu)建決策樹的三個關(guān)鍵問題(如何選擇最佳屬性/如何分裂變量/修剪決策樹);決策樹在客戶流失預(yù)警、風(fēng)險識別中的應(yīng)用;Spark決策樹算法實現(xiàn)。

 

七、分類預(yù)測模型(下)——神經(jīng)網(wǎng)絡(luò)與支持向量機

7.1 神經(jīng)網(wǎng)絡(luò)模型:人工神經(jīng)網(wǎng)絡(luò)基本原理;神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與分類幾何意義;BP反向傳播網(wǎng)絡(luò)(MLP);徑向基網(wǎng)絡(luò)(RBF);神經(jīng)網(wǎng)絡(luò)在信用卡欺詐檢測中的應(yīng)用。

7.2 支持向量機:SVM基本原理(最大邊界超平面);線性可分與線性不可分問題;核函數(shù)技巧(線性核/多項式核/徑向基核);維災(zāi)難與核函數(shù);Spark SVM程序設(shè)計。

7.3 其他分類算法:樸素貝葉斯分類器(貝葉斯原理/條件概率計算/拉普拉斯修正);K-近鄰(KNN)算法;判別分析(DA)。

 

八、模型評估與集成優(yōu)化

8.1 模型評估指標(biāo):兩大矩陣(混淆矩陣、代價矩陣);六大指標(biāo)(準(zhǔn)確率/召回率/精確率/F1值/Lift值/特異性);三條曲線(ROC曲線與AUC、PR曲線與BEP、KS曲線與KS值)。

8.2 模型驗證方法:留出法(Hold-Out);K折交叉驗證(K-fold cross validation);自助采樣法(Bootstrapping)。

8.3 集成優(yōu)化:集成學(xué)習(xí)思想(單獨構(gòu)建多個弱分類器組合投票);Bagging集成(隨機森林RF);Boosting集成(AdaBoost/GBDT/XGBoost);Stacking集成。

 

九、聚類分析建模

9.1 聚類算法:聚類問題與應(yīng)用場景(客戶分群/圖像分割/異常檢測);K-Means聚類原理(肘部法則/輪廓系數(shù));層次聚類(凝聚式/分裂式/樹狀圖);DBSCAN密度聚類;EM聚類(期望最大化);Canopy聚類。

9.2 平臺實現(xiàn):Spark MLlib聚類算法實現(xiàn);航空公司客戶價值分析案例。

 

十、關(guān)聯(lián)規(guī)則與推薦系統(tǒng)

10.1 關(guān)聯(lián)規(guī)則挖掘:關(guān)聯(lián)規(guī)則基本概念(支持度/置信度/提升度);Apriori算法原理與FP-Growth算法;購物籃分析與商品捆綁策略;中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘案例。

10.2 推薦系統(tǒng):推薦算法原理(Item-based/User-based協(xié)同過濾);Spark協(xié)同過濾算法實現(xiàn);交叉銷售推薦模型;電子商務(wù)智能推薦服務(wù)案例。

 

十一、時序預(yù)測與回歸分析

11.1 時序預(yù)測:回歸預(yù)測與時序預(yù)測對比;因素分解思想與平穩(wěn)性檢驗;移動平均(MA):一次/二次/加權(quán)移動平均;指數(shù)平滑(ES):一次/二次/三次指數(shù)平滑;溫特斯季節(jié)預(yù)測模型(Holt-Winters加法/乘法模型);ARIMA模型(AR(p)/MA(q)/ARMA(p,q))。

11.2 回歸分析:線性回歸(一元/多元);非線性回歸;基于SparkR實現(xiàn)回歸分析;異常點檢測與預(yù)測評估。

 

十二、綜合實戰(zhàn):全流程大數(shù)據(jù)挖掘項目

12.1 電力竊漏電用戶自動識別:背景與挖掘目標(biāo);數(shù)據(jù)抽取與探索;數(shù)據(jù)清洗與缺失值處理;數(shù)據(jù)變換;模型構(gòu)建與分析。

12.2 電商產(chǎn)品評論數(shù)據(jù)情感分析:背景與挖掘目標(biāo);數(shù)據(jù)獲取;文本切詞;評論數(shù)據(jù)情感分析。

12.3 基于基站定位數(shù)據(jù)的商圈分析:挖掘背景與目標(biāo);分析方法與過程;數(shù)據(jù)預(yù)處理;模型構(gòu)建與分析

12.4 項目總結(jié)與報告撰寫:數(shù)據(jù)挖掘項目文檔規(guī)范;面向業(yè)務(wù)人員的成果匯報技巧;模型落地與監(jiān)控機制;項目復(fù)盤與經(jīng)驗總結(jié)。




如果您想學(xué)習(xí)本課程,請預(yù)約報名
如果沒找到合適的課程或有特殊培訓(xùn)需求,請訂制培訓(xùn)
除培訓(xùn)外,同時提供相關(guān)技術(shù)咨詢與技術(shù)支持服務(wù),有需求請發(fā)需求表到郵箱soft@info-soft.cn,或致電4007991916
技術(shù)服務(wù)需求表點擊在線申請

服務(wù)特點:
海量專家資源,精準(zhǔn)匹配相關(guān)行業(yè),相關(guān)項目專家,針對實際需求,顧問式咨詢,互動式授課,案例教學(xué),小班授課,實際項目演示,快捷高效,省時省力省錢。

專家力量:
中國科學(xué)院軟件研究所,計算研究所高級研究人員
oracle,微軟,vmware,MSC,Ansys,candence,Altium,達(dá)索等大型公司高級工程師,項目經(jīng)理,技術(shù)支持專家
中科信軟培訓(xùn)中心,資深專家或講師
大多名牌大學(xué),碩士以上學(xué)歷,相關(guān)技術(shù)專業(yè),理論素養(yǎng)豐富
多年實際項目經(jīng)歷,大型項目實戰(zhàn)案例,熱情,樂于技術(shù)分享
針對客戶實際需求,案例教學(xué),互動式溝通,學(xué)有所獲
聯(lián)系我們 更多>>

咨詢電話010-62883247

                4007991916

咨詢郵箱:soft@info-soft.cn  

 

  微信咨詢

隨時聽講課

聚焦技術(shù)實踐

訂制培訓(xùn) 更多>>
图木舒克市| 沙雅县| 闽侯县| 山丹县| 东乌| 岑巩县| 建始县| 枣强县| 那曲县| 鹤峰县| 新营市| 乌兰浩特市| 会泽县| 鸡泽县| 连江县| 西乡县| 闽清县| 阿鲁科尔沁旗| 凤庆县| 中方县| 老河口市| 老河口市| 衢州市| 安泽县| 安西县| 尉氏县| 河间市| 合山市| 望奎县| 黔江区| 宜良县| 牙克石市| 根河市| 高安市| 宣汉县| 毕节市| 洛宁县| 依兰县| 大埔区| 湘潭市| 肃宁县|