(1)機(jī)器學(xué)習(xí)概述與數(shù)學(xué)基礎(chǔ):理解機(jī)器學(xué)習(xí)的定義、分類(監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí))及典型應(yīng)用場景;仡櫃C(jī)器學(xué)習(xí)所需的數(shù)學(xué)基礎(chǔ),包括線性代數(shù)(向量、矩陣、特征值)、概率論(條件概率、貝葉斯定理)和最優(yōu)化方法(梯度下降)的核心概念。配置Anaconda環(huán)境,安裝NumPy、Pandas、Matplotlib、Scikit-learn等核心庫。
(2)數(shù)據(jù)預(yù)處理與特征工程:掌握數(shù)據(jù)清洗的完整流程,包括缺失值處理(刪除、填充)、異常值檢測與處理、數(shù)據(jù)去重。學(xué)習(xí)特征縮放技術(shù)(標(biāo)準(zhǔn)化、歸一化、魯棒縮放),掌握類別特征編碼(獨(dú)熱編碼、標(biāo)簽編碼)和特征離散化方法。理解特征選擇(過濾式、包裹式、嵌入式)和特征提。≒CA主成分分析)的原理與實(shí)踐。
(3)數(shù)據(jù)可視化與探索性分析:使用Matplotlib和Seaborn繪制各類統(tǒng)計圖表,包括直方圖、箱線圖、散點(diǎn)圖、熱力圖、分布圖、回歸圖。學(xué)習(xí)通過可視化手段探索數(shù)據(jù)分布、發(fā)現(xiàn)特征間相關(guān)性、識別異常點(diǎn),為模型選擇提供依據(jù)。
(4)回歸算法原理與實(shí)踐:深入理解線性回歸的數(shù)學(xué)原理(最小二乘法、梯度下降),掌握多元線性回歸、多項(xiàng)式回歸的實(shí)現(xiàn)。學(xué)習(xí)嶺回歸、Lasso回歸和彈性網(wǎng)絡(luò)等正則化方法,理解它們處理過擬合和特征選擇的機(jī)制。使用評估指標(biāo)(MSE、MAE、R²)評估回歸模型性能,完成房價預(yù)測等實(shí)戰(zhàn)案例。
(5)分類算法(一):邏輯回歸與KNN:理解邏輯回歸的原理(Sigmoid函數(shù)、對數(shù)損失、決策邊界)及其與線性回歸的聯(lián)系與區(qū)別。掌握K近鄰(KNN)算法的原理(距離度量、K值選擇、投票機(jī)制)。使用Scikit-learn實(shí)現(xiàn)兩種算法,通過混淆矩陣、準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和ROC-AUC曲線全面評估分類模型。
(6)分類算法(二):決策樹與集成學(xué)習(xí):深入理解決策樹的原理(信息增益、基尼系數(shù)、剪枝策略),掌握決策樹的構(gòu)建過程和優(yōu)缺點(diǎn)。學(xué)習(xí)集成學(xué)習(xí)的兩大范式:Bagging(隨機(jī)森林)和Boosting(AdaBoost、梯度提升)。掌握隨機(jī)森林的特征重要性評估和XGBoost/LightGBM的實(shí)戰(zhàn)應(yīng)用。
(7)分類算法(三):支持向量機(jī)與樸素貝葉斯:理解支持向量機(jī)(SVM)的核心思想(最大間隔、支持向量、核技巧),掌握線性SVM和非線性SVM(多項(xiàng)式核、RBF核)的應(yīng)用場景。學(xué)習(xí)樸素貝葉斯的原理(貝葉斯定理、條件獨(dú)立性假設(shè)),掌握高斯樸素貝葉斯、多項(xiàng)式樸素貝葉斯在不同數(shù)據(jù)類型上的應(yīng)用。
(8)無監(jiān)督學(xué)習(xí):聚類算法:深入理解K-Means聚類的原理(K值選擇、距離計算、收斂條件)和局限性。學(xué)習(xí)層次聚類(凝聚式、分裂式)和DBSCAN密度聚類的工作原理。掌握輪廓系數(shù)、Calinski-Harabasz指數(shù)等聚類評估方法,實(shí)現(xiàn)客戶分群、圖像分割等實(shí)戰(zhàn)應(yīng)用。
(9)模型評估與選擇:系統(tǒng)學(xué)習(xí)模型評估的各種方法,包括留出法、交叉驗(yàn)證(K折、留一法)和自助法。理解偏差-方差權(quán)衡、過擬合與欠擬合的成因及應(yīng)對策略。掌握學(xué)習(xí)曲線和驗(yàn)證曲線的繪制與分析方法,實(shí)現(xiàn)模型的系統(tǒng)化調(diào)優(yōu)。
(10)模型調(diào)參與優(yōu)化:學(xué)習(xí)超參數(shù)與模型參數(shù)的區(qū)別,掌握網(wǎng)格搜索(Grid Search)和隨機(jī)搜索(Random Search)的實(shí)現(xiàn)方法。理解貝葉斯優(yōu)化的基本原理,使用Hyperopt等工具實(shí)現(xiàn)更高效的超參數(shù)搜索。學(xué)習(xí)模型集成的進(jìn)階技巧(投票、堆疊)。
(11)自然語言處理基礎(chǔ):了解文本數(shù)據(jù)的特征表示方法,包括詞袋模型、TF-IDF、N-gram。掌握文本預(yù)處理流程(分詞、去停用詞、詞干提。J褂脵C(jī)器學(xué)習(xí)算法實(shí)現(xiàn)文本分類(如垃圾郵件識別)和情感分析等自然語言處理任務(wù)。
(12)綜合項(xiàng)目實(shí)戰(zhàn):結(jié)合所學(xué)知識,完成一個完整的機(jī)器學(xué)習(xí)項(xiàng)目(如信用卡欺詐檢測、電商用戶流失預(yù)測、房價預(yù)測挑戰(zhàn)賽、新聞文本分類等)。涵蓋業(yè)務(wù)理解、數(shù)據(jù)探索、特征工程、模型選擇、參數(shù)調(diào)優(yōu)、結(jié)果評估和模型部署的全流程,形成規(guī)范的機(jī)器學(xué)習(xí)項(xiàng)目報告。