(1)文本分類概述與數(shù)學(xué)基礎(chǔ):了解文本分類的定義、核心任務(wù)和應(yīng)用場景(垃圾郵件檢測、情感分析、新聞主題分類、意圖識別)。掌握文本分類面臨的挑戰(zhàn):高維稀疏數(shù)據(jù)、語義復(fù)雜性、類別不平衡、特征關(guān)聯(lián)性;仡櫵璧臄(shù)學(xué)基礎(chǔ),包括線性代數(shù)(向量空間、矩陣運(yùn)算)、概率論(貝葉斯定理、條件概率)和信息論(熵、交叉熵、KL散度)的核心概念。
(2)文本預(yù)處理技術(shù):掌握原始文本清洗的完整流程,包括去除HTML標(biāo)簽、特殊符號、統(tǒng)一大小寫等。學(xué)習(xí)分詞(Tokenization)技術(shù),理解中文分詞與英文分詞的差異,掌握常用分詞工具(Jieba、NLTK、spaCy)的使用。學(xué)習(xí)停用詞過濾(Stopword Removal)、詞干提取(Stemming)和詞形還原(Lemmatization)的方法與應(yīng)用場景。
(3)文本表示與特征工程:掌握文本向量化的核心方法,包括詞袋模型(Bag of Words)的原理與實(shí)現(xiàn)、TF-IDF(詞頻-逆文檔頻率)的計(jì)算方法和應(yīng)用場景。學(xué)習(xí)N-gram特征擴(kuò)展技術(shù)捕捉局部詞序信息。理解文本表示面臨的挑戰(zhàn):維度災(zāi)難、語義鴻溝、稀疏性問題。
(4)樸素貝葉斯分類器:深入理解樸素貝葉斯的原理:基于貝葉斯定理和特征條件獨(dú)立假設(shè)。掌握三種樸素貝葉斯變體(多項(xiàng)式樸素貝葉斯、伯努利樸素貝葉斯、高斯樸素貝葉斯)的適用場景。學(xué)習(xí)拉普拉斯平滑處理未登錄詞問題,理解對數(shù)概率計(jì)算避免數(shù)值下溢。實(shí)戰(zhàn)實(shí)現(xiàn)基于樸素貝葉斯的文本分類器。
(5)支持向量機(jī)與邏輯回歸:掌握支持向量機(jī)(SVM)在文本分類中的應(yīng)用原理,理解線性SVM的間隔最大化思想和核函數(shù)(線性核、RBF核)的選擇策略。學(xué)習(xí)邏輯回歸(Logistic Regression)的概率解釋和交叉熵?fù)p失函數(shù)。對比SVM與邏輯回歸在文本分類中的優(yōu)缺點(diǎn)和適用場景。
(6)模型評估與優(yōu)化:掌握文本分類模型的評估指標(biāo)體系,包括準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)(微平均、宏平均)、ROC曲線和AUC值。學(xué)習(xí)混淆矩陣分析分類錯誤類型。掌握交叉驗(yàn)證、網(wǎng)格搜索和隨機(jī)搜索進(jìn)行超參數(shù)調(diào)優(yōu)。理解類別不平衡問題的應(yīng)對策略:過采樣(SMOTE)、欠采樣、調(diào)整類別權(quán)重。
(7)深度學(xué)習(xí)基礎(chǔ)與詞嵌入:理解神經(jīng)網(wǎng)絡(luò)在文本分類中的基礎(chǔ)架構(gòu),包括輸入層、嵌入層、隱藏層和輸出層的設(shè)計(jì)。學(xué)習(xí)詞嵌入(Word Embedding)的核心思想,掌握Word2Vec(CBOW、Skip-gram)、GloVe等預(yù)訓(xùn)練詞向量的原理與應(yīng)用。實(shí)現(xiàn)詞嵌入的可視化與相似度計(jì)算。
(8)TextCNN卷積神經(jīng)網(wǎng)絡(luò)分類:理解卷積神經(jīng)網(wǎng)絡(luò)在文本分類中的應(yīng)用原理(捕捉局部N-gram特征)。掌握TextCNN的完整架構(gòu):嵌入層、卷積層(多卷積核尺寸)、最大池化層、全連接輸出層。學(xué)習(xí)TextCNN的超參數(shù)調(diào)優(yōu)(卷積核數(shù)量、尺寸、激活函數(shù)選擇)。實(shí)戰(zhàn)實(shí)現(xiàn)基于TextCNN的文本分類模型。
(9)RNN/LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)分類:理解循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)處理序列數(shù)據(jù)的原理及其在文本分類中的應(yīng)用。掌握LSTM(長短時(shí)記憶網(wǎng)絡(luò))和GRU的門控機(jī)制及其解決梯度消失問題的優(yōu)勢。學(xué)習(xí)雙向LSTM(Bi-LSTM)捕捉上下文信息的機(jī)制。實(shí)戰(zhàn)實(shí)現(xiàn)基于LSTM的情感分析模型。
(10)注意力機(jī)制與Transformer:理解注意力機(jī)制(Attention)的核心思想(查詢-鍵-值機(jī)制)及其在文本分類中的應(yīng)用。掌握Transformer的編碼器架構(gòu):自注意力(Self-Attention)、多頭注意力(Multi-Head Attention)、位置編碼和前饋網(wǎng)絡(luò)。學(xué)習(xí)預(yù)訓(xùn)練語言模型(BERT、RoBERTa)的原理及其在文本分類中的微調(diào)方法。
(11)層次化文本分類與多標(biāo)簽分類:理解層次化文本分類(Hierarchical Classification)的應(yīng)用場景(如新聞分類的層級體系)。掌握層次化分類的兩種策略:扁平化方法和層次化方法。學(xué)習(xí)多標(biāo)簽分類(Multi-label Classification)的問題定義和評估指標(biāo)。掌握多標(biāo)簽分類的算法適配策略:問題轉(zhuǎn)換方法和算法自適應(yīng)方法。
(12)綜合項(xiàng)目實(shí)戰(zhàn):結(jié)合所學(xué)知識,完成一個(gè)完整的文本分類項(xiàng)目(如情感分析系統(tǒng)、新聞主題分類器、意圖識別引擎)。涵蓋數(shù)據(jù)采集與標(biāo)注、預(yù)處理與特征工程、多算法對比實(shí)驗(yàn)、模型調(diào)優(yōu)與選擇、模型部署與API封裝的全流程,形成規(guī)范的文本分類項(xiàng)目報(bào)告。