(1)Transformer架構(gòu)深度解析:深入理解Transformer架構(gòu)的核心技術(shù)邏輯,掌握自注意力機(jī)制(Self-Attention)的數(shù)學(xué)原理、計(jì)算過(guò)程與作用。學(xué)習(xí)多頭注意力(Multi-Head Attention)的并行計(jì)算機(jī)制、位置編碼(Positional Encoding)的設(shè)計(jì)思想(正弦編碼、RoPE旋轉(zhuǎn)位置編碼)。通過(guò)代碼實(shí)現(xiàn)驗(yàn)證對(duì)各模塊的理解,掌握編碼器與解碼器的架構(gòu)差異及其在BERT與GPT中的應(yīng)用。
(2)大模型預(yù)訓(xùn)練技術(shù)體系:掌握大模型預(yù)訓(xùn)練的完整流程:數(shù)據(jù)工程、模型架構(gòu)、訓(xùn)練策略。學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)源的獲取與處理方法:通用數(shù)據(jù)(網(wǎng)頁(yè)、書籍)與專業(yè)數(shù)據(jù)(論文、代碼)的清洗、去重、過(guò)濾。理解預(yù)訓(xùn)練任務(wù)的設(shè)計(jì):自回歸語(yǔ)言建模(GPT)、掩碼語(yǔ)言建模(BERT)、下一句預(yù)測(cè)(NSP)。掌握損失函數(shù)、優(yōu)化器配置與訓(xùn)練穩(wěn)定性保障技術(shù)。
(3)分布式訓(xùn)練框架與優(yōu)化:掌握分布式訓(xùn)練的核心技術(shù):數(shù)據(jù)并行、張量并行、流水線并行的原理與適用場(chǎng)景。學(xué)習(xí)使用DeepSpeed的ZeRO優(yōu)化器(Stage1/2/3)大幅降低顯存占用。了解Megatron-LM在多節(jié)點(diǎn)大規(guī)模訓(xùn)練中的應(yīng)用。實(shí)踐使用DeepSpeed在單機(jī)多卡環(huán)境下訓(xùn)練大模型,對(duì)比不同ZeRO階段的顯存占用與訓(xùn)練效率。
(4)參數(shù)高效微調(diào)(PEFT)技術(shù):深入理解全參數(shù)微調(diào)與參數(shù)高效微調(diào)的適用場(chǎng)景差異。掌握LoRA(低秩適配)的核心原理:低秩矩陣分解、適配器矩陣設(shè)計(jì)、縮放系數(shù)配置。學(xué)習(xí)QLoRA的量化權(quán)重與梯度更新機(jī)制,實(shí)現(xiàn)在單GPU上微調(diào)百億參數(shù)模型。掌握P-Tuning、Adapter、Prefix Tuning等其他PEFT方法的特點(diǎn)。實(shí)踐使用PEFT庫(kù)對(duì)開(kāi)源模型進(jìn)行垂直領(lǐng)域微調(diào)。
(5)RLHF與模型對(duì)齊技術(shù):理解大模型與人類價(jià)值觀對(duì)齊的必要性。掌握RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))的三階段流程:監(jiān)督微調(diào)(SFT)、獎(jiǎng)勵(lì)模型訓(xùn)練(RM)、近端策略優(yōu)化(PPO)。學(xué)習(xí)DPO(直接偏好優(yōu)化)的簡(jiǎn)化實(shí)現(xiàn)原理。了解對(duì)齊過(guò)程中的安全挑戰(zhàn):偏見(jiàn)消除、有害內(nèi)容過(guò)濾。掌握使模型在風(fēng)格、語(yǔ)氣和安全性方面更貼近人類偏好的對(duì)齊技術(shù)。
(6)混合專家模型(MoE)架構(gòu):了解混合專家模型(Mixture-of-Experts)的核心原理與發(fā)展演進(jìn)。掌握稀疏激活專家網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制,學(xué)習(xí)門控網(wǎng)絡(luò)(Gating Network)的設(shè)計(jì)與負(fù)載均衡策略。實(shí)現(xiàn)小型MoE層,分析專家數(shù)量對(duì)模型性能和計(jì)算效率的影響。了解MoE在大規(guī)模模型(如Mixtral 8x7B)中的應(yīng)用及DeepSeek等模型的架構(gòu)創(chuàng)新。
(7)注意力機(jī)制革新與優(yōu)化:掌握注意力機(jī)制的數(shù)學(xué)原理與演進(jìn)脈絡(luò)。學(xué)習(xí)稀疏注意力、滑動(dòng)窗口注意力、FlashAttention的原理與實(shí)現(xiàn)。對(duì)比不同位置編碼(正弦編碼、可學(xué)習(xí)編碼、RoPE旋轉(zhuǎn)位置編碼)在小型Transformer上的效果差異。理解注意力復(fù)雜度分析與優(yōu)化方向,掌握KV緩存(KV Cache)的優(yōu)化原理與實(shí)現(xiàn)。
(8)數(shù)據(jù)集構(gòu)建與處理技術(shù):掌握大模型數(shù)據(jù)預(yù)處理的核心技術(shù),理解數(shù)據(jù)質(zhì)量對(duì)模型性能的決定性影響。學(xué)習(xí)使用NVIDIA NeMo Curator等工具篩選高質(zhì)量數(shù)據(jù)集并生成合成數(shù)據(jù)。掌握數(shù)據(jù)格式規(guī)范:指令微調(diào)格式(Alpaca格式)、對(duì)話格式(ShareGPT格式)。學(xué)習(xí)數(shù)據(jù)清洗、分塊、標(biāo)注與存儲(chǔ)的完整流程。
(9)持續(xù)預(yù)訓(xùn)練(CPT)技術(shù):理解持續(xù)預(yù)訓(xùn)練(Continual Pre-training)的必要性與應(yīng)用場(chǎng)景(領(lǐng)域適應(yīng)、知識(shí)更新)。學(xué)習(xí)CPT的數(shù)據(jù)準(zhǔn)備策略:高質(zhì)量數(shù)據(jù)篩選、去重、領(lǐng)域語(yǔ)料構(gòu)建。掌握使用Transformers框架進(jìn)行CPT的代碼實(shí)現(xiàn),為模型注入特定領(lǐng)域的新知識(shí)。了解CPT基模評(píng)測(cè)與選擇策略。
(10)模型量化與推理優(yōu)化:掌握模型量化的核心原理,理解不同量化精度(FP16、INT8、INT4、NF4、GPTQ、AWQ)對(duì)模型性能和推理速度的影響。學(xué)習(xí)使用AutoGPTQ、AutoAWQ等工具進(jìn)行模型量化。了解TensorRT-LLM的核心優(yōu)化技術(shù):層融合(Layer Fusion)、內(nèi)核自動(dòng)調(diào)優(yōu)。掌握vLLM的PagedAttention(分頁(yè)注意力)解決KV緩存碎片問(wèn)題的原理。
(11)大模型評(píng)估體系:掌握大模型的多維度評(píng)估方法。學(xué)習(xí)傳統(tǒng)指標(biāo)(Perplexity、BLEU、ROUGE)、指令遵循準(zhǔn)確率、模型質(zhì)量評(píng)估(MMLU、HumanEval、CEval)。了解LLM-as-a-judge評(píng)估方法和NeMo Evaluator工具的使用。通過(guò)評(píng)估識(shí)別模型訓(xùn)練與微調(diào)后的性能變化,避免災(zāi)難性遺忘。
(12)綜合項(xiàng)目實(shí)戰(zhàn):垂直領(lǐng)域大模型訓(xùn)練與微調(diào):結(jié)合所學(xué)知識(shí),完成一個(gè)完整的垂直領(lǐng)域大模型項(xiàng)目(如醫(yī)療問(wèn)答模型微調(diào)、法律文書生成模型、金融研報(bào)分析助手)。涵蓋數(shù)據(jù)準(zhǔn)備、模型選型、LoRA/QLoRA微調(diào)、分布式訓(xùn)練配置、性能評(píng)估、量化優(yōu)化的全流程,形成規(guī)范的模型訓(xùn)練與微調(diào)項(xiàng)目報(bào)告。