(1)大模型訓(xùn)練基礎(chǔ)與演進(jìn)脈絡(luò):了解大語言模型的發(fā)展歷程(從統(tǒng)計語言模型到Transformer架構(gòu))。掌握預(yù)訓(xùn)練、微調(diào)、對齊的三階段訓(xùn)練范式及其各自目標(biāo)。學(xué)習(xí)主流大模型架構(gòu)(GPT系列、LLaMA、Qwen、DeepSeek)的設(shè)計特點(diǎn)與選型策略。理解模型規(guī)模(7B、13B、70B)與訓(xùn)練資源、性能表現(xiàn)的關(guān)系。
(2)Transformer架構(gòu)與核心組件深度解析:深入理解Transformer架構(gòu)的核心技術(shù)邏輯,掌握自注意力機(jī)制(Self-Attention)的數(shù)學(xué)原理、多頭注意力(Multi-Head Attention)的并行計算機(jī)制。學(xué)習(xí)位置編碼的設(shè)計思想(正弦編碼、RoPE旋轉(zhuǎn)位置編碼)。通過代碼實(shí)現(xiàn)驗證對各模塊的理解,為后續(xù)微調(diào)奠定理論基礎(chǔ)。
(3)數(shù)據(jù)準(zhǔn)備與處理技術(shù):掌握大模型微調(diào)數(shù)據(jù)準(zhǔn)備的核心技術(shù),理解數(shù)據(jù)質(zhì)量對模型性能的決定性影響。學(xué)習(xí)數(shù)據(jù)集類型與格式規(guī)范:指令微調(diào)格式(Alpaca格式)、對話格式(ShareGPT格式)、問答格式(QA Pairs)。掌握數(shù)據(jù)清洗、分塊、標(biāo)注與存儲的完整流程。學(xué)習(xí)使用NVIDIA NeMo Curator等工具篩選高質(zhì)量數(shù)據(jù)集并生成合成數(shù)據(jù)。
(4)全參數(shù)微調(diào)技術(shù):深入理解全參數(shù)微調(diào)(Full Fine-tuning)的原理與適用場景,掌握其在大規(guī)模計算資源下的精度優(yōu)勢。學(xué)習(xí)使用HuggingFace Transformers庫的Trainer API和自定義訓(xùn)練循環(huán)實(shí)現(xiàn)全參數(shù)微調(diào)。了解全參數(shù)微調(diào)面臨的顯存挑戰(zhàn)與解決方案(梯度累積、混合精度訓(xùn)練)。實(shí)踐微調(diào)DistilBERT進(jìn)行情感分類的完整流程。
(5)參數(shù)高效微調(diào)(PEFT)技術(shù):掌握LoRA(低秩適配)的核心原理:低秩矩陣分解、適配器矩陣設(shè)計、縮放系數(shù)配置。學(xué)習(xí)QLoRA的量化權(quán)重與梯度更新機(jī)制,實(shí)現(xiàn)在單GPU(8GB顯存)上微調(diào)百億參數(shù)模型。掌握P-Tuning、Adapter、Prefix Tuning等其他PEFT方法的特點(diǎn)。實(shí)踐使用PEFT庫和LlamaFactory對開源模型進(jìn)行垂直領(lǐng)域微調(diào)。
(6)持續(xù)預(yù)訓(xùn)練(CPT)技術(shù):理解持續(xù)預(yù)訓(xùn)練(Continual Pre-training)的必要性與應(yīng)用場景(領(lǐng)域適應(yīng)、知識更新)。學(xué)習(xí)CPT的數(shù)據(jù)準(zhǔn)備策略:高質(zhì)量數(shù)據(jù)篩選、去重、領(lǐng)域語料構(gòu)建。掌握使用Transformers框架進(jìn)行CPT的代碼實(shí)現(xiàn),為模型注入特定領(lǐng)域的新知識。了解CPT基模評測與選擇策略。
(7)監(jiān)督微調(diào)(SFT)與指令微調(diào):掌握監(jiān)督微調(diào)(Supervised Fine-tuning)的核心方法,學(xué)習(xí)構(gòu)建高質(zhì)量的指令數(shù)據(jù)集。理解指令微調(diào)在讓模型學(xué)習(xí)新技能和完成特定任務(wù)中的作用。實(shí)踐使用英文數(shù)據(jù)集微調(diào)LLaMA模型,實(shí)現(xiàn)文本生成等任務(wù)。
(8)RLHF與模型對齊技術(shù):深入理解RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))的三階段流程:監(jiān)督微調(diào)(SFT)、獎勵模型訓(xùn)練(RM)、近端策略優(yōu)化(PPO)。學(xué)習(xí)DPO(直接偏好優(yōu)化)的簡化實(shí)現(xiàn)原理。掌握使模型在風(fēng)格、語氣和安全性方面更貼近人類偏好的對齊技術(shù)。
(9)分布式訓(xùn)練框架與優(yōu)化:掌握分布式訓(xùn)練的核心技術(shù):數(shù)據(jù)并行、張量并行、流水線并行的原理與適用場景。學(xué)習(xí)使用DeepSpeed的ZeRO優(yōu)化器(Stage1/2/3)大幅降低顯存占用。了解Megatron-LM在多節(jié)點(diǎn)大規(guī)模訓(xùn)練中的應(yīng)用。實(shí)踐使用DeepSpeed在單機(jī)多卡環(huán)境下微調(diào)大模型。
(10)模型評估與性能分析:掌握大模型的多維度評估體系:傳統(tǒng)指標(biāo)(Perplexity、BLEU、ROUGE)、指令遵循準(zhǔn)確率、模型質(zhì)量評估(MMLU、HumanEval、CEval)。學(xué)習(xí)LLM-as-a-judge評估方法和NeMo Evaluator工具的使用。通過評估識別模型微調(diào)后的性能變化,避免災(zāi)難性遺忘。
(11)模型量化與推理優(yōu)化:掌握模型量化的核心原理,理解不同量化精度(FP16、INT8、INT4、NF4)對模型性能和推理速度的影響。學(xué)習(xí)使用AutoGPTQ、AutoAWQ等工具進(jìn)行模型量化。掌握vLLM的核心優(yōu)化技術(shù):PagedAttention、連續(xù)批處理。實(shí)踐使用TensorRT-LLM和NeMo進(jìn)行量化、剪枝與知識蒸餾,實(shí)現(xiàn)高效部署。
(12)綜合項目實(shí)戰(zhàn):垂直領(lǐng)域模型微調(diào)與部署:結(jié)合所學(xué)知識,完成一個完整的企業(yè)級大模型微調(diào)項目(如醫(yī)療問答模型微調(diào)、法律文書生成模型、金融研報分析助手)。涵蓋需求分析、數(shù)據(jù)準(zhǔn)備、模型選型、LoRA/QLoRA微調(diào)、性能評估、量化優(yōu)化、推理部署的全流程,形成規(guī)范的模型微調(diào)項目報告。