(1)大模型工程化概述與部署架構(gòu):了解大模型從實(shí)驗(yàn)室到生產(chǎn)環(huán)境的工程化挑戰(zhàn):顯存瓶頸、推理延遲、并發(fā)吞吐、成本控制。掌握大模型部署的多種架構(gòu)模式:云端API服務(wù)、本地私有化部署、邊緣端部署的適用場(chǎng)景與權(quán)衡。學(xué)習(xí)大模型服務(wù)的技術(shù)棧全景圖,理解模型優(yōu)化、推理引擎、服務(wù)框架、運(yùn)維監(jiān)控的完整鏈條。分析主流大模型(Llama、Qwen、DeepSeek)在不同硬件上的部署性能特征。
(2)模型量化與壓縮技術(shù):掌握模型量化的核心原理,理解對(duì)稱量化與非對(duì)稱量化、動(dòng)態(tài)量化與靜態(tài)量化的技術(shù)差異。學(xué)習(xí)不同量化精度(FP16、INT8、INT4、NF4、GPTQ、AWQ)對(duì)模型性能和推理速度的影響。實(shí)踐使用AutoGPTQ、AutoAWQ等工具對(duì)開源模型進(jìn)行量化處理。了解模型蒸餾(Knowledge Distillation)與剪枝(Pruning)的基本原理及其在邊緣部署中的應(yīng)用。通過實(shí)驗(yàn)對(duì)比量化前后的顯存占用、推理速度與精度損失。
(3)vLLM高性能推理引擎:深入理解vLLM的核心優(yōu)化技術(shù):PagedAttention(分頁注意力)解決KV緩存碎片問題、連續(xù)批處理(Continuous Batching)提升吞吐量、CUDA核心優(yōu)化。掌握vLLM的安裝與配置,學(xué)習(xí)啟動(dòng)OpenAI兼容的API服務(wù)。對(duì)比vLLM與傳統(tǒng)推理框架(HuggingFace Transformers、Text Generation Inference)的性能差異。實(shí)踐使用vLLM部署高并發(fā)推理服務(wù),掌握吞吐量(Throughput)與延遲(Latency)的優(yōu)化方法。
(4)TensorRT-LLM與NVIDIA生態(tài):了解TensorRT-LLM作為NVIDIA官方推理引擎的架構(gòu)優(yōu)勢(shì)。學(xué)習(xí)TensorRT-LLM的核心優(yōu)化技術(shù):層融合(Layer Fusion)、內(nèi)核自動(dòng)調(diào)優(yōu)、多精度支持。掌握將HuggingFace模型轉(zhuǎn)換為TensorRT引擎的完整流程。實(shí)踐使用TensorRT-LLM部署LLaMA/Qwen模型,對(duì)比與vLLM的性能差異。了解TensorRT-LLM在多GPU環(huán)境下的并行推理配置。
(5)推理服務(wù)框架與API設(shè)計(jì):掌握主流推理服務(wù)框架的選型與使用:TGI(Text Generation Inference)、FastChat、LocalAI的對(duì)比分析。學(xué)習(xí)使用FastAPI構(gòu)建自定義推理服務(wù),集成模型加載、請(qǐng)求處理、結(jié)果返回的完整邏輯。掌握流式輸出(Streaming Output)的實(shí)現(xiàn)方法,提升用戶體驗(yàn)。設(shè)計(jì)符合RESTful規(guī)范的API接口,支持批量推理、異步處理等高級(jí)功能。
(6)分布式推理與多卡并行:理解大模型在多GPU環(huán)境下的推理并行策略:張量并行(Tensor Parallelism)、流水線并行(Pipeline Parallelism)。學(xué)習(xí)使用vLLM的分布式推理功能,配置張量并行度實(shí)現(xiàn)多卡協(xié)同。了解模型并行與數(shù)據(jù)并行的適用場(chǎng)景差異。實(shí)踐在單機(jī)多卡環(huán)境下部署70B級(jí)別大模型,分析顯存占用與推理性能的權(quán)衡。
(7)Kubernetes云原生部署:掌握使用Docker容器化大模型推理服務(wù)的完整流程,編寫優(yōu)化Dockerfile減小鏡像體積。學(xué)習(xí)在Kubernetes集群中部署推理服務(wù),配置Pod資源限制(CPU、內(nèi)存、GPU)。掌握使用Horizontal Pod Autoscaler(HPA)實(shí)現(xiàn)基于QPS的自動(dòng)擴(kuò)縮容。實(shí)踐部署完整的推理服務(wù)到K8s集群,配置Service、Ingress對(duì)外暴露API。
(8)GPU資源調(diào)度與共享:了解Kubernetes對(duì)GPU資源的管理機(jī)制,學(xué)習(xí)配置NVIDIA Device Plugin實(shí)現(xiàn)GPU調(diào)度。掌握GPU共享技術(shù):使用MIG(多實(shí)例GPU)或Time-Slicing實(shí)現(xiàn)多任務(wù)共享GPU。學(xué)習(xí)使用Volcano、Koordinator等批調(diào)度器優(yōu)化AI工作負(fù)載的資源分配。實(shí)踐配置GPU資源配額與優(yōu)先級(jí)調(diào)度。
(9)服務(wù)監(jiān)控與可觀測(cè)性:掌握推理服務(wù)的監(jiān)控體系構(gòu)建:使用Prometheus采集性能指標(biāo)(QPS、延遲、錯(cuò)誤率、GPU利用率)。學(xué)習(xí)使用Grafana構(gòu)建可視化監(jiān)控看板,實(shí)時(shí)掌握服務(wù)狀態(tài)。掌握日志收集與分析方案:使用ELK/EFK Stack聚合推理日志。實(shí)踐配置關(guān)鍵指標(biāo)的告警規(guī)則(如P99延遲超限、錯(cuò)誤率上升)。
(10)性能測(cè)試與A/B測(cè)試:學(xué)習(xí)使用性能測(cè)試工具(如locust、wrk、vegeta)對(duì)推理服務(wù)進(jìn)行壓力測(cè)試,分析不同并發(fā)下的性能表現(xiàn)。掌握服務(wù)容量評(píng)估方法,根據(jù)QPS要求規(guī)劃硬件資源。了解A/B測(cè)試在模型迭代中的應(yīng)用:部署多版本模型服務(wù),配置流量切分策略,對(duì)比新舊版本的業(yè)務(wù)指標(biāo)。
(11)安全防護(hù)與合規(guī)實(shí)踐:掌握推理服務(wù)的常見安全威脅:DDoS攻擊、模型竊取、提示注入。學(xué)習(xí)部署API網(wǎng)關(guān)實(shí)現(xiàn)認(rèn)證授權(quán)、限流熔斷、IP黑白名單。了解數(shù)據(jù)隱私保護(hù)技術(shù):輸入輸出脫敏、數(shù)據(jù)加密傳輸。掌握模型版權(quán)保護(hù)方法:模型加密、水印技術(shù)。學(xué)習(xí)國內(nèi)大模型落地的合規(guī)要求:算法備案、安全評(píng)估、內(nèi)容審核。
(12)綜合項(xiàng)目實(shí)戰(zhàn):企業(yè)級(jí)大模型服務(wù)部署:結(jié)合所學(xué)知識(shí),完成一個(gè)完整的企業(yè)級(jí)大模型部署項(xiàng)目(如智能客服系統(tǒng)后端、RAG問答服務(wù)、代碼生成API)。涵蓋模型量化優(yōu)化、推理引擎選型、K8s云原生部署、自動(dòng)擴(kuò)縮容配置、監(jiān)控告警體系搭建、安全防護(hù)措施的完整流程,形成規(guī)范的部署架構(gòu)文檔與運(yùn)維手冊(cè)。