大模型部署:vLLM/TGI推理加速與私有化培訓課程
-
-
培訓對象: AI運維工程師、大模型應用開發(fā)者、算法工程師、需要私有化部署大模型的技術人員。
-
-
培訓目標:
-
理解大模型推理的性能瓶頸和優(yōu)化策略。
-
掌握vLLM的PagedAttention原理和部署方法。
-
熟練使用TGI(Text Generation Inference)部署大模型。
-
具備大模型量化、并發(fā)優(yōu)化和監(jiān)控運維能力。
-
-
培訓內容介紹:
-
一、 大模型推理挑戰(zhàn)與優(yōu)化策略: 分析大模型推理的內存瓶頸、計算瓶頸,介紹KV緩存、連續(xù)批處理等優(yōu)化技術。
二、 vLLM核心原理-PagedAttention: 深入理解PagedAttention如何解決顯存碎片化問題,提升推理吞吐量。
三、 vLLM安裝與部署: 安裝vLLM,加載LLaMA、Qwen等模型,配置并發(fā)參數(shù)和最大輸入長度。
四、 vLLM API服務化: 使用vLLM啟動OpenAI兼容的API服務,配置并發(fā)請求隊列和超時策略。
五、 vLLM性能調優(yōu): 調整批處理大小、最大并行請求數(shù),監(jiān)控顯存使用和推理延遲,優(yōu)化吞吐量。
六、 TGI架構與特性: 了解HuggingFace TGI的架構設計,掌握其連續(xù)批處理、張量并行、模型分片等特性。
七、 TGI部署實戰(zhàn): 使用Docker部署TGI服務,加載各種大模型,配置環(huán)境變量和啟動參數(shù)。
八、 模型量化技術: 使用GPTQ、AWQ、GGUF等量化技術壓縮模型,降低顯存需求,提升推理速度。
九、 量化模型部署: 在vLLM/TGI中加載量化模型,對比量化前后的精度和性能差異。
十、 多GPU并行推理: 配置張量并行(Tensor Parallelism)在多張GPU上分布模型,支持更大模型部署。
十一、 監(jiān)控與日志管理: 使用Prometheus+Grafana監(jiān)控推理服務指標(QPS、延遲、顯存),配置告警規(guī)則。
十二、 實戰(zhàn)項目:企業(yè)級大模型私有化部署: 根據(jù)企業(yè)需求選擇模型,使用vLLM或TGI部署高并發(fā)推理服務,提供API供業(yè)務調用。
如果您想學習本課程,請
預約報名
如果沒找到合適的課程或有特殊培訓需求,請
訂制培訓
除培訓外,同時提供相關技術咨詢與技術支持服務,有需求請發(fā)需求表到郵箱soft@info-soft.cn,或致電4007991916
技術服務需求表點擊在線申請
服務特點:
海量專家資源,精準匹配相關行業(yè),相關項目專家,針對實際需求,顧問式咨詢,互動式授課,案例教學,小班授課,實際項目演示,快捷高效,省時省力省錢。
專家力量:
中國科學院軟件研究所,計算研究所高級研究人員
oracle,微軟,vmware,MSC,Ansys,candence,Altium,達索等大型公司高級工程師,項目經(jīng)理,技術支持專家
中科信軟培訓中心,資深專家或講師
大多名牌大學,碩士以上學歷,相關技術專業(yè),理論素養(yǎng)豐富
多年實際項目經(jīng)歷,大型項目實戰(zhàn)案例,熱情,樂于技術分享
針對客戶實際需求,案例教學,互動式溝通,學有所獲