-
-
培訓(xùn)對(duì)象:
-
適合具備Python編程基礎(chǔ)和基本機(jī)器學(xué)習(xí)概念,希望系統(tǒng)掌握深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域核心技術(shù)應(yīng)用的算法工程師、計(jì)算機(jī)視覺工程師、AI應(yīng)用開發(fā)者、科研人員及計(jì)算機(jī)相關(guān)專業(yè)學(xué)生。
-
-
培訓(xùn)目標(biāo):
-
完成本課程后,學(xué)員將能夠深入理解計(jì)算機(jī)視覺的核心任務(wù)(圖像分類、目標(biāo)檢測(cè)、圖像分割、目標(biāo)跟蹤、圖像生成等)及其深度學(xué)習(xí)解決方案,熟練掌握卷積神經(jīng)網(wǎng)絡(luò)(CNN)的架構(gòu)演進(jìn)和優(yōu)化技巧,熟練使用PyTorch/TensorFlow主流框架實(shí)現(xiàn)各類視覺任務(wù)的模型構(gòu)建、訓(xùn)練與部署,具備獨(dú)立解決實(shí)際計(jì)算機(jī)視覺問題的能力,并了解視覺大模型(ViT、多模態(tài))的前沿技術(shù)。
-
-
培訓(xùn)內(nèi)容:
-
(1)計(jì)算機(jī)視覺概述與數(shù)學(xué)基礎(chǔ):了解計(jì)算機(jī)視覺的發(fā)展歷程、核心任務(wù)分類(低層視覺、中層視覺、高層視覺)和典型應(yīng)用場(chǎng)景(安防監(jiān)控、自動(dòng)駕駛、醫(yī)療影像、工業(yè)質(zhì)檢、AR/VR);仡櫳疃葘W(xué)習(xí)視覺任務(wù)所需的數(shù)學(xué)基礎(chǔ),包括線性代數(shù)(矩陣運(yùn)算、特征分解)、概率論(貝葉斯理論、分布估計(jì))、微積分(梯度反向傳播)和數(shù)字圖像處理(濾波、變換)的核心概念。
(2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)基礎(chǔ):深入理解卷積運(yùn)算的數(shù)學(xué)原理,掌握卷積層(Convolutional Layer)的核心參數(shù)(卷積核大小、步長(zhǎng)、填充、輸入輸出通道)。學(xué)習(xí)池化層(Pooling)的各類方法(最大池化、平均池化、全局平均池化)及其作用。理解激活函數(shù)(ReLU、Leaky ReLU、PReLU、ELU)的特點(diǎn)與選擇。掌握批歸一化(Batch Normalization)和層歸一化(Layer Normalization)的原理與應(yīng)用。
(3)經(jīng)典CNN架構(gòu)與演進(jìn):系統(tǒng)學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展演進(jìn)脈絡(luò)。掌握LeNet-5在手寫數(shù)字識(shí)別中的應(yīng)用,理解AlexNet對(duì)深度學(xué)習(xí)復(fù)興的貢獻(xiàn)(ReLU、Dropout、數(shù)據(jù)增強(qiáng))。學(xué)習(xí)VGGNet的模塊化設(shè)計(jì)思想,理解GoogLeNet/Inception系列的多尺度特征提取和1×1卷積降維技巧。深入理解ResNet殘差連接解決梯度消失的核心思想,學(xué)習(xí)DenseNet密集連接網(wǎng)絡(luò)的創(chuàng)新點(diǎn)。
(4)圖像分類實(shí)戰(zhàn):掌握?qǐng)D像分類任務(wù)的完整流程,包括數(shù)據(jù)集準(zhǔn)備(ImageNet、CIFAR-10/100、自定義數(shù)據(jù)集)、數(shù)據(jù)預(yù)處理(歸一化、標(biāo)準(zhǔn)化)和數(shù)據(jù)增強(qiáng)技術(shù)(隨機(jī)裁剪、水平翻轉(zhuǎn)、色彩抖動(dòng)、CutMix、MixUp)。使用PyTorch/TensorFlow構(gòu)建CNN分類模型,實(shí)現(xiàn)完整的訓(xùn)練、驗(yàn)證和測(cè)試流程。學(xué)習(xí)遷移學(xué)習(xí),使用預(yù)訓(xùn)練模型(ResNet、EfficientNet、DenseNet)進(jìn)行微調(diào),適應(yīng)特定分類任務(wù)。
(5)目標(biāo)檢測(cè)基礎(chǔ):兩階段檢測(cè)器:理解目標(biāo)檢測(cè)的核心任務(wù)(目標(biāo)分類+定位)。掌握R-CNN系列檢測(cè)器的演進(jìn):R-CNN的候選區(qū)域方法、Fast R-CNN的感興趣區(qū)域池化(RoI Pooling)、Faster R-CNN的區(qū)域提議網(wǎng)絡(luò)(RPN)。深入理解錨框(Anchor Box)的概念、設(shè)計(jì)策略和匹配規(guī)則。
(6)目標(biāo)檢測(cè)進(jìn)階:?jiǎn)坞A段檢測(cè)器:學(xué)習(xí)單階段檢測(cè)器的核心思想(一次前向直接預(yù)測(cè))。掌握YOLO系列檢測(cè)器的演進(jìn)(YOLOv1-v8的核心改進(jìn)),理解SSD(Single Shot MultiBox Detector)的多尺度特征圖預(yù)測(cè)策略。了解無錨框檢測(cè)器(Anchor-Free)的代表算法(CenterNet、FCOS)。實(shí)戰(zhàn)訓(xùn)練YOLO目標(biāo)檢測(cè)模型,實(shí)現(xiàn)自定義數(shù)據(jù)集的目標(biāo)檢測(cè)應(yīng)用。
(7)圖像分割技術(shù):掌握?qǐng)D像分割任務(wù)的分類(語義分割、實(shí)例分割、全景分割)。深入理解全卷積網(wǎng)絡(luò)(FCN)的核心思想和上采樣技術(shù)(轉(zhuǎn)置卷積、雙線性插值)。學(xué)習(xí)U-Net的編碼器-解碼器架構(gòu)及其在醫(yī)學(xué)圖像分割中的應(yīng)用。掌握DeepLab系列的空洞卷積(Dilated/Atrous Convolution)和空洞空間金字塔池化(ASPP)。了解實(shí)例分割代表算法Mask R-CNN的原理。實(shí)戰(zhàn)實(shí)現(xiàn)U-Net圖像分割模型。
(8)目標(biāo)跟蹤技術(shù):了解目標(biāo)跟蹤的核心任務(wù)和應(yīng)用場(chǎng)景(視頻監(jiān)控、人機(jī)交互、自動(dòng)駕駛)。掌握經(jīng)典跟蹤算法:卡爾曼濾波、光流法、Meanshift/Camshift。學(xué)習(xí)相關(guān)濾波跟蹤(KCF、DCF)的原理。掌握深度學(xué)習(xí)跟蹤算法(SiamFC、SiamRPN、SiamMask)的核心思想。實(shí)現(xiàn)基于深度學(xué)習(xí)的單目標(biāo)跟蹤應(yīng)用。
(9)生成對(duì)抗網(wǎng)絡(luò)(GAN)與圖像生成:理解生成對(duì)抗網(wǎng)絡(luò)的核心思想(生成器與判別器的博弈過程)和訓(xùn)練機(jī)制。掌握經(jīng)典GAN模型(DCGAN、WGAN、LSGAN)的特點(diǎn)與改進(jìn)。學(xué)習(xí)條件GAN(cGAN)實(shí)現(xiàn)指定類別圖像生成。了解圖像翻譯的代表算法(Pix2Pix、CycleGAN)在風(fēng)格遷移中的應(yīng)用。實(shí)戰(zhàn)實(shí)現(xiàn)DCGAN生成手寫數(shù)字或人臉圖像。
(10)視覺Transformer與多模態(tài):了解Transformer在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用演進(jìn)。掌握ViT(Vision Transformer)的核心思想(圖像分塊、位置編碼、Transformer編碼器)。學(xué)習(xí)Swin Transformer的層次化架構(gòu)和移動(dòng)窗口注意力機(jī)制。了解視覺-語言多模態(tài)模型(CLIP)的原理及其在零樣本分類、圖文檢索中的應(yīng)用。實(shí)踐使用預(yù)訓(xùn)練ViT模型進(jìn)行圖像分類。
(11)模型壓縮、加速與部署:掌握深度學(xué)習(xí)模型的優(yōu)化技術(shù),包括模型剪枝(結(jié)構(gòu)化剪枝、非結(jié)構(gòu)化剪枝)、知識(shí)蒸餾(教師-學(xué)生網(wǎng)絡(luò))、量化訓(xùn)練(INT8量化、混合精度訓(xùn)練)。學(xué)習(xí)ONNX作為中間表示格式的轉(zhuǎn)換方法。掌握使用TensorRT加速推理的配置和優(yōu)化技巧。了解移動(dòng)端部署方案(NCNN、TFLite、MNN)。實(shí)踐完成模型從訓(xùn)練到移動(dòng)端部署的全流程。
(12)綜合項(xiàng)目實(shí)戰(zhàn):完整視覺應(yīng)用系統(tǒng)開發(fā):結(jié)合所學(xué)知識(shí),完成一個(gè)完整的計(jì)算機(jī)視覺項(xiàng)目(如自動(dòng)駕駛感知系統(tǒng)、工業(yè)缺陷檢測(cè)平臺(tái)、人臉識(shí)別門禁系統(tǒng)等)。涵蓋需求分析、數(shù)據(jù)采集與標(biāo)注、模型選型與訓(xùn)練、優(yōu)化加速、系統(tǒng)集成和效果評(píng)估的全流程,形成規(guī)范的視覺應(yīng)用項(xiàng)目報(bào)告。<|end▁of▁thinking|>### 深度學(xué)習(xí)計(jì)算機(jī)視覺培訓(xùn)大綱
-
培訓(xùn)對(duì)象:適合具備Python編程基礎(chǔ)和基本機(jī)器學(xué)習(xí)概念,希望系統(tǒng)掌握深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域核心技術(shù)應(yīng)用的算法工程師、計(jì)算機(jī)視覺工程師、AI應(yīng)用開發(fā)者、科研人員及計(jì)算機(jī)相關(guān)專業(yè)學(xué)生。
-
培訓(xùn)目標(biāo):完成本課程后,學(xué)員將能夠深入理解計(jì)算機(jī)視覺的核心任務(wù)(圖像分類、目標(biāo)檢測(cè)、圖像分割、目標(biāo)跟蹤、圖像生成等)及其深度學(xué)習(xí)解決方案,熟練掌握卷積神經(jīng)網(wǎng)絡(luò)(CNN)的架構(gòu)演進(jìn)和優(yōu)化技巧,熟練使用PyTorch/TensorFlow主流框架實(shí)現(xiàn)各類視覺任務(wù)的模型構(gòu)建、訓(xùn)練與部署,具備獨(dú)立解決實(shí)際計(jì)算機(jī)視覺問題的能力,并了解視覺大模型(ViT、多模態(tài))的前沿技術(shù)。
-
培訓(xùn)內(nèi)容:
(1)計(jì)算機(jī)視覺概述與數(shù)學(xué)基礎(chǔ):了解計(jì)算機(jī)視覺的發(fā)展歷程、核心任務(wù)分類(低層視覺、中層視覺、高層視覺)和典型應(yīng)用場(chǎng)景(安防監(jiān)控、自動(dòng)駕駛、醫(yī)療影像、工業(yè)質(zhì)檢、AR/VR);仡櫳疃葘W(xué)習(xí)視覺任務(wù)所需的數(shù)學(xué)基礎(chǔ),包括線性代數(shù)(矩陣運(yùn)算、特征分解)、概率論(貝葉斯理論、分布估計(jì))、微積分(梯度反向傳播)和數(shù)字圖像處理(濾波、變換)的核心概念。
(2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)基礎(chǔ):深入理解卷積運(yùn)算的數(shù)學(xué)原理,掌握卷積層(Convolutional Layer)的核心參數(shù)(卷積核大小、步長(zhǎng)、填充、輸入輸出通道)。學(xué)習(xí)池化層(Pooling)的各類方法(最大池化、平均池化、全局平均池化)及其作用。理解激活函數(shù)(ReLU、Leaky ReLU、PReLU、ELU)的特點(diǎn)與選擇。掌握批歸一化(Batch Normalization)和層歸一化(Layer Normalization)的原理與應(yīng)用。
(3)經(jīng)典CNN架構(gòu)與演進(jìn):系統(tǒng)學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展演進(jìn)脈絡(luò)。掌握LeNet-5在手寫數(shù)字識(shí)別中的應(yīng)用,理解AlexNet對(duì)深度學(xué)習(xí)復(fù)興的貢獻(xiàn)(ReLU、Dropout、數(shù)據(jù)增強(qiáng))。學(xué)習(xí)VGGNet的模塊化設(shè)計(jì)思想,理解GoogLeNet/Inception系列的多尺度特征提取和1×1卷積降維技巧。深入理解ResNet殘差連接解決梯度消失的核心思想,學(xué)習(xí)DenseNet密集連接網(wǎng)絡(luò)的創(chuàng)新點(diǎn)。
(4)圖像分類實(shí)戰(zhàn):掌握?qǐng)D像分類任務(wù)的完整流程,包括數(shù)據(jù)集準(zhǔn)備(ImageNet、CIFAR-10/100、自定義數(shù)據(jù)集)、數(shù)據(jù)預(yù)處理(歸一化、標(biāo)準(zhǔn)化)和數(shù)據(jù)增強(qiáng)技術(shù)(隨機(jī)裁剪、水平翻轉(zhuǎn)、色彩抖動(dòng)、CutMix、MixUp)。使用PyTorch/TensorFlow構(gòu)建CNN分類模型,實(shí)現(xiàn)完整的訓(xùn)練、驗(yàn)證和測(cè)試流程。學(xué)習(xí)遷移學(xué)習(xí),使用預(yù)訓(xùn)練模型(ResNet、EfficientNet、DenseNet)進(jìn)行微調(diào),適應(yīng)特定分類任務(wù)。
(5)目標(biāo)檢測(cè)基礎(chǔ):兩階段檢測(cè)器:理解目標(biāo)檢測(cè)的核心任務(wù)(目標(biāo)分類+定位)。掌握R-CNN系列檢測(cè)器的演進(jìn):R-CNN的候選區(qū)域方法、Fast R-CNN的感興趣區(qū)域池化(RoI Pooling)、Faster R-CNN的區(qū)域提議網(wǎng)絡(luò)(RPN)。深入理解錨框(Anchor Box)的概念、設(shè)計(jì)策略和匹配規(guī)則。
(6)目標(biāo)檢測(cè)進(jìn)階:?jiǎn)坞A段檢測(cè)器:學(xué)習(xí)單階段檢測(cè)器的核心思想(一次前向直接預(yù)測(cè))。掌握YOLO系列檢測(cè)器的演進(jìn)(YOLOv1-v8的核心改進(jìn)),理解SSD(Single Shot MultiBox Detector)的多尺度特征圖預(yù)測(cè)策略。了解無錨框檢測(cè)器(Anchor-Free)的代表算法(CenterNet、FCOS)。實(shí)戰(zhàn)訓(xùn)練YOLO目標(biāo)檢測(cè)模型,實(shí)現(xiàn)自定義數(shù)據(jù)集的目標(biāo)檢測(cè)應(yīng)用。
(7)圖像分割技術(shù):掌握?qǐng)D像分割任務(wù)的分類(語義分割、實(shí)例分割、全景分割)。深入理解全卷積網(wǎng)絡(luò)(FCN)的核心思想和上采樣技術(shù)(轉(zhuǎn)置卷積、雙線性插值)。學(xué)習(xí)U-Net的編碼器-解碼器架構(gòu)及其在醫(yī)學(xué)圖像分割中的應(yīng)用。掌握DeepLab系列的空洞卷積(Dilated/Atrous Convolution)和空洞空間金字塔池化(ASPP)。了解實(shí)例分割代表算法Mask R-CNN的原理。實(shí)戰(zhàn)實(shí)現(xiàn)U-Net圖像分割模型。
(8)目標(biāo)跟蹤技術(shù):了解目標(biāo)跟蹤的核心任務(wù)和應(yīng)用場(chǎng)景(視頻監(jiān)控、人機(jī)交互、自動(dòng)駕駛)。掌握經(jīng)典跟蹤算法:卡爾曼濾波、光流法、Meanshift/Camshift。學(xué)習(xí)相關(guān)濾波跟蹤(KCF、DCF)的原理。掌握深度學(xué)習(xí)跟蹤算法(SiamFC、SiamRPN、SiamMask)的核心思想。實(shí)現(xiàn)基于深度學(xué)習(xí)的單目標(biāo)跟蹤應(yīng)用。
(9)生成對(duì)抗網(wǎng)絡(luò)(GAN)與圖像生成:理解生成對(duì)抗網(wǎng)絡(luò)的核心思想(生成器與判別器的博弈過程)和訓(xùn)練機(jī)制。掌握經(jīng)典GAN模型(DCGAN、WGAN、LSGAN)的特點(diǎn)與改進(jìn)。學(xué)習(xí)條件GAN(cGAN)實(shí)現(xiàn)指定類別圖像生成。了解圖像翻譯的代表算法(Pix2Pix、CycleGAN)在風(fēng)格遷移中的應(yīng)用。實(shí)戰(zhàn)實(shí)現(xiàn)DCGAN生成手寫數(shù)字或人臉圖像。
(10)視覺Transformer與多模態(tài):了解Transformer在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用演進(jìn)。掌握ViT(Vision Transformer)的核心思想(圖像分塊、位置編碼、Transformer編碼器)。學(xué)習(xí)Swin Transformer的層次化架構(gòu)和移動(dòng)窗口注意力機(jī)制。了解視覺-語言多模態(tài)模型(CLIP)的原理及其在零樣本分類、圖文檢索中的應(yīng)用。實(shí)踐使用預(yù)訓(xùn)練ViT模型進(jìn)行圖像分類。
(11)模型壓縮、加速與部署:掌握深度學(xué)習(xí)模型的優(yōu)化技術(shù),包括模型剪枝(結(jié)構(gòu)化剪枝、非結(jié)構(gòu)化剪枝)、知識(shí)蒸餾(教師-學(xué)生網(wǎng)絡(luò))、量化訓(xùn)練(INT8量化、混合精度訓(xùn)練)。學(xué)習(xí)ONNX作為中間表示格式的轉(zhuǎn)換方法。掌握使用TensorRT加速推理的配置和優(yōu)化技巧。了解移動(dòng)端部署方案(NCNN、TFLite、MNN)。實(shí)踐完成模型從訓(xùn)練到移動(dòng)端部署的全流程。
(12)綜合項(xiàng)目實(shí)戰(zhàn):完整視覺應(yīng)用系統(tǒng)開發(fā):結(jié)合所學(xué)知識(shí),完成一個(gè)完整的計(jì)算機(jī)視覺項(xiàng)目(如自動(dòng)駕駛感知系統(tǒng)、工業(yè)缺陷檢測(cè)平臺(tái)、人臉識(shí)別門禁系統(tǒng)等)。涵蓋需求分析、數(shù)據(jù)采集與標(biāo)注、模型選型與訓(xùn)練、優(yōu)化加速、系統(tǒng)集成和效果評(píng)估的全流程,形成規(guī)范的視覺應(yīng)用項(xiàng)目報(bào)告。