(1)目標檢測概述與評價體系:了解目標檢測的發(fā)展歷程、核心任務和應用場景(智能安防、自動駕駛、工業(yè)質(zhì)檢、新零售)。掌握目標檢測的完整評價體系:交并比(IoU)的計算與應用、非極大值抑制(NMS)的原理、準確率與召回率的平衡、mAP(mean Average Precision)的計算方法。學習目標檢測面臨的挑戰(zhàn):小目標檢測、遮擋處理、實時性要求、多尺度問題。
(2)兩階段目標檢測算法:深入理解兩階段檢測器的核心思想(先提議后分類)。掌握R-CNN系列檢測器的演進脈絡:R-CNN的候選區(qū)域方法、Fast R-CNN的感興趣區(qū)域池化(RoI Pooling)、Faster R-CNN的區(qū)域提議網(wǎng)絡(RPN)端到端訓練。理解錨框(Anchor Box)的概念、設計策略(尺度、長寬比)和匹配規(guī)則(正負樣本分配)。學習Mask R-CNN在檢測基礎上擴展實例分割的原理。
(3)單階段目標檢測算法:掌握單階段檢測器的核心思想(一次前向直接預測位置和類別),理解其相對于兩階段檢測器的速度優(yōu)勢。學習SSD(Single Shot MultiBox Detector)的多尺度特征圖預測策略。深入理解YOLO系列檢測器的技術演進:從YOLOv1的回歸思想到Y(jié)OLOv8/v10的完整技術體系,包括無錨框檢測、解耦頭、動態(tài)標簽分配等核心創(chuàng)新。對比分析單階段與兩階段檢測器的適用場景選擇。
(4)YOLO系列實戰(zhàn)與優(yōu)化:掌握YOLOv5/v8/v10的完整實戰(zhàn)流程,包括環(huán)境配置、數(shù)據(jù)集準備(標注格式轉(zhuǎn)換、數(shù)據(jù)集劃分)、模型訓練與驗證。學習YOLO模型的核心配置參數(shù)理解(網(wǎng)絡深度、寬度、訓練超參數(shù))。掌握模型優(yōu)化技巧:數(shù)據(jù)增強策略(Mosaic、MixUp、Copy-Paste)、學習率調(diào)度、權重衰減設置。實戰(zhàn)完成自定義數(shù)據(jù)集(如口罩檢測、交通標志識別)的模型訓練與調(diào)優(yōu)。
(5)基于Transformer的目標檢測:了解Transformer在計算機視覺領域的應用演進。掌握DETR(Detection Transformer)的核心思想:將目標檢測視為集合預測問題,去除錨框和NMS等人工設計組件。學習Deformable DETR的改進(可變形注意力機制加速收斂)。了解Swin Transformer在檢測中的應用及其層次化架構(gòu)特點。對比CNN與Transformer檢測器的性能與適用場景。
(6)視頻分析與目標跟蹤基礎:理解視頻分析與單張圖像分析的本質(zhì)區(qū)別(時間維度信息的引入)。掌握視頻分析的核心任務:目標檢測、多目標跟蹤、行為識別、視頻語義理解。了解目標跟蹤的任務分類:單目標跟蹤(SOT)與多目標跟蹤(MOT)的區(qū)別與應用場景。學習跟蹤系統(tǒng)的完整工作流程:檢測、特征提取、數(shù)據(jù)關聯(lián)、軌跡管理。
(7)多目標跟蹤算法:SORT與DeepSORT:深入理解SORT(Simple Online and Realtime Tracking)的核心思想:卡爾曼濾波預測目標狀態(tài)、匈牙利算法進行數(shù)據(jù)關聯(lián)。掌握DeepSORT的改進:引入外觀特征(Re-ID特征)解決遮擋下的身份切換問題。學習級聯(lián)匹配策略優(yōu)先匹配高置信度軌跡。實戰(zhàn)實現(xiàn)基于檢測結(jié)果的DeepSORT多目標跟蹤。
(8)多目標跟蹤算法:BYTETrack與BoT-SORT:掌握BYTETrack的核心創(chuàng)新:利用高置信度檢測框和低置信度檢測框的兩階段關聯(lián)策略,有效處理遮擋和模糊場景。學習BoT-SORT的改進:融合運動預測和外觀特征,使用相機運動補償提升跟蹤穩(wěn)定性。了解不同跟蹤算法的適用場景選擇:擁擠場景優(yōu)先BYTETrack,不可預測運動優(yōu)先BoT-SORT。實戰(zhàn)實現(xiàn)BYTETrack在監(jiān)控視頻中的應用。
(9)視頻行為識別與分析:理解行為識別的任務定義:從視頻序列中識別目標的動作類別(跑步、跳躍、打架等)。掌握經(jīng)典行為識別算法:雙流網(wǎng)絡(空間流+時間流)、3D卷積網(wǎng)絡(C3D、I3D)。學習SlowFast算法的核心思想:慢路徑捕捉空間語義信息,快路徑捕捉時間運動信息,通過側(cè)向連接融合時空特征。了解行為識別與目標檢測、多目標跟蹤的協(xié)同工作:先檢測再識別。
(10)視頻分析系統(tǒng)實戰(zhàn):檢測+跟蹤+識別:學習構(gòu)建完整的視頻分析系統(tǒng),整合目標檢測(YOLO)、多目標跟蹤(DeepSORT/BYTETrack)和行為識別(SlowFast)模塊。掌握視頻流處理框架設計:視頻幀讀取、檢測線程、跟蹤線程、識別線程的協(xié)同與異步處理。實戰(zhàn)實現(xiàn)交通監(jiān)控場景下的車輛檢測、跟蹤與違章行為識別(如違停檢測、逆行檢測)。
(11)模型部署與邊緣端優(yōu)化:掌握視頻分析模型的部署技術。學習模型轉(zhuǎn)換(ONNX/TensorRT)和推理加速(FP16/INT8量化)。了解邊緣端部署方案:樹莓派、Jetson Nano等嵌入式平臺的YOLO部署實踐。掌握推理性能優(yōu)化技巧:批處理、異步推理、預處理合并。實戰(zhàn)完成視頻分析模型在邊緣設備的部署與實時推理。
(12)綜合項目實戰(zhàn):智能視頻分析系統(tǒng)開發(fā):結(jié)合所學知識,完成一個完整的視頻分析項目(如智能安防監(jiān)控系統(tǒng)、交通流量統(tǒng)計平臺、工廠行為規(guī)范檢測系統(tǒng))。涵蓋需求分析、數(shù)據(jù)采集與標注、檢測模型訓練、跟蹤算法集成、行為識別模塊開發(fā)、系統(tǒng)集成與部署、效果評估的全流程,形成規(guī)范的視頻分析應用項目報告。