近日,在 ICCV 2019 Workshop 舉辦的 Vision Meets Drone: A Challenge(簡稱:VisDrone2019) 挑戰(zhàn)賽公布了最終結(jié)果,來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI 團隊斬獲了「視頻目標檢測」和「多目標追蹤」兩項冠軍。我們可以通過這篇文章來了解一下 DeepBlueAI 團隊的解決方案。
The VisDrone2019 挑戰(zhàn)賽
如今,配備攝像頭的無人機或通用無人機已經(jīng)廣泛地應用在農(nóng)業(yè)、航空攝影、快速交付、監(jiān)視等多個領(lǐng)域。
挑戰(zhàn)賽官網(wǎng)地址:http://aiskyeye.com/
VisDrone2019 數(shù)據(jù)集由天津大學機器學習與數(shù)據(jù)挖掘?qū)嶒炇?AISKYEYE 隊伍負責收集,全部基準數(shù)據(jù)集由無人機捕獲,包括 288 個視頻片段,總共包括 261908 幀和 10209 個靜態(tài)圖像。
這些幀由 260 多萬個常用目標(如行人、汽車、自行車和三輪車)的手動標注框組成。為了讓參賽隊伍能夠更有效地利用數(shù)據(jù),數(shù)據(jù)集還提供了場景可見性、對象類別和遮擋等重要屬性。
本屆挑戰(zhàn)賽包含四個任務:
任務 1:圖像中的目標檢測。任務旨在從無人機拍攝的單個圖像中檢測預定義類別的對象(例如,汽車和行人);
任務 2:視頻中的目標檢測。該任務與任務 1 相似,不同之處在于需要從視頻中檢測對象;
任務 3:單目標跟蹤挑戰(zhàn)。任務旨在估計后續(xù)視頻幀中第一個幀中指示的目標狀態(tài);
任務 4:多目標跟蹤挑戰(zhàn)。該任務旨在恢復每個視頻幀中對象的軌跡。
數(shù)據(jù)集下載鏈接:https://github.com/VisDrone/VisDrone-Dataset
這次比賽的難點主要有:
1. 大量的檢測物體
與常規(guī)檢測數(shù)據(jù)集不同的是,每張圖片包含上百個待檢測物體,數(shù)據(jù)集總共含有 260 萬個標注框,如果使用占用顯存較大的模型,可能會出現(xiàn)資源不夠的情況。同時面對一些重疊的結(jié)果時,我們需要選擇合適的閾值去過濾出最好的結(jié)果。
2. 部分目標過小
因為數(shù)據(jù)集是由無人機拍攝而來,行人和遠景的物體的標注框就非常小,這對模型產(chǎn)生 anchor 的能力形成了一定的挑戰(zhàn),高分辨率的空間信息和高質(zhì)量的 proposal 在本次賽題中就顯得尤為重要。
3. 不同的數(shù)據(jù)分布
常用的數(shù)據(jù)集如:COCO 數(shù)據(jù)集、OBJ365 都是廣泛應用的數(shù)據(jù)集,所以大家經(jīng)常用它們的預訓練來 fine-tune 其他數(shù)據(jù)集。而這一次的數(shù)據(jù)集由于拍攝角度問題,預訓練所帶來的效果不如預期。
評測指標
為了進行綜合評估并反映每個對象類別的性能,本次測評采用類似于 MS COCO 數(shù)據(jù)集的評估方案,使用 AP, APIOU=0.50, APIOU=0.75, ARmax=1, ARmax=10, ARmax=100, 和 ARmax=500,且這些指標是基于 10 個對象類別計算出來的。
最終,來自電子科技大學的李宏亮團隊獲得了 Task1「圖像中的目標檢測」的冠軍;中科院信息工程研究所的葛仕明團隊獲得了 Task3「單目標跟蹤挑戰(zhàn)」的冠軍;來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI 團隊獲得了 Task2「視頻目標檢測」和 Task4「多目標追蹤」兩項冠軍。以下是 DeepBlueAI 團隊分享的解決方案
任務 2:視頻中的目標檢測
檢測器:Cascade RCNN + DCN + FPN + DH
團隊基于現(xiàn)有數(shù)據(jù)集,并結(jié)合以往檢測經(jīng)驗,打造了一個強大的目標檢測器。
1. Cascade RCNN
用低 IoU 閾值進?訓練會導致效果不好,因為會產(chǎn)?很多噪聲框;所以我們希望閾值盡量?,但 IoU 閥值設過?時,訓練出的 detector 效果卻會呈現(xiàn)下降趨勢。Cascade RCNN 將多個閾值越來越?的 detector 串聯(lián),得到了更好的效果。
首先,在每次 detector 計算后,IoU?的 bbox 的分布都會提升,使得下?階段更?閾值下正樣本的數(shù)量得到保證;其次,每經(jīng)過?次 detector 計算,bbox 都會變得更準確,更?的閾值可保證下?次回歸效果更好。
2. DCN(Deformable Convolution Network)
deformable convolution network 提出了「deformable convolution」和「deformable RoI pooling」兩種網(wǎng)絡結(jié)構(gòu)單元,deformable convolution 和 deformable RoI pooling 都是基于通過學習一個額外的偏移(offset),使卷積核對輸入 feature map 的采樣產(chǎn)生偏移,集中于感興趣的目標區(qū)域, 從而產(chǎn)生更好的感受野。
3. Double Heads
通過對比實驗可發(fā)現(xiàn):用 fc-head 去做分類,同時用 conv-head 去做回歸,可以實現(xiàn)最好的效果。因為分類更多的需要語義信息,而回歸坐標框需要更多的空間信息,這種方法采用「分而治之」的思想,針對不同的需求設計 head 結(jié)構(gòu),當然這種方法增加了計算量,在平衡速度和準確率的情況下,最后選擇了 3 殘差、2non-local,共 5 個模塊。
實驗細節(jié):
1. 我們將 Faster rcnn + DCN + FPN 作為我們的 baseline,因為這兩個模塊總是能在不同的數(shù)據(jù)集上起到效果。
2. 將原有 head 改為 Double head
3. 采用級聯(lián)檢測 (Cascade rcnn)
4. 將 ResNeXt101 作為 backbone
5. 使用 cascade rcnn COCO-Pretrained weight
6. 多尺度訓練+Testing tricks
實驗結(jié)果 (驗證集)
任務 4 : 多目標跟蹤
跟蹤算法:IOU tracker + KCF + tracklet vote
根據(jù)賽題描述與數(shù)據(jù)集分析結(jié)果,我們可以知道,如果圖中有大量目標且大部分都為小目標,在這種情況下仍然使用 reid 相關(guān)跟蹤算法的話,不僅最終效果不理想,而且也會在匹配排序的過程中耗費大量的資源,所以我們最終決定使用 iou-tracker。
原因:
使用不需要圖片信息,僅根據(jù)檢測結(jié)果的相鄰幀的 iou 進行計算;
iou-tracker 對檢測結(jié)果有著較高的要求,我們對自己的檢測結(jié)果有信心;
運行速度極快,不涉及到神經(jīng)網(wǎng)絡,節(jié)省時間和 GPU 資源。
MOT Pipeline:
難點:使用 iou tracker 之后,還是會不可避免地遇到斷幀 (一條軌跡無法全部預測,被預測為多個子段) 的問題,這樣會大大降低最后的得分,所以我們使用 KCF 對現(xiàn)有結(jié)果進行一個更新。
KCF 的原理極為復雜,但 KCF 作用就是根據(jù)現(xiàn)有結(jié)果使用傳統(tǒng)算法,去預測之后幾幀的結(jié)果,這相當于對一些丟失的信息進行補充的操作。
得到新的軌跡之后再使用 IOU 相關(guān)投票融合方法,將更新后的結(jié)果融合,融合過程如圖所示:
KCF 更新軌跡之后,正常情況下軌跡之間就會有相互重疊的地方,我們使用一個基于 IOU 的投票方法,如果軌跡之間重疊部分的投票結(jié)果大于某個閾值,就將這兩個軌跡進行融合。
實驗細節(jié):
1. 我們將任務二中的檢測結(jié)果當做輸入,先使用 GOG 方法作為我們的 baseline
2. 將方法改為 IOU tracker
3. 調(diào)整閾值,以及一些測試技巧
4.+KCF +tracklet voting
5. 得到更好的檢測結(jié)果
實驗結(jié)果 (驗證集)
實驗數(shù)據(jù)。
下一步工作
在檢測方面,在網(wǎng)絡結(jié)構(gòu)上有一些其他可以使用的模塊,例如「PAFPN--FPN 的改進版」,可以在特征提取之后更好地處理各層級之間的信息;以及「GCnet」,一種結(jié)合了兩個不錯的 attention 機制所得到的網(wǎng)絡,等等。
由于時間的限制,在更新原有跟蹤結(jié)果的時候,我們使用的是比較傳統(tǒng)的 KCF 算法,這類算法比較節(jié)省時間,但同時也有很大的局限性。如果有機會,以后想嘗試一些更好的、基于神經(jīng)網(wǎng)絡的方法進行更新。
參考文獻
[1]Lin T Y , Dollár, Piotr, Girshick R , et al. Feature Pyramid Networks for Object Detection[J]. 2016.
[2]Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.
[3]Cai Z , Vasconcelos N . Cascade R-CNN: Delving into High Quality Object Detection[J]. 2017.
[4]Xie S , Girshick R , Dollar P , et al. Aggregated Residual Transformations for Deep Neural Networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society, 2017.
[5]Bochinski E , Eiselein V , Sikora T . High-Speed tracking-by-detection without using image information[C]// 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2017.
[6]Henriques J F , Caseiro R , Martins P , et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3):583-596.
2025-09-12 11:30
2025-09-11 10:41
2025-09-09 10:52
2025-09-04 21:58
2025-08-28 11:13
2025-08-27 14:14
2025-08-26 13:50
2025-08-23 20:37
2025-08-22 10:33
2025-08-18 14:20