上海交大盧策吾團(tuán)隊在《自然》機(jī)器智能子刊發(fā)表成果
圖1 動作理解任務(wù)的時空信息特征圖。左:輸入序列;右:空間特征更關(guān)注物體形狀,時間特征更關(guān)注物體運動趨勢。
● ● ●
引言:近期,上海交通大學(xué)盧策吾團(tuán)隊在《自然》機(jī)器智能雜志子刊上發(fā)表關(guān)于高維度視覺序列理解上的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。上海交通大學(xué)是該論文的唯一單位,這也是我校第一篇入選該期刊的論文。與此同時,該團(tuán)隊將該論文代碼與近兩年在視頻理解領(lǐng)域的先進(jìn)成果開源為視頻理解工具箱:AlphaVideo。在物體跟蹤任務(wù)(MOT)和行為理解(AVA單模型)上都達(dá)到最高準(zhǔn)確率。
圖2 時空概念提取展示
人類視覺理解機(jī)理
在人類的視覺認(rèn)知過程中時間和空間概念解耦。神經(jīng)科學(xué)領(lǐng)域的研究發(fā)現(xiàn)在人類的記憶形成過程中,時間信息與空間上下文信息是通過兩個相對獨立的信息通路到達(dá)海馬體以形成完整的記憶。
新技能:自主學(xué)習(xí)時空概念
通過模仿人類的認(rèn)知機(jī)制,本文提出了應(yīng)用于高維度信息的半耦合結(jié)構(gòu)模型(SCS)。SCS自主發(fā)掘(awareness)時間-空間概念,并讓他們耦合協(xié)作以理解序列信息。這種能力代表著機(jī)器學(xué)習(xí)模型自主掌握了時空的概念,這是一種更高層的智能。更進(jìn)一步,時空信息概念的分離也讓 “概念編輯” 成為了可能。
半耦合結(jié)構(gòu)模型
半耦合結(jié)構(gòu)首先解耦時空信息(模仿人腦中的兩條信息通路),并在分別處理時間和空間信息之后將二者耦合(模仿海馬體):

通過堆疊這種半耦合的元結(jié)構(gòu),我們可以構(gòu)建深度模型。其中時空信息始終以先解耦再融合的模式向后流動。為了讓和各司其職,研究者們將和設(shè)計為不對稱的結(jié)構(gòu),同時,使用兩個特殊的監(jiān)督目標(biāo) 來進(jìn)一步約束二者關(guān)注自己的工作。研究者們進(jìn)一步提出了一種訓(xùn)練的注意力機(jī)制。這種注意力機(jī)制控制著模型在優(yōu)化過程中學(xué)習(xí)哪種信息。例如在視頻信息中,模型可以優(yōu)先將注意力集中在空間信息上,待空間信息有效且穩(wěn)定時,逐步將模型訓(xùn)練的注意力轉(zhuǎn)換到時間信息上。
SCS的表現(xiàn)如何?
任務(wù)性能對比與傳統(tǒng)LSTM比較,代碼:
https://doi.org/10.5281/zenodo.3679134
任務(wù) | 數(shù)據(jù)集 | 提高比例 |
自動駕駛 | LiVi | 20.2% |
Comma | 14.2% | |
天氣云圖預(yù)測 | REEC-2018 | 13.1% |
動作識別 | Kinetics | 14.5% |
UCF101 | 27.5% | |
HMDB51 | 52.3% | |
物體輪廓標(biāo)記 | CityScapes | 15.6% |
SCS在視頻動作分類,自動駕駛,天氣預(yù)報等4個任務(wù)上的性能都超越了傳統(tǒng)的序列模型。
概念編輯
有了時空分離的能力,SCS將可以初步做到“概念編輯”。比如,通過編輯空間概念且保留時間概念,我們可以讓一個原本用于預(yù)測狗的運動軌跡的模型做到預(yù)測貓的軌跡。這樣將以比較小的代價實現(xiàn)模型的泛化,同時也擴(kuò)寬模型的使用場景與部署難度,如圖4。
圖3 概念編輯demo
我們讓計算機(jī)看Flappy Bird的視頻,然后看一張靜態(tài)的Mario圖片(外觀形象)。在這個過程中,模型并沒有接觸到任何mario在管道中穿梭的運動信息。通過“概念編輯”,測試時SCS也可以準(zhǔn)確地預(yù)測mario的運動軌跡。
視頻理解工具箱AlphaVideo
視頻理解工具箱AlphaVideo中,除了上述SCS時空概念分解,我們也提供了單階段端對端訓(xùn)練的多目標(biāo)跟蹤模型TubeTK和視頻動作檢測模型AlphAction。使用一行代碼,即可調(diào)用預(yù)訓(xùn)好的各類模型。
AlphAction
AlphAction是面向行為理解的開源系統(tǒng),基于MVIG提出的交互理解與異步訓(xùn)練策略在AVA數(shù)據(jù)集上達(dá)到最好準(zhǔn)確率,速度達(dá)到10幀每秒。15個開源的常見行為基本模型mAP達(dá)到約70%,接近可以商用的水平。
TubeTK
TubeTK是上海交大MVIG組提出的基于Bounding-Tube的單階段訓(xùn)練模型(CVPR2020-oral),是第一個單階段可以端對端訓(xùn)練的多目標(biāo)跟蹤模型,在MOT-16數(shù)據(jù)集上達(dá)到了66.9MOTA的精度。這是目前online模型僅在MOT訓(xùn)練數(shù)據(jù)下達(dá)到的最高精度。

圖4 Bounding-Tube示意圖
使用bounding-tube可以輕松跟蹤到bounding-box無法檢測到的被遮擋目標(biāo)(圖中黃色框)
參考文獻(xiàn)
[1] Kitamura, T. et al. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).
[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).
[3] https://motchallenge.net/tracker/3184&chl=5
[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).
[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv:2004.07485.
作者簡介
盧策吾
上海交通大學(xué)特別研究員。在他加入交大之前,他是斯坦福大學(xué)人工智能實驗室研究員。他的研究興趣主要集中在機(jī)器人、人工智能和機(jī)器人計算機(jī)視覺。擔(dān)任《科學(xué)》《自然》人工智能方向?qū)徃迦?,CVPR 2020的領(lǐng)域主席。他還入選了MIT TR35-《麻省理工技術(shù)評論》35位35歲以下的創(chuàng)新者,求是杰出青年學(xué)者(近三年唯一AI方向)。
Homepage: http://mvig.sjtu.edu.cn/
龐 博
上海交通大學(xué)在讀博士生,上海交通大學(xué)計算機(jī)系學(xué)士。主要研究方向為計算機(jī)視覺和深度學(xué)習(xí),尤其是視頻理解算法包括動作理解,多目標(biāo)跟蹤,視頻關(guān)鍵點估計等。
Homepage: https://bopang1996.github.io
湯佳俊
上海交通大學(xué)在讀碩士生,上海交通大學(xué)計算機(jī)系學(xué)士。主要研究方向為計算機(jī)視覺和深度學(xué)習(xí),尤其是視頻動作理解算法。
注:本文轉(zhuǎn)載于上海交通大學(xué)人工智能研究院。