一花一樹一城,走進(jìn)三維重建的絢麗世界|專訪權(quán)龍
圖說:在雷鋒網(wǎng)舉辦的“第二屆中國人工智能安防峰會”中,權(quán)龍教授發(fā)表了“三維視覺重新定義人工智能安防”的演講。
他在九十年代視覺三維重建(3D reconstruction)的基礎(chǔ)理論奠基方面做出了杰出貢獻(xiàn)。 在2000年以后,他又在三維重建應(yīng)用領(lǐng)域做了一系列基于圖像的建模(image-based modeling)的工作。最近,他還和學(xué)生創(chuàng)建了Altizure公司,打造了世界上最好的三維重建平臺。
撰文 | 邸利會
二月的圣地亞哥陽光明媚,春暖花開。2019年CVPR(IEEE國際計算機視覺與模式識別會議)的領(lǐng)域主席會議后,30多名華人主席在拉荷雅海灘邊的一個中餐館聚餐,回顧近40載的計算機視覺研究,頗為感慨——
八九十年代參加CVPR會議的華人寥寥無幾,而2019年的CVPR,華人的領(lǐng)域主席就有40多位,可謂“三分天下有其一”,還有2位程序委員會主席,1位總主席。在這一領(lǐng)域,華人的實力已是今非昔比。
篳路襤褸,以啟山林。在有影響的華人研究者中,不乏我們耳熟能詳?shù)拿?,如馬頌德、譚鐵牛、沈向洋、張正友、朱松純、馬毅、湯曉鷗、李飛飛、孫劍等等。權(quán)龍教授更是最早的少數(shù)幾個為整個領(lǐng)域所熟悉的華人教授。
從1988年第二屆國際計算機視覺大會(ICCV)開始,權(quán)龍教授就開始在這些視覺頂級會議上發(fā)表論文,他長期擔(dān)任該會的領(lǐng)域主席,2011年還擔(dān)任了該會的大會主席,2022年將再次出任CVPR大會主席。
三維重建的歐洲力量
權(quán)龍的計算機視覺研究始于改革開放后的八十年代。1984年畢業(yè)于北方交通大學(xué)(現(xiàn)北京交通大學(xué))后,同年考取教育部派遣的留學(xué)生赴法留學(xué),在法國國家信息與自動化研究院(INRIA)獲得博士學(xué)位,加入法國國家研究中心(CNRS),他也是1990年建立的INRIA Grenoble計算機視覺組最早的成員。
在法國國家實驗室INRIA 任職多年后,2001他回國加入香港科技大學(xué),建立計算機視覺研究組。幾十年來,他一直活躍在學(xué)界和產(chǎn)業(yè)界前沿。
在計算機視覺領(lǐng)域,權(quán)龍教授建樹頗豐。
他在九十年代視覺三維重建(3D reconstruction)的基礎(chǔ)理論奠基方面做出了杰出貢獻(xiàn)。 在2000年以后,他又在三維重建應(yīng)用領(lǐng)域做了一系列基于圖像的建模(image-based modeling)的工作。最近,他還和學(xué)生創(chuàng)建了Altizure公司,打造了世界上最好的三維重建平臺。
計算機視覺是非常寬泛的研究領(lǐng)域,涉及多個學(xué)科(如算法、幾何、光學(xué)、機器學(xué)習(xí)等)的交叉。在各個時期,計算機視覺研究也有著非常顯著的不同。2012年后的主要風(fēng)尚毫無疑問是以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)下的識別。但在此之前的相當(dāng)長時間里,計算機視覺研究的中心問題是三維重建。
權(quán)龍教授曾介紹說,計算機視覺中的三維重建的核心問題就是通過多目的視差獲取三維信息,識別不同視角下的圖像,對每一個像素進(jìn)行識別與匹配,然后進(jìn)行三維重建。在完成幾何三維重建后,再進(jìn)一步對三維信息進(jìn)行語義識別,這也是重建的最終目的。
回顧計算機視覺的發(fā)展,1992年Olivier Faugeras 的論文“What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig”發(fā)表,標(biāo)志著三維視覺的崛起。到2001年Richard Hartley和Andrew Zisserman 的教材”Multiple View Geometry in Computer Vision”出版,標(biāo)志著三維視覺領(lǐng)域的基本理論框架確立。這十年是三維視覺群星閃耀的十年,涌現(xiàn)了Oliver Faugeras, Richard Hartly, Andrew Zisserman, Luc Van Gool 等等一系列以歐洲學(xué)者為代表的如雷貫耳的名字。
當(dāng)時在法國國家實驗室INRIA工作的權(quán)龍、張正友(現(xiàn)騰訊 AI Lab 主任)就是這群星當(dāng)中的華人代表。
六點算法
權(quán)龍教授的代表作是他1995年發(fā)表的六點算法(“Invariants of six points and projective reconstruction from three uncalibrated images”)。
90年代計算機視覺領(lǐng)域的第一熱點是三維重建,而用非標(biāo)定相機(uncalibrated camera)重建則是三維重建的終極目標(biāo)。Oliver Faugeras和Richard Hartley在1992年各自獨立地解決了非標(biāo)定相機兩張圖像下的三維重建問題,引入了基于七點算法的基礎(chǔ)矩陣(Fundamental Matrix)的概念。也正是這項工作開創(chuàng)了三維視覺的黃金時代。
權(quán)教授的六點算法解決了非標(biāo)定相機三張圖像下的三維重建,進(jìn)而也在理論上徹底解決了多視重建的幾何問題(multi-view geometry)。因為更多的圖像并不引入新的幾何約束和結(jié)構(gòu),而更少的兩張圖像并不具有重建的唯一性。所以這項工作和Oliver Faugeras/Richard Hartley的工作一起奠定了三維重建的理論基礎(chǔ)。
權(quán)教授1995年的這篇論文可以說完全是一篇幾何學(xué)論文,論證嚴(yán)密,思路清晰,富有技巧。在計算機視覺領(lǐng)域這種風(fēng)格的論文并不多。
這篇文章從幾何不變量的角度研究三維重建,首次建立了六個三維點的不變量和它們在圖像中的投影點的不變量之間的一個雙線性方程,并構(gòu)造性的給出了在三張輸入圖像下三維點的不變量的代數(shù)閉式解(closed-form solution),最終從這些不變量推導(dǎo)出相機的三維姿態(tài)和重建的三維點的坐標(biāo)。
這篇論文奠定了非標(biāo)定相機三維重建的最小數(shù)據(jù)與重建的唯一性,即六個點和三幅圖像。幾乎所有的基于非標(biāo)定相機的三維重建都是基于這個算法。
在很長一段時間,權(quán)龍教授實驗室的三維重建算法在性能上處于遙遙領(lǐng)先的地位。然而,了解這項工作的年輕學(xué)者并不太多,一方面是因為論文太數(shù)學(xué),不好懂。另一方面,現(xiàn)代數(shù)碼相機的標(biāo)定相對容易,因此很多后繼實際工作都可用David Nister于2004年提出的定標(biāo)下的五點算法。但這些都不能掩蓋六點算法在計算機視覺三維重建的理論貢獻(xiàn)、數(shù)學(xué)優(yōu)美和歷史地位。
從頭發(fā)到城市
在三維重建的基本問題得以解決以后,一個最自然而然的應(yīng)用就是用圖像來建立物體的完整幾何模型。這個應(yīng)用就是所謂的基于圖像的建模。它是計算機視覺和圖形學(xué)的結(jié)合以及共同關(guān)注的問題。
權(quán)龍教授實驗室利用領(lǐng)先和強大的三維重建算法與技術(shù),將基于圖像的建模推到了一個新的高度。
2005年,權(quán)龍教授實驗室發(fā)表了第一篇基于圖像的對細(xì)小物體頭發(fā)的建模。緊接著,又在2006年、2007年分別發(fā)表了基于圖像的植物、樹木建模。到了2008、2009年更是把這個基于圖像的建模拓展到了街道、城市的規(guī)模。
這一系列論文都發(fā)表在圖形學(xué)界的頂級刊物SIGGRAPH大會,標(biāo)題整齊劃一,都是統(tǒng)一的“Image-based X modeling”。X從2004年的hair一直變換到2009年的city。這些工作引起了圖形學(xué)界的驚嘆。
權(quán)教授很多學(xué)生都是計算機視覺領(lǐng)域的佼佼者。
在INRIA Grenoble時他指導(dǎo)的學(xué)生Peter Sturm和Maxime Lhuillier,如今是引領(lǐng)法國視覺界的知名教授。1998年,Peter Sturm在權(quán)教授指導(dǎo)下的博士論文獲得了法國首屆最優(yōu)計算機博士論文獎。權(quán)教授的學(xué)生還有在三維視覺與機器人領(lǐng)域頗出色的譚平教授、自動駕駛公司AutoX 創(chuàng)始人肖健雄、Altizure CEO 聯(lián)合創(chuàng)始人方天、北大教授曾剛,曠世上海研究院負(fù)責(zé)人危夷晨,微軟研究院資深研究員王井東、袁路,大疆張宏輝等等,可謂桃李滿天下。
除了學(xué)術(shù)研究、培養(yǎng)學(xué)生,權(quán)龍教授近年更是把這些計算機視覺重建科研成果轉(zhuǎn)化成產(chǎn)品,和學(xué)生共同創(chuàng)辦了Altizure人工智能初創(chuàng)企業(yè)。普通用戶可以通過手機或是無人機拍攝圖像,并通過Altizure的云平臺識別圖像以及從圖像中重建出高質(zhì)量的三維模型。這一云平臺更發(fā)展為大規(guī)模城市重建以及智慧城市時空平臺的核心。
作為三維重建領(lǐng)域的頂尖學(xué)者,權(quán)龍教授還被邀請在各個場合向業(yè)界、公眾普及計算機視覺,尤其是三維重建的研究與應(yīng)用。在最近雷鋒網(wǎng)舉辦的“第二屆中國人工智能安防峰會”中,權(quán)龍教授發(fā)表了“三維視覺重新定義人工智能安防”的演講。在演講結(jié)束后,權(quán)龍教授接受了《賽先生》的獨家專訪(Liao tian),聊了聊他眼中的計算機視覺、三維重建以及可能對我們產(chǎn)生的影響。
《賽先生》:您剛開始是怎樣走上計算機視覺研究的路?
權(quán)龍:我是80年上北方交大的,1984年畢業(yè)考取教育部赴法留學(xué)生。八十年代,人工智能也是熱點,和現(xiàn)在有點像,我當(dāng)時去法國第一志愿就是“人工智能”。八十年代,當(dāng)年法國的PROLOG作為人工智能語言引領(lǐng)人工智能以及第五代計算機的發(fā)展。
那個時候我本來是想做人工智能的研究,在修“人工智能”這門課時,發(fā)現(xiàn)講來講去實質(zhì)上就是一些搜索算法,并沒有太多我所期待的“智能”。我其實對這樣定義的人工智能是比較失望的。
法國那個大的研究中心有做語音的、圖像的、邏輯的、專家系統(tǒng)的,什么都有,當(dāng)時已經(jīng)在做神經(jīng)網(wǎng)絡(luò),也叫連接性或連接主義(connectionism)。我同辦公室的兩個法國同學(xué)就是做的神經(jīng)網(wǎng)絡(luò),當(dāng)時拿不出很好的結(jié)果,還不夠有說服力。
在我選擇研究方向時,因為我小時候在太原市少年宮學(xué)美術(shù),我對圖像和空間有著濃厚的興趣,就決定做圖像理解,就是計算機視覺了。
1987年的時候,我的博士導(dǎo)師Roger Mohr教授去參加了第一屆在倫敦舉辦的國際計算機視覺大會(ICCV),第一屆會議論文集我現(xiàn)在還保留著。第二年,第二屆的國際計算機視覺大會在美國佛羅里達(dá)的坦帕(Tampa)舉辦,我發(fā)了一篇論文。當(dāng)時我們視覺小組在我導(dǎo)師的帶領(lǐng)下一行四人,Mohr、Tombre、Masini,先乘火車到盧森堡,再飛到佛羅里達(dá)。那也是我第一次從法國到美國。
《賽先生》:當(dāng)時歐洲計算機視覺研究狀況是怎樣的?
權(quán)龍:最早很多人認(rèn)為計算機視覺就是一些圖像處理,但其實圖像處理和計算機視覺還是不一樣的。歐洲計算機視覺發(fā)展飛快。 他們可能更加理性與笛卡爾主義, 在一定意義上把視覺當(dāng)作一個應(yīng)用數(shù)學(xué)問題。
歐洲當(dāng)時有歐盟的聯(lián)合基礎(chǔ)研究項目,三維視覺其實就是在這些歐盟的聯(lián)合項目中發(fā)展起來的,當(dāng)時比較活躍的有法國的INRIA、牛津大學(xué)、瑞典KTH,、比利時 KU Leuven 等等。三維重建需要更多的傳統(tǒng)數(shù)學(xué)知識,這批研究人員都有非常好的應(yīng)用數(shù)學(xué)基礎(chǔ),那就用數(shù)學(xué)工具去解這些視覺問題。
在美國一直有著最大和最活躍的視覺研究人員與學(xué)生,大家一直也在嘗試不同的方向,在應(yīng)用領(lǐng)域比較活躍,但方向并不是非常清晰。這要等到2012年之后的這一波人工智能,大部分視覺分類,識別與特征提取與表述的任務(wù)都被卷積神經(jīng)網(wǎng)絡(luò)重新定義了。
卷積神經(jīng)網(wǎng)絡(luò)發(fā)明者LeCun是1987年從法國獲得博士學(xué)位。他能夠在神經(jīng)網(wǎng)絡(luò)沒有被視覺界接受時,能相信、堅持與發(fā)展卷積神經(jīng)網(wǎng)絡(luò),太值得我們研究人員的學(xué)習(xí)與尊敬。2012年之前,所有計算機視覺文章里面,如你用了神經(jīng)網(wǎng)絡(luò),可能直接就被拒掉了。而今天是反過來,如果你文章中沒有神經(jīng)網(wǎng)絡(luò),審稿人可以懷疑你的創(chuàng)意。
《賽先生》:但不少學(xué)者也表示,深度學(xué)習(xí)引領(lǐng)的計算機視覺也有很多挑戰(zhàn),比如對噪聲不敏感、穩(wěn)健性不好、缺乏可解釋性等?
權(quán)龍:當(dāng)然有這樣的問題。計算機視覺研究是個反向逆問題, ill-posed, 沒有完美的答案。研究是不會有止境的,需要持續(xù)往前走。需要更好的理論來解釋現(xiàn)在取得的成果。三維重建的應(yīng)用,主要是兩個問題,一個是設(shè)備,說的是數(shù)據(jù)采集是不是方便;另外就是算力也是不夠的?,F(xiàn)在很多視覺的應(yīng)用,比如自動駕駛、AR、VR都需要實時三維重建,要做到實時三維重建,哪個不酷?問題是算力跟不上。
《賽先生》:算法不是那么太重要,是吧?
權(quán)龍:不是。算法最重要!但要達(dá)到實用,只有算法是不夠的,還要有算力。從1998年到2012年,那個卷積神經(jīng)網(wǎng)絡(luò)算法和模型基本上沒有太大的改動。不過,工程實現(xiàn)上的進(jìn)步也非常偉大。如此龐大的數(shù)據(jù)量和如此大規(guī)模高維的優(yōu)化或?qū)W習(xí)算法能夠收斂成功也確實是創(chuàng)舉。
其實,現(xiàn)在很多算法先是考慮結(jié)果。所以,實踐者是先行者,先把這些算法設(shè)計和調(diào)試出來,然后再去驗證,然后希望在數(shù)學(xué)上能夠得到更好的解釋與證明。路漫漫,還有很多理論工作需要完成。
《賽先生》:深度學(xué)習(xí)這一波還會持續(xù)一段時間,下一步有沒有看到一些苗頭,突破在哪里?
權(quán)龍:沒有人可以預(yù)測未來。社會對人工智能的熱情,這是一件好事,全社會各行各業(yè)都在關(guān)注,推進(jìn)人工智能的發(fā)展。但作為一個研究人員,我們也要講究嚴(yán)謹(jǐn),可能會更趨向保守一些,因為我們確實知道現(xiàn)時的深度學(xué)習(xí)能夠做什么事情,做不到什么事情。有太多的事情現(xiàn)在并做不到。
《賽先生》:感覺好像還沒有殺手锏式的落地的例子?
權(quán)龍:落地應(yīng)用已有很多,但也要看我們的期望。視頻監(jiān)控以前沒有深度學(xué)習(xí)也照樣監(jiān)控,不是嗎?監(jiān)控里面一個關(guān)鍵問題是如何采集數(shù)據(jù),如果可以高效地采到高質(zhì)量的數(shù)據(jù),許多問題也將不是問題。
《賽先生》:怎么看自動駕駛?
權(quán)龍:你應(yīng)該問問AutoX的肖健雄(參見 無人車即將落地,但可能不是你想的那樣|專訪Professor X)。我個人認(rèn)為自動駕駛現(xiàn)在理論、技術(shù)上是成熟的,關(guān)鍵是成本問題。如果放幾百萬昂貴的傳感器放進(jìn)車?yán)?,許多問題都不是問題了。
《賽先生》:您培養(yǎng)了很多優(yōu)秀的學(xué)生,在培養(yǎng)學(xué)生方面有什么樣的訣竅?
權(quán)龍:沒有訣竅,要有最優(yōu)秀的學(xué)生,然后方向正確即可。要有好的學(xué)校,這樣才有可能招到優(yōu)秀的研究生。如果要在學(xué)術(shù)的最高層次去創(chuàng)新的話,最優(yōu)秀的學(xué)生是必須的。
《賽先生》:具體怎么培養(yǎng)?
權(quán)龍:因為你自己要非常清楚這個領(lǐng)域的發(fā)展,你知道問題所在,你可以指出正確的方向。差別就在這里,世界上搞研究都是這樣的,你是不是知道問題在哪里,不是這樣嗎?確實是外行看熱鬧,內(nèi)行看門道。
《賽先生》:說說您創(chuàng)立的公司Altizure,當(dāng)初創(chuàng)辦這樣一家公司的想法是怎樣的?
權(quán)龍:三維重建中數(shù)據(jù)的來源是關(guān)鍵。硬件的普及是最大的推動力。相機已是相當(dāng)普及,每個人的智能手機都有一個像機,并且足夠好可以用于重建。不只是手里的相機,消費級無人機的出現(xiàn),也改變了我們的視野,有了會飛的像機,利用無人機數(shù)據(jù)采集可以完全自動化,推出了許多激動人心的應(yīng)用場景。地面上現(xiàn)在車載相機也在推動著無人駕駛這個極為廣泛的市場。
《賽先生》:現(xiàn)在每個人上傳照片以后,就可以合成一個三維圖像,感覺很好玩,但從產(chǎn)品或者服務(wù)形態(tài)上,力道似乎不夠?
權(quán)龍:你看到的這個網(wǎng)站只是我們面向消費者的一個門戶,首先我們希望無人機飛手慢慢把整個地球一塊一塊的要重建出來,打造一個眾包的Google Earth。
面向消費用戶只是一個方面,更多的應(yīng)用是面向企業(yè)和政府,2B和2G。
我們在做城市級的實景三維,它是智慧城市和安防的基礎(chǔ),市場巨大。我們也為企業(yè)提供數(shù)據(jù)處理,這些大規(guī)模數(shù)據(jù)更多是來自測繪和地理信息行業(yè)。
《賽先生》:學(xué)術(shù)界和產(chǎn)業(yè)界之間如何建立一個良好的互動?
權(quán)龍:計算機視覺的初期由于算法和算力,應(yīng)用場景局限大,更偏向于學(xué)術(shù)研究?,F(xiàn)在的計算機視覺,它的應(yīng)用場景非常寬,市場也很龐大。
這個變化是好事,科學(xué)與技術(shù)的發(fā)展如能夠提高生產(chǎn)力,產(chǎn)生實用價值,這才是它的終極目標(biāo)。當(dāng)然另一方面也會影響學(xué)術(shù)氣氛,學(xué)術(shù)純凈度會降低,因為也參雜了資本和市場的干預(yù)??偟膩碚f,我認(rèn)為學(xué)術(shù)界、產(chǎn)業(yè)界人才互相流動是好事,有助于領(lǐng)域的健康發(fā)展。
《賽先生》:所以您對學(xué)生也不做什么推薦,比如說留在學(xué)界或者去產(chǎn)業(yè)界?
權(quán)龍:沒有。我覺得所有東西都是一個自然發(fā)展,每個人的追求是不同的,有些人可能更喜歡走學(xué)術(shù),另外一些人可能更喜歡走工業(yè)界,這都是很自然的。但你要看到這個現(xiàn)實,幾年前計算機視覺在工業(yè)界是沒有市場的,那做的好的唯一能干什么,不就是到學(xué)校去嗎?現(xiàn)在有了這樣的市場,多了一份選擇,我覺得對學(xué)生來講是好事。
《賽先生》:現(xiàn)在建設(shè)港粵港澳大灣區(qū),您怎么看?
權(quán)龍:這是非常好的一件事。香港培養(yǎng)那么多人才,是因為之前經(jīng)濟發(fā)達(dá)有條件建了一些好學(xué)校,可以培養(yǎng)好學(xué)生,這些學(xué)生出來可以活躍在這些行業(yè)。
廣東本來的學(xué)術(shù)是偏弱的,深圳也沒有太多的研究性的高校,沒有北京上海那么多。因為人才畢竟會考慮學(xué)術(shù)和生活的兼顧,如果有一個生活不錯的地方同時可以靜下心來做研究,才是比較理想的。從宏觀角度來講,大灣區(qū)的建設(shè)是非常好的一件事情。現(xiàn)在大家都是一家灣區(qū)人,我覺得大灣區(qū)是非常有生命力的,欣欣向榮,甚至比硅谷更有生命力,要相信人,相信資本,相信市場,只要給他好的條件,其實很多東西你不需要去管它,就會生長。