通過(guò)觸覺(jué)“看”世界,MIT“超能”機(jī)器人誕生
機(jī)器人又向人類接近了一步!MIT的科學(xué)家們教會(huì)了它們聯(lián)結(jié)感官,讓它們能通過(guò)視覺(jué)和觸覺(jué)來(lái)識(shí)別物體。
撰文 | 李薇達(dá)
我們先來(lái)做一個(gè)小測(cè)試,假如現(xiàn)在擺在你面前的是一盆仙人掌,你愿意用力把雙手按到仙人掌上嗎?
相信大部分人會(huì)拒絕這樣無(wú)厘頭的要求,因?yàn)楣馐强纯聪扇苏频募獯叹湍芟胂蟪鏊鼈冊(cè)绞稚系母杏X(jué)。
我們?nèi)祟惸芎茌p易地通過(guò)觀察物體的外觀知道它的觸感,或者閉眼觸摸某物體就能在心里描繪它的模樣,但是對(duì)于機(jī)器來(lái)說(shuō),要把多個(gè)感官聯(lián)系起來(lái)卻是個(gè)巨大的挑戰(zhàn)。
近日,來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究人員發(fā)表了一篇論文并宣布,他們研發(fā)出一種新型人工智能系統(tǒng),這一系統(tǒng)能讓機(jī)器人像人類一樣聯(lián)結(jié)多種感官,即能夠從觸覺(jué)信號(hào)生成物體的視覺(jué)表象,并從視覺(jué)數(shù)據(jù)片段預(yù)測(cè)物體的觸感。
契機(jī)
論文的第一作者李昀燭(圖片由本人提供)
論文第一作者,CSAIL的博士生李昀燭告訴“賽先生”,觸覺(jué)和視覺(jué)對(duì)人和物理世界的交互非常重要,在這個(gè)過(guò)程中,我們培養(yǎng)了很強(qiáng)的跨模態(tài)預(yù)測(cè)的能力。比如看到一個(gè)平坦或者粗糙的表面,我們能直接想象出觸感,即通過(guò)“看”來(lái)“感覺(jué)”;當(dāng)我們閉上眼睛四處摸索的時(shí)候,我們能通過(guò)觸覺(jué)反饋來(lái)想象我們摸到的東西,即通過(guò)“感覺(jué)”來(lái)“看”。于是研究人員們希望讓機(jī)器人也具備這樣的能力,即“l(fā)earning to feel by seeing and learning to see by touching”。
如何實(shí)現(xiàn)
機(jī)器臂和傳感器(圖源:《Connecting Touch and Vision via Cross-Modal Prediction》)
團(tuán)隊(duì)在一個(gè)KUKA機(jī)械手臂上放置了名為GelSight的觸覺(jué)傳感器(該傳感器由麻省理工學(xué)院Edward H. Adelson教授所在的實(shí)驗(yàn)室研發(fā)),并讓這只手臂去戳弄不同的物體。GelSight表面有一層薄膜,在接觸物體的過(guò)程中會(huì)發(fā)生形變,進(jìn)而采集到高質(zhì)量的觸覺(jué)數(shù)據(jù)。
同時(shí)他們還設(shè)置了一個(gè)獨(dú)立的網(wǎng)絡(luò)攝像頭來(lái)進(jìn)行記錄。
為了教會(huì)AI如何通過(guò)觸摸來(lái)識(shí)別物體,團(tuán)隊(duì)記錄了超過(guò)12000個(gè)機(jī)器手臂觸摸近200個(gè)物體(包括工具,織物和各種家用產(chǎn)品)的視頻。然后,研究人員把這一萬(wàn)兩千多個(gè)視頻片段分解成單獨(dú)的幀,獲得了一個(gè)超300萬(wàn)視覺(jué)/觸覺(jué)配對(duì)圖像的數(shù)據(jù)集——VisGel。
操作過(guò)程,綠框中為實(shí)際情況,紅框中為預(yù)測(cè)情況(圖源:visgel.csail.mit.edu)
有了這個(gè)數(shù)據(jù)集,當(dāng)AI模型辨認(rèn)到接觸位置的形狀和材料,它就能將當(dāng)前幀與參考圖像進(jìn)行比較,以識(shí)別觸摸的位置和范圍。另外,參考圖像有助于將物體和環(huán)境的細(xì)節(jié)進(jìn)行編碼,使機(jī)器學(xué)習(xí)模型能夠自我改進(jìn)。
除了VisGel數(shù)據(jù)集,團(tuán)隊(duì)還采用了一種叫對(duì)抗式生成網(wǎng)絡(luò)(generative adversarial networks,GANs)的技術(shù)。從字面意思不難猜到它會(huì)涉及兩個(gè)“對(duì)手”,一個(gè)稱為Generator(生成器),一個(gè)稱為Discriminator(鑒別器),生成器的目標(biāo)是創(chuàng)建真實(shí)的圖像來(lái)“欺騙”鑒別器。每次鑒別器“捕獲”生成器時(shí),它必須暴露內(nèi)部推理來(lái)做決定,這就允許生成器可以依此來(lái)反復(fù)改進(jìn)自身。
研究中的挑戰(zhàn)
研究過(guò)程中,觸覺(jué)傳感器要收集大規(guī)模數(shù)據(jù)(圖源:visgel.csail.mit.edu)
對(duì)李博士和他的團(tuán)隊(duì)成員來(lái)說(shuō),這項(xiàng)研究最大的問(wèn)題在于觸覺(jué)傳感器的選擇以及大規(guī)模數(shù)據(jù)集的收集。另外,由于視覺(jué)關(guān)注的信息相比觸覺(jué)會(huì)宏觀很多,如何處理這種比例上的差距也是研究過(guò)程中遇到的一個(gè)比較大的問(wèn)題。
與此同時(shí),目前收集到的數(shù)據(jù)均為在受控環(huán)境中的交互樣本,團(tuán)隊(duì)希望通過(guò)收集在更多不受控環(huán)境中的數(shù)據(jù),或者使用MIT設(shè)計(jì)的新型觸覺(jué)手套來(lái)增加數(shù)據(jù)集的樣本多樣性和數(shù)量。
其次,該系統(tǒng)現(xiàn)在還不能僅通過(guò)觸摸來(lái)判斷物體的顏色,也不能不觸摸沙發(fā)就判斷它有多軟。不過(guò),研究人員認(rèn)為可以通過(guò)建立更多模型,擴(kuò)大可能結(jié)果的分布來(lái)改善這一點(diǎn)。
應(yīng)用意義
李博士認(rèn)為這項(xiàng)研究能夠讓機(jī)器人抓取變得更有效率,他表示:“如果我們能幫助機(jī)器人在觸摸物體之前就預(yù)測(cè)‘感覺(jué)’,那么在規(guī)劃?rùn)C(jī)器人抓取的時(shí)候,就能更高效,比如我們會(huì)更傾向于抓取看上去摩擦力更大的部位;同樣的,如果我們能幫助機(jī)器人從‘感覺(jué)’來(lái)想象物體,那么在光線條件比較差的情況下也能很好的工作,比如伸到盒子或者口袋里進(jìn)行抓取。”
加州大學(xué)伯克利分校博士后研究員Andrew Owens也表示,這種人工智能模型對(duì)機(jī)器人學(xué)很有用,因?yàn)檫@門(mén)學(xué)科經(jīng)常要求計(jì)算機(jī)回答“這個(gè)物體是硬的還是軟的?”或者“握杯子的方式有多好?”這類的問(wèn)題。而通常這類問(wèn)題都很難回答,因?yàn)闄C(jī)器給出的信號(hào)是如此不同,但是這個(gè)研究模型證明了它巨大的潛力。
目前,李博士團(tuán)隊(duì)計(jì)劃更進(jìn)一步的探索視覺(jué)和觸覺(jué)之間的關(guān)系,以及如何運(yùn)用這兩種模態(tài)的信息去幫助機(jī)器人完成更復(fù)雜的任務(wù)。
參考資料:
[1] https://news.mit.edu/2019/teaching-ai-to-connect-senses-vision-touch-0617
[2] http://visgel.csail.mit.edu/
文章頭圖及封面圖片來(lái)源:Nicole Gray/thenextweb.com