新技術(shù)讓人工智能利用二維攝像機(jī)繪制三維空間地圖研究人員開(kāi)發(fā)出一種技術(shù),能讓人工智能(AI)程序利用多臺(tái)攝像機(jī)拍攝的二維圖像更好地繪制三維空間地圖。由于該技術(shù)能有效利用有限的計(jì)算資源,因此有望改善自動(dòng)駕駛汽車(chē)的導(dǎo)航能力。 相關(guān)論文的通訊作者、北卡羅來(lái)納州立大學(xué)電氣與計(jì)算機(jī)工程系副教授Tianfu Wu說(shuō):“大多數(shù)自動(dòng)駕駛汽車(chē)都使用名為視覺(jué)轉(zhuǎn)換器的強(qiáng)大人工智能程序來(lái)獲取多個(gè)攝像頭拍攝的二維圖像,并創(chuàng)建車(chē)輛周?chē)S空間的表示,然而,雖然這些人工智能程序各自采用了不同的方法,但仍有很大的改進(jìn)空間! Tianfu Wu說(shuō):“我們的技術(shù)被稱為多視圖注意語(yǔ)境化(MvACon),是一種即插即用的補(bǔ)充技術(shù),可以與這些現(xiàn)有的視覺(jué)轉(zhuǎn)換器人工智能結(jié)合使用,提高它們繪制三維空間地圖的能力。"視覺(jué)轉(zhuǎn)換器并沒(méi)有從攝像頭獲得任何額外的數(shù)據(jù),它們只是能夠更好地利用這些數(shù)據(jù)! MvACon 通過(guò)修改一種名為 "Patch-to-Cluster attention"(PaCa)的方法來(lái)有效工作,吳和他的合作者去年發(fā)布了這種方法。PaCa 允許變換器人工智能更高效、更有效地識(shí)別圖像中的物體。 Wu說(shuō):“這里的關(guān)鍵進(jìn)展是將我們?cè)?PaCa 上展示的技術(shù)應(yīng)用到使用多臺(tái)相機(jī)繪制三維空間的挑戰(zhàn)中。” 為了測(cè)試 MvACon 的性能,研究人員將其與三種領(lǐng)先的視覺(jué)轉(zhuǎn)換器--BEVFormer、BEVFormer DFA3D 變體和 PETR 結(jié)合使用。在每種情況下,視覺(jué)轉(zhuǎn)換器都從六個(gè)不同的攝像頭收集二維圖像。在所有三種情況下,MvACon 都顯著提高了每個(gè)視覺(jué)轉(zhuǎn)換器的性能。 Wu說(shuō):“在定位物體以及這些物體的速度和方向方面,性能尤其得到了提高。"將 MvACon 添加到視覺(jué)轉(zhuǎn)換器中對(duì)計(jì)算需求的增加幾乎可以忽略不計(jì)。我們下一步的工作包括根據(jù)其他基準(zhǔn)數(shù)據(jù)集測(cè)試 MvACon,以及根據(jù)自動(dòng)駕駛車(chē)輛的實(shí)際視頻輸入進(jìn)行測(cè)試。如果 MvACon 的性能繼續(xù)優(yōu)于現(xiàn)有的視覺(jué)轉(zhuǎn)換器,我們樂(lè)觀地認(rèn)為它將被廣泛采用! 這篇題為 "Multi-View Attentive Contextualization for Multi-View 3D Object Detection "的論文將于 6 月 20 日在華盛頓州西雅圖舉行的 IEEE/CVF 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上發(fā)表。 |