科學(xué)家在智能駕駛場(chǎng)景感知研究方面取得進(jìn)展近日,中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所仿生視覺(jué)系統(tǒng)實(shí)驗(yàn)室研究員李嘉茂團(tuán)隊(duì)與合作者在智能駕駛感知領(lǐng)域取得進(jìn)展。針對(duì)智能駕駛感知的兩個(gè)關(guān)鍵問(wèn)題——柵格占據(jù)預(yù)測(cè)和全景分割進(jìn)行研究,兩項(xiàng)成果分別被機(jī)器人領(lǐng)域國(guó)際學(xué)術(shù)會(huì)議2024 IEEE International Conference on Robotics and Automation(ICRA)錄用。 在智能駕駛中,柵格占據(jù)預(yù)測(cè)旨在表征空間中的對(duì)象分布,以指導(dǎo)路徑選擇。最直接的表征方法是將立體空間劃分為無(wú)數(shù)個(gè)堆疊的占據(jù)體素,但龐大的計(jì)算量導(dǎo)致難以在實(shí)車中部署。鳥(niǎo)瞰視角(BEV)的表征方式,將空間投影于單個(gè)水平面,可以大幅減少計(jì)算與存儲(chǔ)壓力,但由于缺失細(xì)粒度的結(jié)構(gòu)信息,在開(kāi)放場(chǎng)景中對(duì)象的形狀或外觀不明確時(shí),往往會(huì)出現(xiàn)錯(cuò)誤估計(jì)障礙物的情況。TPVFormer基于傳統(tǒng)三視圖的占據(jù)預(yù)測(cè)方法,在BEV基礎(chǔ)上將表征平面擴(kuò)展至三個(gè),可客觀精細(xì)地表征三維環(huán)境,但該方法忽略了自車與表征平面的相對(duì)關(guān)系,導(dǎo)致場(chǎng)景中的視角重疊障礙物間難以分辨。 為解決上述問(wèn)題,在TPVFormer基礎(chǔ)上,該團(tuán)隊(duì)提出了一種以自車為中心的環(huán)視視角的占據(jù)預(yù)測(cè)表征方法CVFormer。以汽車全景環(huán)視多視圖為輸入,建立環(huán)繞車輛的二維正交視角來(lái)表征三維場(chǎng)景,有效實(shí)現(xiàn)細(xì)粒度三維場(chǎng)景表征,并克服車體周身障礙物的視角遮擋問(wèn)題。具體地,該研究提出了環(huán)視視圖交叉注意力模塊構(gòu)建二維環(huán)視特征,設(shè)計(jì)時(shí)序多重注意力模塊加強(qiáng)幀間關(guān)系的利用,并通過(guò)設(shè)計(jì)2D與3D類別一致性約束,增強(qiáng)網(wǎng)絡(luò)對(duì)場(chǎng)景的學(xué)習(xí)性能。此方法在nuScenes數(shù)據(jù)集上進(jìn)行驗(yàn)證,在預(yù)測(cè)精度上明顯優(yōu)于現(xiàn)有算法,達(dá)到了43.09%的mIoU性能指標(biāo),相比基線算法提高了102.3%,并將計(jì)算復(fù)雜度由O(n3)降低至O(n),展現(xiàn)了較強(qiáng)的可部署性,在路特斯下一代量產(chǎn)車型智能駕駛感知系統(tǒng)上完成了測(cè)試驗(yàn)證。 全景分割是理解場(chǎng)景中背景與對(duì)象個(gè)體的語(yǔ)義的基礎(chǔ)感知問(wèn)題,是融合了語(yǔ)義分割與實(shí)例分割的綜合方法。其中,語(yǔ)義分割關(guān)注將圖像中的區(qū)域分割為不同的類別,而不區(qū)分不同的物體實(shí)例;實(shí)例分割則側(cè)重對(duì)每個(gè)實(shí)例對(duì)象進(jìn)行獨(dú)立的分割。全景分割往往基于語(yǔ)義分割與實(shí)例分割的融合實(shí)現(xiàn),既區(qū)分場(chǎng)景語(yǔ)義,又需要明確物體實(shí)例。全景分割方法在語(yǔ)義-實(shí)例分割任務(wù)融合中,往往由于二者預(yù)測(cè)結(jié)果間的矛盾,導(dǎo)致難以分辨合理的預(yù)測(cè)結(jié)果。 為解決這一問(wèn)題,該團(tuán)隊(duì)設(shè)計(jì)了基于門控編碼和邊緣約束的端到端全景分割模型BEE-Net。該模型基于全局雙向信息交互以及多角度邊緣優(yōu)化,有效地緩解了全景分割中的語(yǔ)義-實(shí)例預(yù)測(cè)矛盾問(wèn)題與邊緣分割挑戰(zhàn)。具體地,針對(duì)語(yǔ)義與實(shí)例分割特征感知融合,研究人員設(shè)計(jì)了輕量級(jí)門控編碼模塊進(jìn)行多尺度全局特征信息交互,并通過(guò)語(yǔ)義-實(shí)例-全景三重邊緣優(yōu)化算法對(duì)邊緣分割質(zhì)量進(jìn)行針對(duì)性優(yōu)化,保持高效的同時(shí),提升了場(chǎng)景分割性能。該方法在駕駛場(chǎng)景分割數(shù)據(jù)集CityScapes上完成了驗(yàn)證,取得了65.0%的PQ精度指標(biāo),在精度上超越了現(xiàn)有基于CNN的全景分割模型,同時(shí)在效率上優(yōu)于所有基于Transformer的全景分割模型。該方法兼顧了分割精度與效率的性能需求,在路特斯下一代量產(chǎn)車型智能駕駛感知系統(tǒng)上完成了測(cè)試驗(yàn)證。 上述研究成果得到科學(xué)技術(shù)部科技創(chuàng)新2030、國(guó)家自然科學(xué)基金、中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)、上海市優(yōu)秀學(xué)術(shù)帶頭人計(jì)劃等的支持。 關(guān)鍵詞: 智能駕駛場(chǎng)景感知
|