綠色立體(ti) 盒是對地麵真實汽車的探測。黃色為(wei) 激光雷達顯示點雲(yun) 。粉色點雲(yun) 由獨立訓練的深度估算器生成,位於(yu) 綠盒之外,因此非常不準確。通過端到端的深度估算和三維目標物體(ti) 檢測,得到了更準確的藍色點雲(yun) 。(圖片來源:論文《用於(yu) 基於(yu) 圖像的3D目標物體(ti) 檢測的端到端“虛擬激光雷達”》)

據麥姆斯谘詢報道,特斯拉創始人埃隆·馬斯克(Elon Musk)反對自動駕駛車輛采用激光雷達(LiDAR)的態度眾(zhong) 所周知,他認為(wei) 依賴激光雷達就像行走依賴拐杖一樣,因此他從(cong) 未打算在特斯拉中使用激光雷達。然而目前這個(ge) 觀點仍具有爭(zheng) 議性,未來表現如何還有待曆史來評判。
特斯拉現在推崇一種稱為(wei) “虛擬激光雷達”或“偽(wei) 激光雷達”(pseudo-LiDAR)的技術。該技術涉及到構建工具來進行攝像頭圖像采集(三維立體(ti) 或二維)並計算出圖像中每個(ge) 像素的距離信息。激光雷達則是通過計算光脈衝(chong) 抵達目標物體(ti) 並返回所需的時間來確定與(yu) 每個(ge) 像素之間的距離。
在今年2月份的Scaled Machine Learning大會(hui) 上,特斯拉就分享了如何僅(jin) 用幾個(ge) 攝像頭獲得傳(chuan) 統激光雷達精度的技術。通過將視覺傳(chuan) 感器(攝像頭)收到的視覺信息進行3D渲染、用人工智能(AI)軟件將車道線、交通、行人等信息與(yu) 進行匹配,最終使車輛作出決(jue) 策。目前,特斯拉將計算機視覺提升到了前所未有的水平,不僅(jin) 能夠分析圖像,而且還能夠分析圖像中的單個(ge) 像素。隨著時間推移,這樣做也許能夠複製傳(chuan) 統激光雷達的大部分功能,這意味著可以利用已經為(wei) 激光雷達處理開發的所有軟件解決(jue) 方案,或將進一步提高特斯拉在3D物體(ti) 探測方麵的技術水平。

另一方麵,人類可以通過大腦來估算距離。我們(men) 知道目標物體(ti) 有多大,知道它們(men) 是如何移動的,因此我們(men) 知道距離它們(men) 有多遠。同時,人類還擁有一些“天賦”,如人眼的立體(ti) 視覺特性,但隻適用於(yu) 中等距離。還有一個(ge) 天賦是“運動視差”,視線在視野中橫向移動時見到的物體(ti) 的運動方向和速度具有差異性,這也為(wei) 我們(men) 提供了判斷遠近的信息。
這麽(me) 看來,人的大腦就可以完全勝任這項任務了,事實上,開車時閉上一隻眼睛也能夠估算距離。目前,人們(men) 正在嚐試通過神經網絡來構建機器學習(xi) 技術,從(cong) 而判斷與(yu) 圖像之間的距離。這就是“虛擬激光雷達”技術。
最早提出“虛擬激光雷達”概念的,要追溯到2018年一篇來自康奈爾大學的技術論文,該論文提出了一種新方法來縮短純視覺技術架構與(yu) 激光雷達間的性能差距。

該論文通過改變立體(ti) 攝像頭目標檢測係統的3D信息呈現形式,將基於(yu) 圖像的立體(ti) 視覺數據轉換為(wei) 類似激光雷達生成的3D點雲(yun) ,通過數據轉換切換成最終的視圖格式。

在那之後的兩(liang) 年,康奈爾大學等又陸續發表了基於(yu) 該方法的視覺深度估計、目標識別、3D Packing等論文。有研究者發現,采用其新方法之後,該攝像頭在目標物體(ti) 檢測方麵的性能已接近激光雷達。以鳥瞰圖來分析攝像頭捕捉到的圖像,可以將目標檢測準確率提升2倍,從(cong) 而使立體(ti) 攝像頭成為(wei) 激光雷達的可行替代方案,且其成本要低很多。
訓練“虛擬激光雷達”並不是非常困難的,但通常,訓練需要提供足夠多的標記圖像。一輛測試車上可能裝有昂貴的激光雷達,因此可以開車四處獲取與(yu) 激光雷達“地麵真實”距離數據相結合的訓練數據。通過激光雷達計算出的真實距離來顯示神經網絡中的大量圖像,這樣它就能很好地自行計算出距離。這種技術是“無監督學習(xi) ”的變體(ti) ,因為(wei) 不需要提前對數據進行人工標記,比監督學習(xi) 成本低很多,因此,如果神經網絡發展得好,那就應該是這樣的。同時,還可以訓練模擬器數據來改善模型。
另一種有效的訓練方法是依賴於(yu) 現實世界中以可預測的方式改變距離的物體(ti) 。例如,當你看到物體(ti) 沿著物理學允許的路徑移動時,你的估算很可能是正確的。但是,如果你看到物體(ti) 以不可能的運動方式在某個(ge) 空間移動,你就知道那是錯誤的。
神經網絡的問題在於(yu) 傾(qing) 向於(yu) 看單幀圖像,而不是像人類那樣看運動圖像。實際上,單看靜止圖像,人類會(hui) 出現較多錯誤。相信隨著時間的推移,機器學習(xi) 技術會(hui) 克服這一點。問題是,我們(men) 必須獲得高可靠性才能脫穎而出。同時還需要具有對從(cong) 未見過的事物進行處理的能力,而這個(ge) 能力對於(yu) 神經網絡技術來說將是巨大的挑戰。例如,你在開車,前方道路上有一物體(ti) ,你需要盡可能快速並準確地知道它離你有多遠。如果該物體(ti) 是汽車,你已知汽車的大小,所以能很快判斷它的距離。同理,一輛汽車如果發生側(ce) 翻,但是訓練數據庫可能從(cong) 未遇到過此類事件。對於(yu) 某一隨機物體(ti) ,你想知道是遠處的大型物體(ti) 的還是附近的小型物體(ti) ?唯一的方法就是看它與(yu) 道路幾何形狀的關(guan) 係。這個(ge) 情況更複雜。
如果可以解決(jue) 以上問題,那麽(me) 他們(men) 一定擁有一款可以捕獲攝像頭圖像,並且也能夠生成激光雷達生成的“3D點雲(yun) ”的工具,而且由於(yu) 攝像頭價(jia) 格便宜,因此它的成本要低得多。同時,在遠距離範圍內(nei) ,該工具也能夠做到這一點。通常激光雷達的探測距離隻有約120 m,好一點的大概能到240 m。眾(zhong) 所周知,人類肉眼看到的距離能夠達到1600 m。
然而諷刺的是,致力於(yu) 激光雷達技術的開發人員已經建立了依賴於(yu) 這些點雲(yun) 的係統,並花費了大量時間對其進行完善。如果“虛擬激光雷達”係統可用於(yu) 生成高質量點雲(yun) ,則人們(men) 可以立即使用它。那些一直希望使用“虛擬激光雷達”技術的人在使用這種形式的數據方麵沒有類似的經驗。相反,他們(men) 還計劃將視覺係統的其它元素(將圖像分為(wei) 不同的對象,並對它們(men) 進行分類)與(yu) 距離估算結合在一起。但是目前來說,他們(men) 可能還沒有足夠的能力來實現他們(men) 期待的突破。
另一方麵,使用激光雷達的公司會(hui) 說“太好了,終於(yu) 可以用便宜的技術代替昂貴的激光雷達了。”但是,如果是熱衷於(yu) 激光雷達的廠商(如福特、Cruise、Waymo和Aurora),他們(men) 可能會(hui) 覺得浪費了一大筆錢。
很明顯的一點是,你需要了解到道路上所有物體(ti) 的距離,並且必須正確且快速地完成距離估算。新聞已多次報道特斯拉自動駕駛汽車撞向卡車、防護欄以及前方車道上的熄火車輛,因為(wei) 這些車輛被一輛突然駛離的汽車擋住了。當道路上的障礙物突然被車上的傳(chuan) 感器感應到時,你需要知道它距離你有多遠,並且數據具有高可靠性,這樣你就可以啟動緊急製動。激光雷達幾乎都是這樣運行的,但計算機視覺卻不行。“虛擬激光雷達”技術是解決(jue) 該問題的關(guan) 鍵。但目前,大多數公司還是計劃使用激光雷達來解決(jue) 此問題,他們(men) 知道激光雷達是有效的,而且他們(men) 希望看到它變得越來越便宜。
當然,如果特斯拉可以內(nei) 部解決(jue) 此問題,就不會(hui) 與(yu) 其他人分享了(盡管公開演示可能會(hui) 引發其他公司開發同樣的技術)。目前特斯拉的感知研發團隊也在嚐試開發一種工具使距離估算與(yu) 圖像分類進行匹配,而不是生成激光雷達樣式的點雲(yun) 。這項技術並不是“虛擬激光雷達”,但如果可靠性高,將同樣有效。
轉載請注明出處。







相關文章
熱門資訊
精彩導讀



















關注我們

