打造一台全自動駕駛汽車,到底需要哪些核心技術?
現在來看,各家公司和研究人員似乎對這個(ge) 問題有不小分歧。
有人相信單純的攝像頭與(yu) 計算機視覺就能解決(jue) 戰鬥,但也有人認為(wei) 計算機視覺和先進傳(chuan) 感器缺一不可。
特斯拉則是純視覺方案的堅定信徒。
在今年的 CVPR(計算視覺與(yu) 模式識別大會(hui) )上,特斯拉首席 AI 科學家 Andrej Karpathy 道出了特斯拉如此「執拗」的原因。
在這次的 CVPR 上,Karpathy 還詳細介紹了特斯拉是如何基於(yu) 深度學習(xi) 開發自動駕駛係統。
除此之外,他還解釋了為(wei) 什麽(me) 特斯拉基於(yu) 視覺就能讓自動駕駛夢想成真。
就在 7 月 10 日,特斯拉開始在美國地區正式推送純視覺版的 FSD Beta V9 版本。
純視覺版的特斯拉,完全依靠車輛前端攝像頭來實現自動駕駛。
有海外車主在夜晚體(ti) 驗了這一版本,還有車主在霧蒙蒙的街道上自由順暢穿行。總體(ti) 而言,車輛的表現較之前擁有更平滑的加速和減速,轉彎時也顯得更加自信。
先是聲稱不用激光雷達,而後又宣布在量產(chan) 車上移除毫米波雷達,特斯拉堅持純視覺自動駕駛的底氣來自哪裏?
1、通用計算視覺係統
這一切要從(cong) 深度神經網絡說起。
深度神經網絡是自動駕駛係統的主幹技術之一。
神經網絡會(hui) 分析車載攝像頭采集到的數據,了解道路、標牌、車輛、障礙以及行人的狀況。
不過,深度學習(xi) 並非萬(wan) 無一失,在檢測圖像中的物體(ti) 時,這項技術也會(hui) 犯錯。這也是大多數自動駕駛公司,包括領頭羊 Waymo 在內(nei) ,選擇用激光雷達來搭建三維地圖的原因。
激光雷達能為(wei) 神經網絡提供更豐(feng) 富的信息,以便填補在神經網絡上的數據空白。
然而,將激光雷達融入整個(ge) 自動駕駛係統,也沒你想象的那麽(me) 容易。
「你得用激光雷達提前對周邊環境進行掃描,隨後生成高精地圖。在這之後還要插入所有車道、連接方式以及各種交通信號燈。」Karpathy 說道。「在測試時,你隻需在高精地圖上進行定位,就可以自動駕駛了。」
遺憾的是,用戶說走就走的願望並沒有那麽(me) 容易實現,為(wei) 自動駕駛汽車打造無處不在的高精地圖非常困難。
「隻要規模一大,采集、搭建和維護這些高精地圖就變成了不可能完成的任務,」Karpathy 說道。「更別說高精地圖的實時更新了。」
在特斯拉的自動駕駛方案中,並沒有出現激光雷達和高精地圖。
Karpathy 指出,「所有發生的事情都會(hui) 被車上的 8 顆攝像頭記錄下來。」
自動駕駛係統必須弄清楚車道在哪,信號燈在哪,它們(men) 狀態如何,與(yu) 車輛間有何關(guan) 係。
最重要的是,它必須在沒有任何導航信息的路況下完成這一切。
Karpathy 強調,基於(yu) 視覺的自動駕駛,在技術角度更難實現,因為(wei) 它要求神經網絡僅(jin) 僅(jin) 基於(yu) 視頻輸入就能達到超強性能的輸出。「不過,一旦取得了突破,就能獲得通用視覺係統,方便部署在地球的任何地方。」
有了通用視覺係統,車輛就不再需要什麽(me) 補充信息了。
Karpathy 認為(wei) ,特斯拉正在朝這個(ge) 方向努力。在此之前,特斯拉自動駕駛依靠的是毫米波雷達與(yu) 攝像頭雙重冗餘(yu) ,而現在的新車則直接砍掉了毫米波雷達。
「我們(men) 拋棄了毫米波雷達,車輛隻靠視覺來行駛。」Karpathy 表示。
在他看來,特斯拉的深度學習(xi) 係統已經比毫米波雷達強一百倍,現在的毫米波雷達已經開始拖後腿了。
2、監督學習(xi)
對於(yu) 純計算視覺方案,行業(ye) 裏的主流聲音是,誰也說不清神經網絡能否在沒有激光雷達深度地圖的情況下完成測距和深度估算。
「人類駕駛依靠的是視覺,所以我們(men) 的神經網絡是可以處理視覺輸入,並以此理解周邊物體(ti) 深度與(yu) 速度的。」Karpathy 解釋道。「不過最大問題在於(yu) ,合成的神經網絡能否做到這一點。我認為(wei) ,通過過去幾個(ge) 月的工作,特斯拉內(nei) 部已經達成明確共識,我們(men) 訓練出的神經網絡能擔此大任。」
特斯拉工程師想打造的深度學習(xi) 係統,除了要處理深度、速度和加速度信息,還要同時進行目標探測。
在他們(men) 看來,這是監督學習(xi) 的問題,即神經網絡在對標記數據進行訓練後,學習(xi) 目標探測及其相關(guan) 屬性。
為(wei) 了訓練深度學習(xi) 架構,特斯拉團隊需要一個(ge) 由數以百萬(wan) 計視頻組成的龐大數據集,並仔細標記其中的目標及其屬性。
當然,為(wei) 自動駕駛汽車創建數據集也頗為(wei) 棘手,工程師們(men) 必須確保數據集有多樣化的道路設置和不經常出現的邊緣情況。
Karpathy 表示:「以我的經驗來看,如果你有一個(ge) 幹淨且多樣化的大型數據集,並以此為(wei) 基礎訓練一個(ge) 龐大的神經網絡,成功是有保證的」。
3、會(hui) 自動打標簽的數據集
借助數百萬(wan) 輛「全副武裝」的特斯拉電動車,特斯拉在視覺深度學習(xi) 模型的訓練上有著得天獨厚的數據優(you) 勢。
目前,特斯拉的自動駕駛團隊已經積累了 1.5PB 的海量數據,包括 100 萬(wan) 個(ge) 10 秒的視頻和 60帶有包圍框與(yu) 深度、速度標簽的目標。
不過,給這樣的數據集打標簽是一個(ge) 巨大的挑戰。
一種方法是通過數據標簽公對其進行人工標注。這需要花費大量的人工與(yu) 時間。
相反,特斯拉團隊使用了一種自動標記的技術。
由於(yu) 數據集是離線標記的,因此神經網絡可以來回觀看視頻,將它們(men) 的預測與(yu) 事實進行比較,並不斷調整參數。
這與(yu) 測試時的推理就形成了鮮明對比。
在測試時一切都在實時發生,深度學習(xi) 模型無法進行追溯。
離線標記還使工程師們(men) 能夠應用非常強大且計算密集型的物體(ti) 檢測網絡,這些網絡無法部署在汽車上,也不能用於(yu) 實時、低延遲的應用。
同時,他們(men) 還使用雷達傳(chuan) 感器數據來進一步驗證神經網絡的推斷,以上種種都提高了標簽網絡的精度。
「離線有離線好處,在數據融合上你可以做得更好,」Karpathy 說道。「此外,你還能讓人類參與(yu) 進來,他們(men) 可以進行更精準的驗證、編輯等工作。」
Karpathy 在 CVPR 上展示的視頻顯示,目標探測網絡在穿過障礙、灰塵和雲(yun) 雪時能維持較為(wei) 一致的水準。
不過,他並沒有明確解釋自動標簽係統到底需要多少人力來進行最終修正。但可以肯定的是,人類的參與(yu) ,在引導自動標簽係統向正確的方向發展上發揮了關(guan) 鍵作用。
另外,在開發數據集時,特斯拉團隊還發現,有 200 多個(ge) 觸發因素表明目標探測需要不斷調整。
這些問題包括不同攝像頭探測結果的不一致,或者攝像頭和雷達之間探測結果不一致。他們(men) 還確定了可能需要特別注意的場景,如隧道進出和頂部有物體(ti) 的汽車。
特斯拉花了四個(ge) 月的時間來開發和掌握這些觸發因素。
隨著標簽網絡逐步迭代,「影子模式」中也多了新的功能。
這意味著標簽網絡真正進入了消費者的車輛中,而且是在不向汽車發出指令的情況下默默運行。
在後端,特斯拉工程師會(hui) 拿這一網絡的輸出與(yu) 傳(chuan) 統網絡、雷達和司機的行為(wei) 進行比較。
特斯拉團隊經曆了七次數據工程迭代。
他們(men) 起先從(cong) 一個(ge) 初始數據集開始訓練他們(men) 的神經網絡。
隨後,他們(men) 又在真車的影子模式中整合了深度學習(xi) ,並使用觸發因素來檢測不一致的地方、錯誤和特殊情況。
接著再對錯誤進行修訂、糾正。
如果有必要,他們(men) 還會(hui) 將新的數據添加到數據集中。
「我們(men) 一遍又一遍進行這個(ge) 循環,直到神經網絡變得非常棒,」Karpathy 說道。
正因如此,我們(men) 可以將這一架構描述為(wei) ——一個(ge) 具有巧妙分工的半自動標簽係統,其中神經網絡做重複性的工作,人類負責高層次的認知問題和邊緣情況。
有趣的是,當一位與(yu) 會(hui) 者問 Karpathy 觸發因素的生成是否可以自動化時,他回應稱:
「觸發因素的自動化非常棘手,因為(wei) 你可以有通用的觸發因素,但它們(men) 很難正確反饋所有情況。例如,對進入和離開隧道進行觸發,我們(men) 到底需要什麽(me) 觸發因素。在這種問題上,人類靠的是直覺。」
4、分層的深度學習(xi) 架構
特斯拉自動駕駛團隊需要一個(ge) 精心設計的高效神經網絡,以充分利用他們(men) 收集到的高質量數據集。
為(wei) 此,他們(men) 創建了一個(ge) 分層的深度學習(xi) 架構,由不同的神經網絡組成,處理信息並將輸出信息反饋給下一組網絡。
深度學習(xi) 模型使用卷積神經網絡,從(cong) 安裝在車身八個(ge) 攝像頭采集的視頻中提取特征,並使用網絡將它們(men) 融合在一起。
隨後,它跨越時間線將各類特征融合在一起。
這對諸如軌跡預測和平滑推理不一致的任務很重要。
在這之後,空間和時間特征被送入神經網絡的分支結構中,Karpathy 將其描述為(wei) 頭部、樹幹和終端。
Karpathy 指出:「你想要這種分支結構,是因為(wei) 這樣能帶來大量高價(jia) 值的輸出,但你不能為(wei) 每個(ge) 輸出都準備一個(ge) 神經網絡」。
分層結構讓特斯拉可以針對不同任務重複使用組件,並在不同的推理路徑之間完成特征共享。
神經網絡模塊化結構的另一個(ge) 好處是可以進行分布式開發。
特斯拉目前組建了一個(ge) 大型的機器學習(xi) 工程師團隊,專(zhuan) 門從(cong) 事自動駕駛神經網絡的研究。
他們(men) 每個(ge) 人都負責神經網絡的一個(ge) 小組件,並將自己的成果放到更大的網絡中。
「我們(men) 有一個(ge) 大約 20 人的團隊,正在全職訓練神經網絡,他們(men) 都在為(wei) 同一個(ge) 神經網絡添磚加瓦」。Karpathy 說道。
5、垂直整合
在 CVPR 的演講中,Karpathy 還分享了一些特斯拉訓練和微調深度學習(xi) 模型所用超級計算機的細節。
特斯拉的計算集群由 80 個(ge) 節點組成,每個(ge) 節點包含 8 個(ge) 英偉(wei) 達 A100 GPU 和 80 GB 的顯存,相當於(yu) 5760 個(ge) GPU 和超過 450 TB 的 VRAM。
這個(ge) 超級計算機還擁有 10 PB 的 NVME 超高速存儲(chu) 和 640 tbps 的網絡能力,用來連接所有的節點,並支撐高效的神經網絡分布式訓練。
特斯拉還設計並自研了車載 AI 芯片。
「特斯拉的芯片轉為(wei) 神經網絡設計,用來支撐全自動駕駛應用。」Karpathy 說道。
特斯拉的最大優(you) 勢在於(yu) 其強大的垂直整合能力——不僅(jin) 擁有完整的自動駕駛解決(jue) 方案,同時還能製造電動汽車和自動駕駛硬件。
現在的特斯拉,處在一個(ge) 獨特的位置,不但能從(cong) 其售出的數百萬(wan) 輛汽車中收集各種數據,借助強悍的計算集群,還可以在其獨有的數據集上創建和訓練神經網絡,並通過影子模式在其售出的電動車上驗證和微調這些神經網絡。
當然,特斯拉還擁有一支由機器學習(xi) 工程師、研究人員和硬件設計師組成的強大團隊,能將所有的碎片信息進行深度整合。
這種垂直整合外加創建數據、調整機器學習(xi) 模型並將其部署在車輛上重複循環的方案,使特斯拉打造了業(ye) 界獨一無二的純視覺自動駕駛解決(jue) 方案。
在演講中,Karpathy 還展示了多個(ge) 例子,比如新的神經網絡,已經超過了需要結合雷達信息的傳(chuan) 統機器學習(xi) 模型。
Karpathy 也相信,如果這一係統繼續進化,特斯拉可能會(hui) 直接斷了激光雷達的活路。更可怕的是,沒有其他公司能夠複製特斯拉的成功之路。
6、未解決(jue) 的問題
還有一個(ge) 問題是,當下的深度學習(xi) 是否足以克服自動駕駛所有挑戰。
當然,目標探測、速度及距離估算也在駕駛中發揮了很大作用。
不過,人類視覺還執行著許多其他複雜的功能,科學家稱之為(wei) 視覺的 "暗物質"。這些都是分析視覺輸入的重要組成部分。
深度學習(xi) 模型在進行因果推理時非常吃力,當模型麵對它以前沒有見過的新情況時,就會(hui) 舉(ju) 棋不定。
也就是說,雖然特斯拉已經設法搭建了一個(ge) 非常龐大且多樣化的數據集,但開放道路同樣非常複雜,各種無法預測的事情隨時可能發生。
當下的 AI 界,在某些問題上依然存在分歧,比如是否需要明確將因果關(guan) 係和推理整合到深度神經網絡中,或者說,是否可以通過「直接擬合」來克服因果關(guan) 係的障礙——即一個(ge) 大型的、分布良好的數據集是否能支撐適用於(yu) 萬(wan) 事萬(wan) 物的深度學習(xi) 。
從(cong) 目前來看,特斯拉基於(yu) 視覺的自動駕駛團隊似乎更傾(qing) 向於(yu) 後者。
至於(yu) 特斯拉的技術能否經受住時間的考驗,我們(men) 拭目以待。
轉載請注明出處。