導讀:自動駕駛技術的起源可以追溯到DARPA的Grand Challenge和Urban Challenge。2004年和2005年的Grand Challenge主要面向越野環(huán)境,而2007年的Urban Challenge則面向城市環(huán)境。此時自動駕駛技術的開始發(fā)展起步,并取得了一些顯著成果,例如2010年帕爾瑪大學的自動駕駛車隊在三個月內(nèi)完成了從意大利帕爾瑪?shù)街袊虾5?/span>13000公里行程。這一階段的自動駕駛稱為1.0階段,它高度依賴于硬件設備,采用傳統(tǒng)的計算機視覺方法進行自動駕駛,主要是通過高精度地圖進行循線行駛。此階段使用的設備通常體積龐大且價格昂貴,例如,高精度慣性衛(wèi)星組合導航系統(tǒng)的價格約為60萬元,可以實現(xiàn)厘米級的定位精度。
一、為什么一體化的端到端視覺語言動作大模型如此重要?
在感知部分,傳統(tǒng)計算機視覺方法被廣泛應用于環(huán)境感知和障礙物識別,主要依靠特征工程。在決策與規(guī)劃部分,主要包括簡單的決策和路徑規(guī)劃,特別強調(diào)車輛的縱向速度控制和橫向偏差控制。這一階段的自動駕駛系統(tǒng)依賴于人為設定的決策邏輯和基于規(guī)則的算法,因此被稱為自動駕駛1.0階段,如圖1所示。
圖1 自動駕駛1.0
自2016年起,隨著大量產(chǎn)業(yè)資本的介入,中國的初創(chuàng)企業(yè)、頭部企業(yè)、互聯(lián)網(wǎng)企業(yè)、ICT企業(yè)、主機廠和造車新勢力紛紛聚焦于自動輔助駕駛技術的發(fā)展。當前,國際汽車工程師學會(SAE)定義的自動駕駛分級標準被廣泛采用,該標準將自動駕駛劃分為L0到L5級別,進一步細分了自動駕駛技術的不同發(fā)展階段。
2021年,SAE和ISO進一步發(fā)布了新版的自動駕駛分級標準,如圖2所示,其強調(diào)了自動駕駛技術在不同功能、區(qū)域和環(huán)境條件下的應用。這些標準幫助明確了各類自動駕駛系統(tǒng)的實際能力,盡管一些企業(yè)可能出于宣傳目的將輔助駕駛系統(tǒng)稱為自動駕駛系統(tǒng)。L0到L2級別被稱為輔助駕駛,而只有L3到L5級別才被定義為自動駕駛。因此,當我們談論自動駕駛時,指的是L3及以上級別,L2及以下都屬于輔助駕駛。
圖2 新版自動駕駛分級標準 SAE J3016
目前在中國廣泛商業(yè)化應用的是NOA(Navigation Output Autopilot),被稱為L2++的自動輔助駕駛系統(tǒng)。NOA系統(tǒng)實現(xiàn)了低接管率,使得駕駛員從駕駛員變成了安全員,不再需要頻繁操作。這標志著商業(yè)化落地進程的開始。如今,包括比亞迪、蔚來、小鵬、理想、華為、極越、小米和大疆等在內(nèi)的企業(yè)都已涉足L2++智能電動汽車領域,NOA成為新能源汽車的標準配置。
NOA系統(tǒng)從高速公路逐漸發(fā)展到城市道路,并正在研發(fā)綜合性的NOA系統(tǒng),融合高速和城市道路的導航功能。這一過程中,關鍵技術的突破和普遍應用至關重要,包括鳥瞰圖、Transformer模型的廣泛使用、占用網(wǎng)絡的預測以及車道級地圖的應用。這些技術的發(fā)展標志著自動駕駛從1.0階段邁入2.0階段。
在自動駕駛2.0階段,基于深度學習的技術被廣泛應用,其特點是分段完成自動駕駛解決方案。系統(tǒng)被劃分為感知、預測、決策與控制等模塊,如圖3所示。感知部分包括環(huán)境感知和自主導航,不再依賴昂貴的高精度導航設備,而是采用視覺、激光雷達和SLAM技術,從而降低成本并提高環(huán)境適應性。感知部分也從高精度地圖轉(zhuǎn)向車道級地圖。
圖3 自動駕駛2.0
盡管預測、決策與控制部分的技術變化不大,依然是基于人為設定的條件進行,但這一分段方法也帶來了顯著的可解釋性。然而,這種人為設定的先驗條件也引入了局限性,特別是在面對邊緣事件和小概率事件時,系統(tǒng)難以應對。這種方案需要窮舉各種可能性,導致代碼復雜性增加,并且無法全面覆蓋所有情況。因此,自動駕駛2.0階段的方案面臨長遠發(fā)展問題和邊緣案例的挑戰(zhàn)。
自動駕駛3.0階段采用端到端的視覺語言建模方法,通過模擬真實事件中物體之間的運動學、動力學及其他物理學規(guī)律,在連續(xù)的隱含空間中實現(xiàn)統(tǒng)一的表達、理解、記憶、預測、交互與決策。這種方式類似于人類的“快思維”模式,實現(xiàn)了駕駛行為的自主閉環(huán)。特斯拉的FSD(Full Self-Driving)系統(tǒng)就是一個典型的例子,它通過徹底的端到端解決方案,大大減少了代碼量,從原來的30萬行減少到僅幾千行,依賴視覺神經(jīng)網(wǎng)絡進行學習和決策。
這種方法的優(yōu)勢在于,通過視覺神經(jīng)網(wǎng)絡的學習,可以顯著提升自動駕駛系統(tǒng)的自主性和環(huán)境適應性。例如,DQN(Deep Q-Network)在阿塔瑞游戲中的應用展示了深度強化學習在像素級視覺輸入和動作輸出之間建立聯(lián)系的能力。DQN不僅在多個游戲中超越了人類玩家,還創(chuàng)造了許多未曾設想的策略。
自動駕駛3.0采用類似的端到端純視覺方法,輸入端是連續(xù)的視頻幀,輸出端是駕駛行為,如圖4所示。通過學習實現(xiàn)從視覺輸入到行為輸出的轉(zhuǎn)換,無需人為設定條件。這種徹底端到端的自動駕駛解決方案,真正體現(xiàn)了人工智能的潛力,使得L3及以上級別的自動駕駛成為可能。
圖4 自動駕駛3.0
自動駕駛從1.0到3.0的演變不僅提升了技術水平,更帶來了對人類交通和出行方式的顛覆性改變。特別是高速和城市的NoA(Navigation on Autopilot)以及L3、L4級別的自動駕駛汽車的發(fā)展,為未來城市的安全性、便捷性和效率提升提供了新的機遇。從1.0的基礎輔助駕駛到3.0的完全端到端解決方案,自動駕駛技術經(jīng)歷了深刻的變革。自動駕駛3.0階段,通過端到端的視覺語言建模方法,實現(xiàn)了駕駛行為的自主閉環(huán),大大提升了系統(tǒng)的自主性和環(huán)境適應性。
人類思維中的快思維,即本能與直覺,在自動駕駛中具有重要意義??焖季S的特點是依靠視覺輸入和直覺反應,約占我們?nèi)粘;顒拥?/span>95%。人類的視覺主要依靠可見光,而自動駕駛系統(tǒng)可以通過傳感器(雷達、激光點云、毫米波雷達)擴展這種感知能力。視覺傳感器輸入一幀幀的圖像,輸出則是軌跡或路徑數(shù)據(jù)。
在端到端自動駕駛系統(tǒng)中,輸入輸出之間隱含著大量信息,包括長期記憶和推理過程。這些都需要借助語言大模型來實現(xiàn),因為語言模型中包含了人類的常識和專業(yè)知識。自動駕駛系統(tǒng)必須具備這種知識,才能做出正確的決策。
語言不僅限于文本,還包括視覺和語音。這些都可以看作是不同的語言模態(tài),因為它們都能表達明確的語義。交流的核心在于語義傳達,即我們理解彼此的意思。無論是通過文本、圖像還是語音,只要能準確傳達語義,都是有效的交流方式。這種多模態(tài)的語言表達在自動駕駛中至關重要。例如,通過視覺傳感器獲取環(huán)境信息,通過語音指令進行交互,這些都是自動駕駛系統(tǒng)需要處理和理解的內(nèi)容。
自動駕駛系統(tǒng)的核心在于理解和處理語義信息。這些語義信息包含物體的屬性及其關系,內(nèi)涵指的是同一物體的共性部分,而外延則是不同類別物體之間的差異性。視覺傳感器捕捉的圖像能夠傳遞豐富的語義信息,例如辨識行人、車輛、斑馬線、交通信號燈等,并理解它們之間的關系。這種語義理解是進行正確決策和規(guī)劃的基礎。
多模態(tài)大語言模型的發(fā)展可以分為幾個階段,如圖5所示。早期的大語言模型主要是基于文本模態(tài)的,例如GPT,這類模型通過token化將文本數(shù)據(jù)轉(zhuǎn)換為連續(xù)的潛空間,并在此基礎上進行處理和生成。目前的發(fā)展重點是多模態(tài)大語言模型,不僅包含文本,還擴展到視覺和語音等模態(tài),能夠在同一個潛空間中表達和對齊不同模態(tài)的語義信息,實現(xiàn)跨模態(tài)的理解和轉(zhuǎn)換。下一步的發(fā)展是具身智能,即賦予AI一個身體,使其能夠在物理世界中進行交互,具備移動和操作能力,從而與周圍環(huán)境和其他智能體進行動態(tài)交互。
圖5 通用人工智能的迭代演化路徑
具身智能的引入使AI能夠通過實際的物理交互來學習和適應。這樣的智能體不僅能夠進行高級別的語義理解,還能在真實環(huán)境中進行操作和決策。例如,AI在駕駛過程中能夠通過視覺和其他傳感器感知環(huán)境,并做出相應的駕駛決策。多模態(tài)認知不僅限于視覺和語音,還包括觸覺和動作等感知數(shù)據(jù),這些數(shù)據(jù)通過嵌入和投影技術轉(zhuǎn)化為連續(xù)的潛空間,統(tǒng)一進行處理和學習,實現(xiàn)多模態(tài)的協(xié)同工作。
通用人工智能的未來發(fā)展方向在于實現(xiàn)多模態(tài)、多任務、多領域的統(tǒng)一智能系統(tǒng)。具身智能的引入將使AI能夠在物理世界中不斷學習和進化,通過與環(huán)境和其他智能體的動態(tài)交互來獲取知識和技能。這種智能系統(tǒng)不僅能夠在特定任務上超越人類,還能夠在多個領域和任務中展現(xiàn)出強大的適應性和智能水平。例如,在復雜的駕駛環(huán)境中,具身智能可以通過不斷的實踐和學習,逐步提高其駕駛技能和決策能力,最終實現(xiàn)安全、高效的自動駕駛。
GPT (Generative Pre-trained Transformer) 是一種生成式語言模型,主要通過自回歸方法進行生成和解碼。生成式模型的重點在于生成的次序,因此解碼過程需要依賴編碼階段。OpenAI 的 GPT 是一個典型的例子,其模型質(zhì)量較高,部分原因在于其信奉和追求規(guī)模規(guī)模定律。盡管這一點存在爭議,但許多高質(zhì)量模型確實體現(xiàn)了這一理念。
單模態(tài)文本語言模型,如 GPT-4,展示了顯著的改進和變革。例如,以前的機器學習或人工智能在處理文本時,僅僅能匹配和對齊,但不能真正理解文本內(nèi)容。而現(xiàn)在的 GPT-4 能夠很好地理解文本,例如復雜的小學數(shù)學應用題,能夠分解問題和任務。其關鍵在于利用語言模型和世界知識的學習,將許多 token 之間的關系和屬性進行聚合和連接,從而具備了理解和生成文本的能力。
從單模態(tài)文本模型到多模態(tài)模型的轉(zhuǎn)變標志著語言模型的一個重大進步。早期的多模態(tài)處理通常將其他模態(tài)轉(zhuǎn)換為文本,然后進行嵌入變換。而現(xiàn)在的多模態(tài)模型能夠直接處理輸入的數(shù)據(jù),無論是視頻還是語音,通過 token 化來實現(xiàn)。多模態(tài)模型通過語義對齊,實現(xiàn)了視聽覺語言思維,擴展了視覺、聽覺和語音的交互能力,模擬了人類智能行為中的視聽覺語言思維。這種能力使模型能夠通過簡單的文本提示生成復雜的視頻內(nèi)容,補充大量的背景信息和細節(jié),如圖6所示。
圖6 原生多模態(tài) 大型語言模型
在自動駕駛領域,原生的多模態(tài)視覺和動作模型尤為重要。端到端的視覺語言動作大模型可以通過視覺輸入來生成相應的動作。例如,視覺輸入進來描述環(huán)境,輸出的則是車輛的駕駛動作。這種模型強調(diào)視覺語言思維,通過看到一個物體馬上產(chǎn)生相應的動作。
多模態(tài)模型還需要兼顧通用和專用模型,通用模型提供基本的多模態(tài)處理能力,而專用模型則提供特定領域的知識,例如通過知識圖譜構建的專業(yè)數(shù)據(jù)庫。原生的多模態(tài)理解能力對于自動駕駛的意義在于能夠結合每幀圖像的文本描述和環(huán)境理解來進行決策和控制,實現(xiàn)更好的感知和理解能力。即使在自動駕駛 2.0 階段,通過對環(huán)境的深度理解,模型仍然可以做出更好的決策與控制。
多模態(tài)理解在自動駕駛領域帶來了根本性的變化,使車輛能夠?qū)Νh(huán)境進行更加全面和深入的感知和理解。這不僅包括對障礙物的識別和理解,還涉及對自身狀態(tài)、道路標志和交通信號的認知。通過整合圖像、點云、視頻、語音和文本數(shù)據(jù),實現(xiàn)跨模態(tài)的語義對齊,各模態(tài)可以互相解釋同一事物或事件,增強整體感知與認知能力。
主動感知與規(guī)劃在自動駕駛中至關重要。不同于被動感知,主動感知是有選擇性的,根據(jù)需要感知特定的環(huán)境信息。規(guī)劃包括行為規(guī)劃和任務規(guī)劃,前者涉及車輛的路徑選擇和動作決策,后者涉及任務執(zhí)行的具體步驟。這兩者相輔相成,規(guī)劃基于感知的信息,而感知也受到規(guī)劃的影響。
多模態(tài)大模型通過視覺輸入生成相應的動作,這對自動駕駛有重要意義。結合多模態(tài)大模型和檢索增強生成(RAG)技術,可以對場景進行深度理解,從而實現(xiàn)更精確的感知和預測。多模態(tài)大模型的架構包括基礎模型、專用模型(知識圖譜構建的專業(yè)數(shù)據(jù)庫)和嵌入層(用于模態(tài)轉(zhuǎn)換)。多模態(tài)大模型在自動駕駛中的下游任務包括感知、導航、預測和決策等。這些任務可以通過全參數(shù)微調(diào)、部分參數(shù)微調(diào)和提示詞微調(diào)等方式進行優(yōu)化。結合Bird's Eye View (BEV)和Transformer技術,可以提升模型在環(huán)境感知、障礙物檢測和路徑規(guī)劃等方面的能力,如圖7所示。
圖7 AI 自動駕駛大模型與下游微調(diào)任務
二、以路徑規(guī)劃為中心
在自動駕駛系統(tǒng)中,感知空間和動作空間是兩個關鍵的組成部分。感知空間涉及對環(huán)境的理解,包括障礙物識別、道路標志等;而動作空間則涉及實際的行為產(chǎn)生和決策執(zhí)行。這兩個空間相互作用,形成了自動駕駛系統(tǒng)的核心功能。然而,我們需要思考的是:在這兩個空間中,哪個應作為主要中心?
從傳統(tǒng)的角度來看,大多數(shù)研究關注的是從感知空間到動作空間的邏輯,即先進行環(huán)境感知,再進行動作規(guī)劃和執(zhí)行。這種順序是基于感知數(shù)據(jù)生成相應的行為。然而,從另一個角度看,動作空間也可以反向影響狀態(tài)空間,通過主動感知來優(yōu)化感知策略和決策過程。因此,選擇哪個空間作為中心,實際上取決于系統(tǒng)的需求和具體應用場景。
復雜的邏輯推理是實現(xiàn)有效感知和決策的關鍵??臻g轉(zhuǎn)換可以視為一種復雜的邏輯推理過程。在這個過程中,大型語言模型可以發(fā)揮重要作用,通過視覺和語言智能實現(xiàn)多模態(tài)的交叉理解和推理。這樣,可以實現(xiàn)從感知到動作的高效轉(zhuǎn)換,提升系統(tǒng)的智能水平,如圖8所示。
圖8 基于 LLM 的復雜的邏輯推理
為了增強復雜的邏輯推理能力,我們可以利用外部知識庫、搜索工具和領域知識。這些工具能夠提供額外的背景信息,支持更深入的理解和推理。例如,通過檢索增強生成技術,結合通用多模態(tài)大模型,可以進一步提升推理能力。此外,提示詞工程和思維鏈技術也能有效增強推理能力。
三、端到端純視覺交互式多模態(tài)智能體:自動駕駛3.0 與人形機器人的實現(xiàn)路徑
在自動駕駛3.0時代,我們不僅需要開發(fā)多模態(tài)的自動駕駛大模型,還要進一步發(fā)展成具有交互能力的智能體。這種智能體將融合視覺和語義的多模態(tài)理解,并具備在交互過程中展現(xiàn)更高智能水平的能力。
交叉理解是指將不同模態(tài)的信息在語義層面對齊。例如,通過先進的模型,可以將不同類型的輸入歸納為相同的語義類別,使得系統(tǒng)能夠互相補全信息,增強讀圖能力。同時,交互式智能體強調(diào)在真實物理空間中的智能體與其他智能體、環(huán)境以及人類的互動。通過這種互動,智能體能夠利用深度強化學習提升行動能力,甚至超越人類水平。這種交互不僅提升了智能體的決策和行為策略,還能使其在復雜環(huán)境中表現(xiàn)得更加出色,如圖9所示。
圖9 AI 領域中交叉與交互
智能車在自動駕駛中扮演著核心角色,需要與周圍環(huán)境及其他智能體進行有效的互動。通過在車道級地圖中提取交通元素,智能車可以優(yōu)化其軌跡預測和補全。例如,當智能車發(fā)出轉(zhuǎn)向信號時,其他車輛的反應(可以通過交互得到優(yōu)化,進而實現(xiàn)更高效的道路使用和交通流動。
智能體在時間維度上可以視為軌跡數(shù)據(jù),這些軌跡數(shù)據(jù)必須符合物理學規(guī)律的連續(xù)性。這種連續(xù)性使得我們能夠進行軌跡的預測和補全。當遇到部分或完全遮擋時,可以利用軌跡數(shù)據(jù)進行有效的預測,從而超越人類感知的局限,實現(xiàn)對環(huán)境的更準確預測。
交互不僅涉及環(huán)境適應,還包括智能體的主動探索。通過在虛擬環(huán)境中進行訓練,可以顯著提高智能體的效率和安全性。這種方法避免了在真實世界中進行高風險試驗,減少了實驗成本,同時更高效地提升了智能體的性能??偟膩碚f,未來的自動駕駛系統(tǒng)將依賴于多模態(tài)的視覺理解、強大的交互能力以及智能體的主動學習,以實現(xiàn)更智能和更安全的自動駕駛。在實現(xiàn)高級智能體時,虛擬世界的模擬和深度強化學習的結合顯得尤為重要。傳統(tǒng)的學習方式往往受限于物理世界中的高成本和低效率,而虛擬環(huán)境的應用可以極大地提升智能體的學習效率和能力。
人類在現(xiàn)實世界中的學習過程通常受到時間和資源的限制。例如,一個工人在一生中可能只能專注于一項技能,效率較低。然而,智能體在虛擬世界中進行學習和探索,可以突破這些限制。虛擬世界的高效交互學習使得智能體能夠在短時間內(nèi)掌握多種技能,實現(xiàn)比人類更強的能力。這是因為虛擬世界可以模擬各種邊緣事件,智能體可以在其中進行大量的主動探索,從而獲得更全面的學習體驗。
構建一個完整的數(shù)字孿生系統(tǒng),或者說一個虛實平行世界,雖然費用高昂,但它對于提升智能體的能力至關重要。數(shù)字孿生系統(tǒng)需要模擬現(xiàn)實世界的復雜性,包括物體的CAD造型、它們的相互關系以及動力學屬性,如圖10所示。這種系統(tǒng)不僅需要視覺上的逼真,還要求在運動學和動力學上的一致性。
圖10 世界模擬器與 深度強化學習的作用
近年來,像生成視頻技術的發(fā)展,為這一領域帶來了新的希望。通過簡單的文本提示,可以生成符合物理學規(guī)律的合成視頻數(shù)據(jù)。這種技術可以增強訓練數(shù)據(jù),提升深度學習模型在復雜環(huán)境中的表現(xiàn),最終實現(xiàn)最優(yōu)策略的交互式探索。
智能體在虛擬世界中的表現(xiàn),不僅能模仿人類行為,還能超越人類的能力。虛擬環(huán)境允許智能體同時處理多種任務,例如它可以在虛擬世界中既是泥瓦工,又是鐵匠,甚至在某些領域超越人類。這種全面的模擬和訓練,使得智能體能夠在真實環(huán)境中表現(xiàn)得更加優(yōu)秀。
深度強化學習在虛擬環(huán)境中能夠快速提升智能體的行動能力。智能體在虛擬世界中進行交互,進行自主學習,能夠快速調(diào)整策略和行為,實現(xiàn)比人類更高水平的智能行為。通過將虛擬世界的經(jīng)驗轉(zhuǎn)化為現(xiàn)實世界的應用,智能體能夠有效地完成復雜任務,并在某些領域超越人類水平。
在開放域環(huán)境中實現(xiàn)強化學習的自主探索面臨諸多挑戰(zhàn),尤其是在如何在復雜且未定義的環(huán)境中進行有效的學習和決策方面。一個核心問題是如何定義智能體的智商,并與人類智商進行比較。這不僅有助于理解智能體是否能夠達到或超越人類的認知水平,還關系到通過交互式學習是否能實現(xiàn)這一目標。為了實現(xiàn)這種能力,智能體需要在大量的實驗和模擬中不斷調(diào)整和驗證。
另一個重要問題是如何在連續(xù)的潛空間中進行事件軌跡的學習。這包括在這種空間內(nèi)生成最優(yōu)的交互信息,以實現(xiàn)有效的學習。這種學習不僅要求理解事件的感知,還需要生成軌跡并進行動態(tài)的、開放域的交互式學習。如何在面對邊緣事件和長遠問題時保持學習的連貫性和有效性,是這一過程中必須解決的關鍵問題。
關于視覺智能的涌現(xiàn),值得關注的是,是否存在一種情況,智能體在經(jīng)過大量訓練后能夠自動理解和處理新的視覺數(shù)據(jù),而無需進一步的示例或監(jiān)督。這可能表明視覺智能的涌現(xiàn),意味著智能體能夠在無需人工標注或額外訓練數(shù)據(jù)的情況下,自行理解和處理類似的圖像。
四、高階NOA 與 L3/L4 自動駕駛規(guī)模化產(chǎn)業(yè)落地分析
高級的NOA與L3、L4自動駕駛的規(guī)模化產(chǎn)業(yè)落地正成為當前的焦點。L2++的自動駕駛技術已經(jīng)實現(xiàn)了商業(yè)化應用,成為智能電動汽車的標配,用戶和市場對其認可度不斷提高。無論是新能源汽車還是傳統(tǒng)燃油車,L2++的NOA已經(jīng)被廣泛應用,提升了駕駛的便利性和安全性。
然而,L3和L4自動駕駛技術的商業(yè)化進程仍處于測試階段。例如,武漢的蘿卜快跑網(wǎng)約車和特斯拉的FSD V12等項目已經(jīng)開始進行商業(yè)化運營,引起了廣泛的社會關注。這些技術曾被認為距離實際應用還有很長時間,但現(xiàn)在已經(jīng)開始影響到我們的生活和就業(yè)。
L3和L4自動駕駛的主要挑戰(zhàn)包括進一步降低接管率、規(guī)范化規(guī)?;僮饕约疤嵘脩趔w驗。與L2++的NOA不同,L3和L4的技術更加先進,L3級別的自動駕駛需要駕駛員保持一定的監(jiān)督,但主要依賴自動化系統(tǒng),而L4則進一步推進了無人駕駛,理論上不需要任何形式的安全員。
L2++和L3的區(qū)別在于法律責任的劃分。L2++階段,安全員仍需承擔主要的法律責任,而在L3階段,機器的責任逐漸增大,安全員的角色變?yōu)檩o助。L4階段則是一個顛覆性的技術進步,不僅在技術層面上突破了傳統(tǒng)限制,也在產(chǎn)業(yè)戰(zhàn)略上具有重要意義。L4的實現(xiàn)標志著無人駕駛技術的成熟,將對整個行業(yè)產(chǎn)生深遠的影響。
技術路線的選擇在自動駕駛領域尤為重要,尤其是面對邊緣事件的處理、環(huán)境適應性提升以及自主性增強的需求。大模型技術提供了一個歷史性的機遇,使得端到端的解決方案成為可能。這種方法通過學習大規(guī)模的數(shù)據(jù),能夠應對各種復雜情況,而不必窮舉所有可能的漏洞或情況。這意味著,盡管模型和代碼可能變得更簡單,但對數(shù)據(jù)的需求卻顯著增加。
當前,大模型在處理海量數(shù)據(jù)方面展現(xiàn)出強大的能力。例如,GPT在不到三年的時間內(nèi)就能學習并處理大量的文本數(shù)據(jù),遠超人類的學習能力。這種能力的實現(xiàn)離不開高效的自建模型學習和強大的計算資源。雖然大模型的開發(fā)和應用依賴于大量的數(shù)據(jù),但其高效的學習能力使得它能夠模擬和處理復雜的語料,逐步具備初步的邏輯推理能力。
然而,AI技術的產(chǎn)業(yè)化部署面臨著高預算要求,特別是在高階視覺和長時空上下文訓練方面。自動駕駛的開放環(huán)境和長時間序列要求高效的訓練方式,同時需要綜合運用大語言模型、多模態(tài)視覺模型和通用世界模擬器。通用世界模擬器能夠生成合成視頻數(shù)據(jù),從而補充訓練數(shù)據(jù),但這也需要大量的計算資源。雖然大模型使得代碼和模型變得更加簡潔,但對數(shù)據(jù)的需求和計算資源的消耗仍然很大。
端到端的視頻動作解決方案對數(shù)據(jù)的需求極其高,需要大量的短視頻和動作數(shù)據(jù)來進行有效的訓練。這種解決方案的實現(xiàn)依賴于極大的AI算力,特別是在聯(lián)合預訓練階段。在這一階段,通常需要百萬量級的短視頻數(shù)據(jù)。短視頻因其信息量大且重復較少,適合用于大規(guī)模數(shù)據(jù)處理。預訓練階段是最為算力密集的,因為涉及到處理大量數(shù)據(jù)并建立初步模型。
在進行模型微調(diào)和測試端的規(guī)模化部署時,依然需要大量的算力。例如,在整個北京市或全國范圍內(nèi)進行產(chǎn)業(yè)化部署時,需要的算力和能耗都是巨大的。經(jīng)濟區(qū)訓練可能需要達到幾十萬的AI大算力規(guī)模,這對硬件資源的需求非常高,如圖11所示。
圖11 端到端視覺動作大模型
除了算力,數(shù)據(jù)的采集和清洗也是關鍵。為了構建有效的數(shù)據(jù)和數(shù)據(jù)閉環(huán),需要處理百萬量級的短視頻和相應的動作序列數(shù)據(jù)。這些數(shù)據(jù)包括真實的視頻數(shù)據(jù)和合成的視頻數(shù)據(jù)。合成數(shù)據(jù)的比例可能隨著技術的發(fā)展而增大,這要求在數(shù)據(jù)處理過程中進行精確的分割和標注。
特別是在視頻數(shù)據(jù)處理中,需要精確的掩模分割,以確保每個視頻幀中的物體被準確標注,如圖12所示。雖然自監(jiān)督學習可以減少對人工標簽的依賴,但初期的人工標注仍然是必要的。數(shù)據(jù)標注經(jīng)歷了人工、半自動和全自動處理過程,以確保高質(zhì)量的分割和標注結果。例如,車體和建筑風格的掩模分割需要特別精確,而行人等非規(guī)則形體的掩模分割則更具挑戰(zhàn)性。
圖12 數(shù)據(jù)采集與清洗
特斯拉早期就專注于自動駕駛數(shù)據(jù)的積累,并且在全球范圍內(nèi)獲取了大量的真實短視頻數(shù)據(jù)。截至2021年,他們的數(shù)據(jù)量已經(jīng)超過10億英里(約16億公里)。雖然這一數(shù)據(jù)量龐大,但數(shù)據(jù)的質(zhì)量和標準仍然是一個關鍵問題。許多車企盡管已經(jīng)開始積累數(shù)據(jù),但在高質(zhì)量數(shù)據(jù)的收集和處理上仍面臨挑戰(zhàn)。
企業(yè)的核心競爭力越來越依賴于數(shù)據(jù),而不僅僅是算力。盡管算力可以通過采購或自主研發(fā)獲得,例如特斯拉已經(jīng)在自建芯片和算力方面有所突破,但數(shù)據(jù)的獲取、處理和質(zhì)量控制顯然更加復雜且重要。高質(zhì)量的數(shù)據(jù)不僅是訓練模型的基礎,還直接影響到系統(tǒng)的準確性和可靠性。
在視覺神經(jīng)網(wǎng)絡的應用中,數(shù)據(jù)的質(zhì)量和多模態(tài)理解能力至關重要。自動駕駛系統(tǒng)需要處理的圖像數(shù)據(jù)不僅僅是視覺信息,還涉及到聽覺、語音等多模態(tài)信息的交叉理解。這種多模態(tài)感知能力對于精確的動作規(guī)劃和環(huán)境理解非常重要。系統(tǒng)需要在開放環(huán)境中進行有效的時空觀測和理解,以支持可靠的動作模擬和決策。
開放域問題是另一個關鍵挑戰(zhàn)。開放域視覺系統(tǒng)需要處理各種未見過的新類別和場景,具備強大的泛化能力。智能涌現(xiàn)和零樣本學習的研究方向在這方面展示了潛力,例如利用Transformer模型來實現(xiàn)更好的語義對齊和目標檢測技術,從而提升對開放域的處理能力。
在自動駕駛領域,端到端視覺動作模型是核心技術之一。這種模型集成了大量的數(shù)據(jù)和算力,能夠?qū)崿F(xiàn)自動駕駛的核心功能,如環(huán)境感知、決策和控制。單車智能方案依賴于視覺系統(tǒng),包括攝像頭、激光雷達和毫米波雷達等設備,用于實時感知周圍環(huán)境,進行動作規(guī)劃和決策。通過虛擬平行世界和模擬器的結合,能夠進行交互式學習和深度強化學習,從而提升自動駕駛的能力和安全性。利用合成視頻數(shù)據(jù)進行訓練,有助于提高系統(tǒng)的安全性和準確性,推動L3、L4和L5的商業(yè)化進程。
此外,將單車智能與智能路網(wǎng)結合的方案,包括車路云一體化,進一步提升了自動駕駛的安全性和效率,如圖13所示。在這一方案中,遠程安全員系統(tǒng)能夠通過大模型進行預測和監(jiān)控,從而處理多輛車的復雜場景。這種一對多的安全管理模式降低了人力成本,并推動了商業(yè)模式的規(guī)?;4竽P驮谠朴嬎愫瓦吘売嬎悱h(huán)境下的應用,使得商業(yè)化推廣和規(guī)模化成為可能。
圖13 單車智能+智能路網(wǎng)
要實現(xiàn)這些技術突破,還需要技術和政策的支持。技術創(chuàng)新需要在地面、云端或邊緣進行有效的支撐,以確保系統(tǒng)的穩(wěn)定性和可靠性。同時,政策法規(guī)的支持,包括政府的激勵措施和創(chuàng)新支持,也是實現(xiàn)商業(yè)化落地的關鍵。建立車隊行駛的安全評估體系,提升對一對多云接管的安全預測能力,將幫助安全員實現(xiàn)對更多車輛的安全接管,從而推動自動駕駛技術的進步和商業(yè)化推廣。