理想i8上市之后,很多消費者的一個疑問是:35萬元的理想i8憑什么?當時發布會上的一個問題很明顯,理想i8的靜態感知似乎沒有和競爭對手拉開差距,而它的動態體驗好像各家表述出來都差不多。所以,理想i8在發布時更像是一款“水桶車”,沒有特別長的一塊長板,也就讓外界認為這款車不過是理想“復制粘貼”的又一款產品。
然而,在我們體驗了理想i8上市即可用的“理想VLA司機大模型”后,我們才恍然大悟:
理想i8真正的長板,原來是這套全新架構的智能輔助駕駛系統,而且很長、很長。

可以直接給到的一個結論是:理想VLA司機大模型的第一個版本體驗就已經和華為ADS 3.3能力不相上下。相比于端到端+VLM的現有版本,理想VLA在平順性和舒適性上有明顯提升,而且防御性駕駛能力會讓用戶明確感知到安全邊際。再加上語音控制駕駛、連續任務、地下車庫漫游等細節功能的增加,理想VLA司機大模型應該是最近體驗過的智駕輔助系統中最能帶來驚喜感的一個版本。
所以駕仕派認為,理想i8的口碑將會在更多的消費者體驗完VLA之后迎來反轉時刻,理想i8的智駕價值會被很快放大。
01
VLA的實際體驗
拋開背后的技術實現路徑,我們先來聊聊理想VLA司機大模型的實際體驗。按照理想的說法,這次VLA大模型上車,在用戶感知層面主要有五個方面的升級:1、防御駕駛;2、平穩舒適;3、三點掉頭;4、連續任務;5、地庫行駛。

第一個防御駕駛,是說VLA大模型在訓練出來以后,會更能理解人類司機在遇到復雜路況的時候更謹慎,而不是端到端模型那種很莽撞的駕駛風格。
比如在體驗過程中,搭載了VLA司機大模型的理想i8遇到T型路口,或者左右兩側暫時有盲區的道路,還有地庫窄門時,會進行減速觀察,確認安全之后再通過。還有一個比較明顯的變化是,在進入左轉、右轉車道的時機上會更提前一些,而不像端到端那樣逼近路口時才迅速變道,也就確保了駕駛的安全性。類似的情況還有,車輛在復雜路口進行博弈的時候,明顯會覺得車輛更像人類的駕駛風格,不會特別激進,但又保持了比較好的效率。

第二個是行駛的平穩舒適提升,帶來了更好的安心感。理想的智駕工程師透露,VLA大模型帶來的一個變化是,對縱向控制會更像人類司機、行車更絲滑,而端到端更多還是橫向的控制更多。所以現在端到端+VLM有時候會感覺剎車來得比較急,而VLA上車后就大幅優化舒適性,起步、剎車、轉彎都更絲滑,偶爾可能才會出現一次規避旁車的重殺。而且這種平穩舒適也體現在會選擇更好的行車路線,比如提前進入右側車道、超車后變回原來車道、與后車拉開更遠的距離,安心感也隨之提升。

第三是可以完成三點掉頭,也就是在車道任意可以掉頭的地方完成掉頭、一把不過可以倒車再繼續完成掉頭的操作。在實際體驗中,不僅在四車道的大路上可以完成,在雙車道中可以完成,甚至在小路上還會找一個丁字路口完成,能力確實可以。
第四個連續任務的意思是,駕駛者可以語音指令車輛靠邊,又或者不按照導航地圖的路線,給出一個左轉、右轉指令,還能夠語音變道,甚至你還可以讓車輛記住在某段路按照什么速度行駛,可以比限速更快一些,而不用統一調整速度偏移值。并且在你完成這些操作之后,原本的智駕任務是不會中止的,比如你靠邊停車之后可以讓車輛繼續出發;在完成和導航路線不一樣的轉彎之后,車輛也會繼續重新規劃路線,并自動繼續導航。這樣在你進行智駕領航輔助的時候不會因為臨停中斷而需要重新啟動,整個體驗更流暢。


第五個能力是地庫行駛。之前的端到端+VLM已經可以完成地庫的車位記憶通行,開過一遍就能記住,而現在VLA則實現了如果地庫記憶位置不能停車,還可以在地庫進行漫游尋找車位,依靠的主要是VLA的視覺-語言能力尋找。在我們的實際體驗中,車輛會很準確的識別樁桶、地鎖等裝置,最后繞了好幾圈尋找到車位完成泊車。整個地庫的行駛能力超過了我的想象,相當于一個沒有預先掃描地庫地圖的VPD功能。
講完好的地方,再說說這次遇到的不足。一個比較明顯的問題是,語音指令有些時候需要按照標準話術去講,而不是完全的自然語義。還有在窄路進行三點掉頭時的效率還比較慢,尤其是防御駕駛優先的前提下,整個掉頭過程可能會造成道路擁堵。
其次是語音操控車輛進行左轉右轉時,需要預留出足夠的時間,否則車輛沒有辦法及時響應,造成走錯車道或者臨近變道點激進變道。原因是這一操作相當于讓車輛做了一個臨時、不可預見的導航規劃,所以響應新的導航路線需要一個準備時間。

還有一些小問題包括可能出現“幻覺”,比如語音操作臨停,結果停車位置不是很好;還有就是車輛出現過一次聽了“變道”語音指令后,試圖超越黃色虛線車道線;偶爾也有一些無效變道動作。
以上是這次體驗理想VLA司機大模型的實際體驗記錄,作為VLA司機大模型上車的第一個版本完成度很高,足以給出80分的高分。
02
VLA背后的技術實力
接下來的問題是,理想VLA司機大模型是如何實現這些用戶體驗的?

簡單來說,理想VLA司機大模型的核心能力就是四個——
1、思維能力:實時推理,推理速度達到10赫茲以上,并呈現思維推理過程。所以在車機上我們可以看到SR界面會有很精簡的短思維鏈推理過程,執行效率很快。

2、溝通能力:用戶可以通過語言和模型進行交流,“開快點、開慢點、左轉、右轉”等基本操作均可實現。這是通過語言能力來實現的——VLA可以通過對語言的理解來執行車輛操控,也就實現了“動口不動手”。
3、記憶能力:通過語言理解記住用戶的偏好選擇,記住用戶之前下發過的指令,存儲在云端并直接在云端調用。

4、自主學習能力:VLA司機大模型在仿真環境里,進行無監督的自我迭代和提升。

在實際過程中,VLA司機大模型就是融合視覺識別和語言理解能力,讓汽車有了思考能力,進而才有了上面提到的防御駕駛、平穩舒適、三點掉頭等能力。這一點是之前的規則或者端到端架構上無法很好實現的——強規則下可能也能夠做到這些能力,但是付出的人力和物力都會更大,而且總是會復現之前的問題,這對于智能駕駛來說迭代效率就沒那么高。
那么現在除了理想,還有誰家推出了VLA架構?答案是,沒有。
雖然我們也知道,VLA只是人類通向L4、L5自動駕駛終局的一條可選道路之一,別家車企不一定選擇VLA做突破,但是VLA暫時被認為會是一條更快出結果的道路,包括現在正火的機器人項目都試圖用一個統一的VLA架構去解決所有的操作問題。
那么,理想為什么能率先推出VLA?將其總結為四個方面的領先優勢——
數據、算法、算力、工程能力。

具體這些內容比較復雜,就不在這里展開,簡單總結一下就是:理想汽車有12.66億的數據采集里程,而訓練VLA同樣用了1000萬Clips的數據,但這些數據和之前的訓練數據有區別。同時新的訓練數據有10%的世界模型合成數據,用來解決一些長尾場景的訓練。而在算法上,理想VLA采用先蒸餾出車端模型再進行超級對齊和強化訓練的方式,最終訓練出一個4B的車端模型。


在算力上,理想汽車總算力為13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于訓練。理想汽車認為,“在VLA時代,推理算力更重要,如果沒有推理卡,就不能生成仿真訓練環境。”

另一個優勢是,理想汽車擁有行業領先的工程落地能力,主要體現在量化精度高和跨平臺部署能力強。這里面最直觀的體現就是理想汽車實現VLA模型在Thor-U和Orin-X的跨平臺部署,而不是只有新車才能用。至于量化精度高,你可以理解為推理性能的大幅提升,使得VLA大模型可以達到10赫茲、也就是每秒10次的推理速度,并呈現思維推理過程。

03
VLA的新未來
在體驗理想VLA司機大模型之后,一個深刻的感受的是:
VLA是真正高度智能化的模型架構,其應用場景和迭代速度或許會超乎想象。

比如之前很多企業都在做L4級別的Robotaxi,又是激光雷達又是高算力芯片,但是今年我們看到特斯拉直接用純視覺傳感器+FSD就可以完成Robotaxi的部署。這就證明了在智能輔助駕駛系統邁向端到端的下一階段以后,可以更快速地向L4進發。
同樣,在體驗理想VLA司機大模型的時候,理想汽車也給了我們一個“One more thing”,就是理想汽車的無人駕駛穿梭巴士。這些穿梭巴士就是理想MEGA Home做了一些專門的調試,主要是對理想汽車園區做了掃描和打點,然后僅僅是利用VLA司機大模型能力就可以讓MEGA Home成為無人駕駛的穿梭巴士,完成園區內的漫游。

實際體驗中,你可以召喚穿梭巴士接人,然后去往星巴克拿咖啡,再讓它開到C1大樓的地下車庫送你去開會,整個流程都非常絲滑。而且這些操作基本都可以通過語音來控制,也算是一個無人穿梭巴士的“交互新范式”。所以,理想的穿梭巴士完全就是復用了VLA司機大模型的能力,除了園區沒有導航、必須實現打點之外,幾乎沒有任何改裝成本。

理想汽車方面則進一步表示,園區穿梭巴士相當于從仿真單個場景變為仿真完整區域,會進一步加快VLA強化訓練速度。

另一方面,盡管VLA司機大模型的效率還受限于算力,但是從長遠來看,通過對VLA模型精度的變化,比如從目前采用的INT8與FP8混合精度推理,變為FP4精度推理,預計未來算力可實現翻倍,為VLA模型釋放更大的算力空間。

所以,理想汽車才有底氣說:VLA的下限是端到端+VLM的上限,而VLA的上限,則是讓人遐想的未來。這也將會讓理想i8的口碑和產品價值迎來一次類似于當年問界新M7的反轉時刻。