這個視頻,Phil Beisel介紹《The AI Merge That Changes Everything for Tesla 》,向大家介紹了特斯拉正通過統(tǒng)一的AI架構,將全FSD的積累擴展至具身智能領域,使人形機器人Optimus得以共享同樣的數(shù)據(jù)管線、仿真系統(tǒng)、訓練方法與硬件平臺。
這種復用是一次系統(tǒng)層面的融合,特斯拉正在打造一個面向多形態(tài)機器人的通用AI平臺,從技術和系統(tǒng)架構的角度,我們來看看特斯拉如何在FSD和Optimus之間實現(xiàn)“視覺到行動”的統(tǒng)一 。
圖片
01
視覺驅動的通用智能:
從四輪到雙腿的統(tǒng)一
特斯拉的自動駕駛與人形機器人表面上屬于完全不同的領域,一個面向高速行駛的車輛,一個面向動態(tài)行走與操控的機器人,但在技術內(nèi)核上共享同一邏輯:都依靠視覺系統(tǒng)理解世界,并基于神經(jīng)網(wǎng)絡生成動作指令。
FSD是“四輪機器人”,Optimus是“具身機器人”,都是特斯拉在“以視覺驅動物理世界”的技術框架下的延伸產(chǎn)物。
圖片
在硬件層面,兩者都依賴以攝像頭為主的視覺感知系統(tǒng)。
FSD利用八個環(huán)繞車身的攝像頭實現(xiàn)360度感知,而Optimus的雙目攝像頭加后置鏡頭則構建出與人類相近的視覺范圍。
盡管運動輸出差異極大——車輛的控制僅限于加速、剎車、轉向,而Optimus需協(xié)調(diào)腿、手、頭部乃至軀干的多自由度運動——但其決策路徑一致:從視覺輸入,到AI感知,再到動作輸出,全過程均由端到端神經(jīng)網(wǎng)絡完成。
模式關鍵在于FSD多年來積累的“視覺-行為映射”經(jīng)驗。
特斯拉通過數(shù)百萬輛車實時采集的駕駛數(shù)據(jù),建立了龐大的多模態(tài)數(shù)據(jù)管線。這一管線不僅包含視頻幀,還融合了慣性測量單元(IMU)、GPS和音頻等時序數(shù)據(jù),形成了高度同步的多傳感器數(shù)據(jù)集。
這套系統(tǒng)成為Optimus的學習起點,使其在機器人階段無需從零開始建立“世界模型”,而是復用FSD的成熟管線,實現(xiàn)從道路到空間場景的遷移學習。
圖片
更深層的共通在于神經(jīng)網(wǎng)絡結構。
特斯拉的FSD已全面轉向混合專家(Mixture of Experts,MoE)架構,這是一種將不同技能模塊化的網(wǎng)絡設計。每個“專家”對應特定場景下的行為策略,例如城市交通、匝道變線或惡劣天氣。
而在Optimus中,這些“專家”被映射為具體動作技能,如抓取、行走、平衡或避障。系統(tǒng)通過實時權重分配激活不同模塊,實現(xiàn)多技能協(xié)同。
這種技能化的AI結構,使得特斯拉的AI系統(tǒng)可以在“開車”與“搬運物品”之間共享學習框架。
圖片
這一架構背后,是特斯拉對“通用具身智能”路線的深度布局。
通過在不同物理形態(tài)中共用數(shù)據(jù)和模型,特斯拉實際上正在訓練一個跨領域的物理AI系統(tǒng)。
FSD是其驗證場景,Optimus則是其具身化延伸。當兩者的AI模型共享視覺語義、運動邏輯與學習機制時,特斯拉就擁有了一個能夠支撐多種機器形態(tài)的統(tǒng)一大腦。
02
從仿真到強化學習:
統(tǒng)一訓練系統(tǒng)的工程邏輯
FSD與Optimus共享的不僅是視覺與網(wǎng)絡結構,更關鍵的是整個訓練和仿真體系。特斯拉通過龐大的仿真引擎與強化學習(RL)系統(tǒng),讓AI可以在虛擬環(huán)境中反復試錯,從而加速智能體的成長。
在自動駕駛領域,特斯拉構建了基于真實道路的高保真仿真器。
該仿真系統(tǒng)能夠重建舊金山等城市的復雜路口環(huán)境,調(diào)整道路幾何、交通規(guī)則與光照天氣條件,用于生成豐富的訓練場景。這些場景既用于FSD軟件的回歸測試,也為模型生成合成數(shù)據(jù),提高其在稀有邊界情況(corner cases)下的表現(xiàn)。
這一機制被無縫移植到Optimus上。相同的仿真引擎被用于構建家庭、工廠、倉儲等場景,讓Optimus在虛擬世界中學習如何完成裝盤、行走、抓取等任務。
不同于傳統(tǒng)機器人依賴工程師設定動作軌跡的方式,特斯拉采用模仿學習與強化學習相結合的方式:先讓AI學習人類演示的基礎動作,再通過仿真環(huán)境中的海量試錯優(yōu)化行為策略。每一次“成功”的動作都會得到獎勵信號,系統(tǒng)據(jù)此調(diào)整參數(shù),實現(xiàn)自主學習。
這種訓練方式的高效之處在于,它利用FSD積累的全部訓練管線,包括數(shù)據(jù)打包、自動標注、批量訓練與驗證循環(huán)。
特斯拉不需要為Optimus重建數(shù)據(jù)基礎設施,而是直接在既有框架上擴展人形任務。
甚至連底層推理硬件也完全共通:目前FSD運行在特斯拉自研的HW4芯片上,而Optimus原型同樣搭載這一平臺。未來兩者都將升級至AI5芯片,實現(xiàn)更高的推理效率。
特斯拉的目標不僅是讓Optimus“學會走路”,而是讓它像FSD一樣具備自我進化的能力。
隨著兩者的AI模型在訓練和推理層面逐步統(tǒng)一,F(xiàn)SD的駕駛經(jīng)驗將轉化為機器人在物理世界中的操作直覺,而Optimus的具身學習又能反哺FSD的感知與決策算法,形成正向循環(huán)。
這正是特斯拉系統(tǒng)性工程能力的體現(xiàn):通過架構復用與閉環(huán)訓練,使兩條看似獨立的智能系統(tǒng)路線在底層實現(xiàn)融合,從而顯著降低研發(fā)成本,提高通用智能的學習效率。