2025-11-21 22:40:39
11月20日智源2025具身開放日上,多位技術(shù)負責人探討具身智能未來,共識遠少于分歧,但更深層共識是具身智能競爭在于長期投入、真實落地與數(shù)據(jù)質(zhì)量。討論涉及世界模型、是否收斂到統(tǒng)一架構(gòu)、數(shù)據(jù)瓶頸等問題,專家認為具身智能需根植于真實機器人數(shù)據(jù),架構(gòu)創(chuàng)新、真實世界落地、機器人數(shù)量增長與高質(zhì)量動作數(shù)據(jù)積累需同時發(fā)生。
每經(jīng)記者|可楊 每經(jīng)編輯|廖丹
11月20日下午,在智源2025具身開放日上,在多位技術(shù)負責人參與的BAAI具身模型會客廳討論中,關(guān)于具身智能未來的共識遠少于分歧。
世界模型是不是核心,具身智能是否會收斂到統(tǒng)一架構(gòu),語言是否應該退居次要,動作模型如何設計,數(shù)據(jù)從哪里來??每一個問題都仍在探索之中。
但《每日經(jīng)濟新聞》記者注意到,另一種更深層的共識正在形成——具身智能的真正競爭不在概念,而在長期投入、真實落地與數(shù)據(jù)質(zhì)量。
未來幾十年,當機器人在真實世界中創(chuàng)造價值、積累經(jīng)驗、形成反饋時,或許才能孕育出具身智能的“ChatGPT時刻”。在此之前,這仍是一場需要耐心的長期主義競賽。
圖片來源:主辦方供圖
當討論具身智能的關(guān)鍵路徑時,世界模型總是被提及,與世界模型的結(jié)合是不是未來具身智能發(fā)展的關(guān)鍵?
這個問題隨著世界模型概念的模糊化,而在業(yè)內(nèi)產(chǎn)生分歧。
北京大學助理教授、銀河通用創(chuàng)始人王鶴認為,“世界模型”一詞最早來自強化學習領(lǐng)域,指的是根據(jù)當前狀態(tài)與所采取的動作,預測下一步狀態(tài)變化的動力學模型。然而,在Sora等視頻生成模型出現(xiàn)后,世界模型概念逐漸向用視頻生成未來傾斜,這讓它與具身智能所需的能力發(fā)生了偏移。
王鶴認為,視頻生成模型并不能直接作為具身智能的通用解決方案。原因在于,機器人與人的身體差異巨大,即使訓練出一個能想象人類如何操作世界的視頻模型,也不能保證它對機器人同樣有效。即便是當下最像人的人形機器人,其動作空間、靈巧度和執(zhí)行方式都與人類存在不小差距,看起來像人做事,不等于機器人學會了做事。
但王鶴同時強調(diào),對未來進行預測是具身智能不可缺少的一環(huán),機器人必須能夠根據(jù)未來目標倒推當前動作,并對環(huán)境變化保持前向與后向的推理能力。因此,具身世界模型是必要的,但它必須根植于真實機器人數(shù)據(jù),才能有真正屬于機器人的世界模型誕生。
智源研究院院長王仲遠認可世界模型對具身智能未來發(fā)展的重要性。他指出,當下業(yè)界對世界模型并無統(tǒng)一定義?!叭绻澜缒P蛢H僅指視頻生成(Video Generation),那顯然不夠?!闭嬲龑呱碇悄苡幸饬x的是能夠根據(jù)過去的時空狀態(tài),準確預測“下一時刻狀態(tài)”,并據(jù)此規(guī)劃動作的模型,這種預測是基于前序的時空狀態(tài)和現(xiàn)場環(huán)境上下文,進而給出的精準決策。
王仲遠舉例稱,自己回答問題時,要基于前一位嘉賓的發(fā)言內(nèi)容以及現(xiàn)場環(huán)境,做出“拿起話筒”這一決策。這才是機器人需要的世界模型,不僅僅是生成幾秒鐘后的畫面,而是要基于對環(huán)境的理解,給出一個準確的步驟動作和響應。
在大語言模型時代,Transformer架構(gòu)(一種基于自注意力機制的神經(jīng)網(wǎng)絡架構(gòu))一統(tǒng)天下。具身智能領(lǐng)域是否會收斂到一個統(tǒng)一的架構(gòu)?是否會出現(xiàn)屬于機器人的“具身Transformer”?
中國科學院大學教授趙東斌給出了一種可能性。他表示,目前Transformer在具身智能領(lǐng)域的應用已經(jīng)帶來了顯著的性能提升,例如近期Physical Intelligence發(fā)布的π*0.6模型,利用強化學習獲取數(shù)據(jù)鏈,能夠在疊衣服、裝盒子等多個任務中實現(xiàn)通用。他認為,隨著技術(shù)演進,模型架構(gòu)可能會收斂到單一模型,或者呈現(xiàn)多樣化但核心統(tǒng)一的態(tài)勢。
此外,大部分嘉賓則對于技術(shù)路線的收斂持認可態(tài)度。在此基礎(chǔ)上,如果具身智能最終會收斂到一個統(tǒng)一架構(gòu),那么這個“具身Transformer”的技術(shù)路徑在哪里?
招商局集團AI首席科學家張家興認為,當下大模型的發(fā)展邏輯難以直接遷移到具身智能?!斑^去三年形成的LLM(Large Language Model,大語言模型)與VLM(Vision-Language Model,視覺語言模型)等結(jié)構(gòu),是以語言為中心,而語言在人類執(zhí)行動作時并不參與?!彼e例稱,人類開車時不會在大腦中不斷語言化動作指令,因此語言作為中間層的VLA架構(gòu)(視覺語言動作模型,Vision-Language-Action),其本質(zhì)與機器人需要的結(jié)構(gòu)不一致。
張家興提出,具身智能需要一個完全屬于機器人自身的智能結(jié)構(gòu),而不是從現(xiàn)有VLA體系延展出來的產(chǎn)物。現(xiàn)階段,他認為真正的具身架構(gòu)還未出現(xiàn),業(yè)界正在等待一個來自基礎(chǔ)大模型領(lǐng)域的突破性創(chuàng)新,類似當年Transformer論文那樣。這種創(chuàng)新將有可能弱化語言在模型中的中心地位,讓模型以行動和視覺作為驅(qū)動核心。
與張家興的視角類似,清華大學助理教授、星海圖聯(lián)合創(chuàng)始人趙行認為,視覺是世界上最通用的感知傳感器,具身智能的基礎(chǔ)模型應當遵循生物進化規(guī)律:先有運動和視覺,最后才誕生高級語言智慧。因此,理想的模型順序應該是Action First(動作優(yōu)先),然后Vision(視覺),最后Language(語言)。
趙行強調(diào)了一個關(guān)鍵差異:具身模型是一個閉環(huán)系統(tǒng)。語言模型是一問一答的開放系統(tǒng),而具身模型需要“動作—反饋—再次動作”的實時循環(huán),其核心是持續(xù)的環(huán)境交互。它必須從世界反饋中修正自己的策略,而不是完成一次思考后給出單一答案。
智元機器人合伙人、首席科學家羅劍嵐在此基礎(chǔ)上進一步擴展了閉環(huán)系統(tǒng)的結(jié)構(gòu)組成。他認為,未來一定會出現(xiàn)閉環(huán)一致的“具身Transformer 系統(tǒng)”,但未必是單一模型,而更可能是由視覺(V)、語言(L)、動作(A)等模塊共同構(gòu)成的系統(tǒng)?!癡LA 的趨勢是對的,但最終形態(tài)不會是今天這個樣子。”真正的質(zhì)變可能需要等到具身智能互聯(lián)網(wǎng)形成,即成千上萬臺機器人在真實場景中解決具體問題,累積海量數(shù)據(jù)后,才能催生出真正的統(tǒng)一系統(tǒng)。
在架構(gòu)探索之外,動作輸出端的不成熟也是當下具身智能無法收斂的重要原因。王鶴指出,目前行業(yè)在動作輸出上尚未收斂,存在大量基于概率匹配的方法,這類方法雖然適合處理連續(xù)變量,但為端到端的深度強化學習埋下了隱患,如何對概率模型應用策略更新是尚未解決的問題。
王鶴認為,短期內(nèi)行業(yè)需依賴仿真環(huán)境和合成數(shù)據(jù)來探索動作優(yōu)先的架構(gòu),因為目前全球僅有約一千臺人形機器人在運行,數(shù)據(jù)量遠不足以支撐新架構(gòu)的探索?!伴L期來看,地球上人形機器人的數(shù)量必須保持長期高速增長,只有這樣,它們的能力才能同步提升,而反過來,能力的增長又會進一步推動數(shù)量增長,最終才能孕育出真正強大的模型?!?/p>
自變量創(chuàng)始人、CEO王潛則認為,是否叫Transformer并不重要,Transformer 更像蓋樓的鋼筋,真正決定樓是什么樣子的,是建筑的結(jié)構(gòu)設計。他強調(diào),物理世界充滿了語言和圖像無法描述的精細摩擦與接觸過程,因此必須建立一個獨立于虛擬世界的、能夠描繪復雜物理過程的基礎(chǔ)模型。“可能十年后或者是五年后,可能反而是我們從物理世界中收集到的數(shù)據(jù)來做出來的多模態(tài)模型,反過來吞噬今天的一些基礎(chǔ)模型?!?/p>
無論是否收斂到一個統(tǒng)一模型,對所有具身企業(yè)而言,一個共識正在形成:如果具身智能要走到“ChatGPT時刻”,必須先解決數(shù)據(jù)問題。
張家興團隊選擇“高質(zhì)量+低成本”的路線,以真實物理世界的探索數(shù)據(jù)為基礎(chǔ),并通過低成本的人類采集來構(gòu)建數(shù)據(jù)金字塔的中間層,試圖以最高效的方式夯實數(shù)據(jù)地基。
趙行則提出了數(shù)據(jù)采集的三個維度:真實性、多樣性和規(guī)?;?。他強調(diào)必須以真實機器人的素材為起點,且不能局限于實驗室,必須深入真實場景。羅劍嵐同樣堅持真實數(shù)據(jù)路線,他認為,靠遙控操作采集數(shù)據(jù)只是起步,未來必須依靠大量部署在真實環(huán)境中的機器人,在自主交互中產(chǎn)生廣泛數(shù)據(jù),形成自我反饋和提升的閉環(huán)。
王仲遠主張利用互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)作為基座模型的學習來源,這類似于人類兒童通過看視頻認識世界。在此基礎(chǔ)上,再通過真機采集的數(shù)據(jù)進行強化學習和反饋,不斷精進能力。
但亦有真實數(shù)據(jù)之外的探索路徑。
王鶴在討論中提到,全球規(guī)?;\行的人形機器人可能僅在千臺級,甚至更少,如此小的機器人人口,遠不足以支撐一個動作優(yōu)先的基礎(chǔ)模型。
王鶴認為,短期內(nèi)行業(yè)必須依賴模擬環(huán)境與合成數(shù)據(jù),這會比受限于真實機器數(shù)量的方式發(fā)展得更快。但長期來看,只有當機器人數(shù)量進入指數(shù)級增長,數(shù)據(jù)才可能形成正反饋循環(huán),推動模型與能力共同演進。
加速進化創(chuàng)始人、CEO程昊認為,數(shù)據(jù)瓶頸的破解是一個螺旋上升的過程。目前極速進化多使用仿真數(shù)據(jù)以求速度,目標是為了讓機器人具備落地能力,從而在真實場景中收集數(shù)據(jù)。當真實數(shù)據(jù)遇到瓶頸時,再回退到仿真環(huán)境中進行針對性訓練?!皺C器人落地創(chuàng)造價值,價值驅(qū)動規(guī)模,規(guī)模反哺模型。”
在海量數(shù)據(jù)需求之外,王潛認為,自變量什么數(shù)據(jù)都在用,只是側(cè)重點不同?;ヂ?lián)網(wǎng)數(shù)據(jù)用于學習通用常識,仿真數(shù)據(jù)用于導航和探索,而真實的物理接觸數(shù)據(jù)則是核心壁壘。
王潛提到,根本在于所有類型的數(shù)據(jù)都可以被利用,但真正的挑戰(zhàn)在于:處理好任何單一類型的數(shù)據(jù)都相當困難。這背后涉及大量核心的工程問題,也正是團隊日常工作的重點所在,同時這些難題也構(gòu)成了行業(yè)的技術(shù)壁壘。
一個清晰的現(xiàn)實浮現(xiàn)出來:具身智能的未來并非由某一種技術(shù)突破決定,而是取決于架構(gòu)創(chuàng)新、真實世界落地、機器人數(shù)量增長與高質(zhì)量動作數(shù)據(jù)積累是否能同時發(fā)生。具身智能的發(fā)展路徑比語言模型時代更復雜,也更漫長。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP