2025WAIC上,王鶴展示銀河通用的人形機器人。人民網 呂騫攝
在今年的世界人工智能大會(WAIC)上,超150臺人形機器人同臺“出道”。它們正走出實驗室,走上春晚舞臺成為“網紅”,走進工廠商超成為真正干活的“勞動力”。這不僅是“數字大腦”向“物理智能”的躍遷,也意味著中國制造在全球新一輪產業競賽中的起跑。
本期播客邀請了北京大學助理教授、銀河通用機器人創始人及CTO、智源學者王鶴,他帶領團隊用兩年多的時間,把“端到端VLA大模型”第一次搬上了真實產線、真實貨架——不靠軌跡預編程,而是靠眼睛、大腦和手的實時配合,就能在擁擠的零售貨架前完成抓取、避障、交付。下一個十年,機器人會如何走進現實?答案正在上海這座展館里萌芽。
對話AI摘編:
主持人:觀眾最關心的是,這次WAIC銀河通用到底帶來了什么“能上手”的新東西?
王鶴:一句話——全球首個真正跑在端到端VLA大模型上的智慧零售機器人:觀眾在iPad上下單,機器人自己走過去、用“手眼腦”實時閉環,把指定商品取下來,再遞到你手里。整個過程不依賴任何預置軌跡,完全靠視覺和語言指令實時生成動作。
主持人:這和藥房自動取藥的機械臂有何區別?
王鶴:關鍵在“非結構化”。傳統藥房的自動化滑道類似巨型自動售貨機,需要中心大藥房、統一滑道,空間、資金門檻都很高。我們把人形機器人做成“即插即用”的勞動力,夜間值守、白天補貨,成本大幅下降,而且不需要改造原有店面結構。
主持人:您把人形機器人演進分成“三個時代”,能再通俗解釋一次嗎?
王鶴:1967-2017是“雛形時代”,ASIMO、Atlas全靠提前寫軌跡,拍視頻可以,落地沒戲;
2022起進入“運動時代”,用強化學習在仿真里訓、再遷移到真機,春晚跳舞、半馬跑步全是這代,但基本是“蒙眼”運動;
2024之后進入“手眼腦時代”,VLA(Vision-Language-Action)大模型讓機器人隨時用眼睛看、用大腦理解、用手干活,這才有了今天零售、工廠、藥房的多場景落地。
主持人:說到泛化干活,亞馬遜倉儲里機器人數量已經快趕上人類員工了,這跟我們今天談的人形機器人有什么本質區別?
王鶴:亞馬遜那套是AGV+結構化改造,本質仍是上一代自動化思路:集中大倉、地面貼二維碼、貨物統一尺寸。中國一二線城市寸土寸金,小藥店、小倉庫根本做不起這樣的改造。而人形機器人直接走進人類環境,用視覺理解千奇百怪的物體,用“手”完成抓取、搬運,這才是下一代方案。
主持人:很多聽眾來自制造業,他們會問:打螺絲這種“簡單”動作,機器人為啥還搞不定?
王鶴:關鍵看結構化程度。如果螺絲孔位固定、電批垂直往下,傳統自動化早就解決了;難的是手持小產品、雙手協作、孔位每次不同——這叫非結構化操作。我們從最簡單的“抓—放”做起,逐步提升精度,未來再去攻克更復雜的裝配。
主持人:您剛提到“逐步”,正好有組數據:2023年中國研發總投入3.3萬億元,77%來自企業;今年上半年,人形機器人行業融資已超60億元。怎么看資本這么密集地涌進來?
王鶴:AI正從象牙塔走向產業化。文本、圖文大模型已經證明:能落地的模型都靠產業界重投入。具身智能還在早期,銀河通用成立兩年就拿下了最大單筆融資,原因只有一個:我們在真實場景里跑通了商業化閉環——藥店、工廠、零售店。
主持人:普通人什么時候能在家里見到這些“鋼鐵伙伴”?
王鶴:先B后C。我們已和宣武醫院、華西二院合作,讓機器人給老人量血壓、做認知測試,再逐步過渡到夜間查房。工商業先跑1萬臺,硬件、安全、成本磨到“無感”后,才會真正走進千家萬戶。樂觀估計,10年內會出現家用普及拐點。
主持人:最后一個輕松問題,您手機里用得最多的AI應用是什么?
王鶴:Deepseek和ChatGPT。不過需注意的是,前沿內容模型會“想當然”,但5-10年前的技術點基本都了如指掌。