在斯坦福大學東亞圖書館的狹長過道里,一臺搭載機械臂的移動機器人正沿著書架穩步滑行。它頂端的攝像頭每0.3米就完成一次垂直掃描,激光雷達實時校正位置,確保不會錯過任何一本褪色的古籍或被遮擋的現代書籍。這臺名為Scanford的機器人不是簡單的圖書盤點工具,兩周內,它掃描2103個書架,省下18.7小時人工勞動的同時,更用收集到的真實數據,讓視覺語言模型(VLM)的多語言書籍識別率從32.4%飆升至71.8%,英語OCR準確率近乎翻倍。

這項研究是斯坦福大學與豐田研究所聯合提出的“機器人驅動數據飛輪”框架的實戰驗證。目前該論文已發表在arXiv。
1 大模型的“真實世界困境”:實驗室滿分,圖書館不及格
如今的VLM模型在處理高清、規整的互聯網圖片時游刃有余,但走進東亞圖書館這樣的場景,立刻會暴露短板。這里的書籍以中日韓三國語言為主,部分書籍因年代久遠標簽磨損、紙張泛黃,還有的被相鄰書籍遮擋大半,書架光照忽明忽暗,甚至會遇到僅3層的特殊矮書架打亂識別節奏,這些“不完美”的細節,在互聯網預訓練語料中幾乎難覓蹤跡。

此前,5名圖書管理員完成一次完整盤點需要9個月,而當時表現尚可的VLM模型,面對這些復雜場景的識別準確率不足35%。這種“實驗室性能拉滿,真實場景拉胯”的現象并非個例:超市里褶皺的商品包裝、醫院里手寫的處方單、倉庫中堆疊的貨物箱,這些互聯網爬蟲無法觸及的“野外數據”,正是大模型落地的“最后一公里”障礙。

斯坦福團隊的核心觀點認為,與只能在虛擬世界爬取數據的爬蟲不同,機器人是能自主行動的具身智能體,它能深入圖書館、超市等物理空間,收集那些富含細節的真實數據——而這些數據,恰恰是大模型最稀缺的“營養”。
2 數據飛輪:讓機器人從“用模型”變“養模型”
傳統機器人只是大模型的“使用者”,靠預訓練模型完成導航、識別任務;而數據飛輪框架徹底顛覆了這種關系,讓機器人成為大模型的“培育者”,形成“部署-收集-優化-再部署”的閉環,就像一個能自我進化的生態系統。
這個飛輪的運轉邏輯清晰且無需人工干預,每一步都為下一次進化積蓄力量。首先是模型初始化,團隊選用具備基礎多語言能力的Qwen2.5-VL 7B作為起點,它就像一個有基本認知的“學生”,但在圖書館場景下經驗不足。隨后,搭載該模型的Scanford機器人被投放到東亞圖書館,一邊執行盤點任務,一邊通過Intel RealSense D435相機收集書架圖像,同時用模型初步預測書籍標題、索書號,形成原始數據。
最關鍵的一步是數據自動篩選,這徹底擺脫了對人工標注的依賴。團隊利用美國國會圖書館的館藏目錄作為“標準答案”,通過字符串相似度匹配驗證預測結果,再結合書籍左右順序進行校驗,自動剔除錯誤樣本,保留高質量的圖像-標簽對。最后,用這些篩選后的數據集微調初始模型,得到性能更強的新版本,重新部署到機器人上。
這個閉環的精妙之處在于“正向循環”:模型性能提升后,機器人收集數據的質量和效率更高,而更高質量的數據又能進一步優化模型。在實際部署中,僅1.5小時收集的1352張圖像,就實現了大部分性能增益,后續數據更多是錦上添花,這也證明了真實場景數據的高價值密度。
3 Scanford實戰:一臺組裝機器人的圖書館攻堅
支撐整個飛輪運轉的Scanford機器人,并非定制的“高精尖設備”,而是由成熟部件組裝而成:Franka FR3機械臂負責調整拍攝角度,TidyBot++移動底座提供移動能力,Unitree L2激光雷達解決導航定位問題——這種“平民化”配置,恰恰證明了該框架的可復用性。

在圖書館的兩周部署中,Scanford要攻克三大難題。面對過道狹窄、視覺環境單一導致的導航漂移,它通過激光雷達識別書架形成的垂直點云簇,擬合平面后校正自身位置,確保沿書架精準移動;針對多語言識別難題,它借助檢索增強生成(RAG)技術,將圖書館館藏目錄作為上下文提供給模型,大幅縮小候選范圍;遇到磨損、遮擋的書籍,就通過多角度拍攝和自動篩選,保留清晰樣本剔除無效數據。

微調過程同樣高效。團隊在單臺NVIDIA H200 GPU上,用AdamW優化器、2e-7學習率對模型進行5個epoch的訓練,有效批次大小僅16,無需龐大算力支撐。這種輕量化的優化方式,讓飛輪能夠快速轉動,每輪部署后都能及時更新模型,持續提升性能。
4 硬核成果:識別率翻倍,還能“舉一反三”
兩周的部署結束后,數據飛輪交出了亮眼的成績單。在圖書館書籍識別這一核心任務上,Qwen2.5-VL 7B的準確率從32.4%飆升至71.8%,絕對提升39.4個百分點,遠超未經過微調的Gemini模型(43.7%)。更令人驚喜的是,模型還實現了“舉一反三”,在領域相鄰的多語言OCR任務上表現同樣出色。

團隊專門測試了包含遮擋、低分辨率等情況的“困難案例”:英語OCR準確率從24.8%提升至46.6%,中文OCR從30.8%提升至38.0%。

要知道,這些測試樣本都是模型此前難以處理的“硬骨頭”,而Gemini因中文語料不足,中文OCR準確率僅3.4%,形成鮮明對比。

在實用價值上,Scanford的表現同樣經得起檢驗。10天部署中(每天4小時),它完成了2103個書架的掃描,等效節省18.7小時人工工作量。整個過程僅需26次人工干預,日均2.6次,每次不足5分鐘,主要用于處理特殊矮書架這類意外情況——這種低人力成本的特性,讓該框架具備了大規模推廣的基礎。
5 不止圖書館:數據飛輪的千行百業潛力
Scanford在圖書館的成功,只是數據飛輪框架的一個起點。這一框架的核心價值,在于提供了一種“低成本、可復用、可持續”的大模型落地范式,它不依賴昂貴算力,也不需要等待模型架構突破,而是通過“邊用邊學”讓大模型在具體場景中自然進化。
這種范式可以輕松遷移到多個領域。在超市,機器人能收集褶皺包裝、模糊價簽的數據,優化零售場景的視覺識別模型;在醫院,它可捕捉手寫處方、反光儀器標識,提升醫療AI的實用性;在倉儲物流,它能記錄不同狀態的貨物包裝和堆放場景,讓物流機器人的識別能力持續升級。正如智元機器人在實踐中總結的,“優質本體產生高質量數據,高質量數據支撐算法突破”,這種飛輪邏輯已成為具身智能落地的核心路徑。
當然,這項研究仍有提升空間。目前的Scanford需針對特定任務進行工程適配,模型在極端復雜場景下尚未達到100%準確率。未來,團隊計劃將框架擴展到大型語言模型(LLMs)和視覺-語言-動作模型(VLAs),進一步優化數據篩選策略。
6 結語:機器人,大模型的“野外訓練師”
這篇論文的顛覆性,不在于提出了全新算法,而在于重新定義了機器人與大模型的關系。過去,我們習慣讓機器人學習大模型的知識;現在,斯坦福團隊證明,機器人可以反過來“教”大模型認識真實世界。
當大模型的參數規模逐漸逼近天花板,算力競賽的邊際效益遞減,真實世界的數據已成為下一個核心競爭力。而機器人,正是獲取這些數據的最佳“野外訓練師”。未來,每一臺在真實場景中工作的機器人,都可能成為一個移動的“模型優化站”,讓AI在與物理世界的交互中,持續成長。
論文地址:https://arxiv.org/pdf/2511.19647
項目地址:https://scanford-robot.github.io/
來源:具身智能大講堂






資訊頻道