風靡全球的擴增實境遊戲《寶可夢 Go (Pokémon Go)》遊戲開發商 Niantic 旗下 AI 公司 Niantic Spatial,正利用玩家多年來拍攝的數十億張城市影像,建立一套能理解真實世界的「視覺定位系統」與 AI 世界模型。該技術可在 GPS 訊號不穩定的城市環境中精準定位,並已與配送機器人公司合作測試,為未來機器人與 AI 在現實世界中的導航能力開啟新方向。
Pokémon Go 玩家影像成 AI 訓練資料,城市照片建構世界模型
《Pokémon Go》自 2016 年推出後迅速成為全球熱門遊戲,玩家透過手機鏡頭在現實世界中捕捉寶可夢。這款由 Niantic 開發的知名擴增實境 (AR) 遊戲即使推出多年,至今每年仍維持超過 1 億名活躍玩家。
然而,玩家在遊戲過程中需不斷將手機鏡頭對準城市建築與地標,這在無意間為該公司累積了大量影像資料。
Niantic 旗下人工智慧公司 Niantic Spatial 近日表示,公司已蒐集並整理約 300 億張來自全球城市環境的照片,這些影像都帶有精確的地理位置與拍攝資訊,例如手機方向、移動速度與拍攝角度。這些資料如今正被用於訓練 AI,以建立能理解現實空間的「世界模型 (World Model)」。
(深度解析:LLM 存在缺陷?為何楊立昆的 AMI 押注 World Model 路線)
視覺定位系統 vs GPS:AI 可透過建築影像判斷精確位置
NewsForce 報導,Niantic Spatial 最新開發的技術是一套視覺定位系統 (Visual Positioning System, VPS)。這套 AI 模型能透過分析建築或地標的照片,判斷使用者所在的位置,精準度甚至可達公分等級。
公司表示,目前資料庫已涵蓋全球超過 100 萬個地標位置。在每一個地點,都可能累積數千張不同時間、不同角度與不同天氣條件下拍攝的影像。AI 透過比對這些影像特徵,可以推算出裝置所在的位置與觀看方向,推估出相對精準的定位結果。
Niantic Spatial 技術長 Brian McClendon 指出,這與傳統 GPS 定位不同,GPS 依賴衛星訊號,而 VPS 則是透過「看見什麼」來判斷位置:
在高樓密集的都市環境中,GPS 訊號經常出現偏差,可能導致定位誤差達數十公尺、甚至是方向錯誤。
這種誤差對一般使用者影響不大,但對需要精確導航的機器人來說,卻可能造成重大問題。因此,結合影像辨識的定位技術,也正是機器人公司關注的解決方案。
從抓寶到送餐:配送機器人開始導入 Niantic 技術
Niantic Spatial 目前已與配送機器人公司 Coco Robotics 展開合作測試。Coco 在美國與歐洲多個城市部署約 1,000 台配送機器人,主要用於餐飲與雜貨的配送服務。這些機器人體型約如小型行李箱,可攜帶最多 8 個大型披薩或 4 袋雜貨。
該公司表示,目前機器人雖已完成超過 50 萬趟配送,但有時仍會因 GPS 定位失準,導致機器人難以準確停在餐廳門口或客戶門前:
透過 Niantic 的視覺定位模型,機器人可利用自身搭載的四個攝影機分析周圍環境,以更精準地判斷位置與行進方向,提升配送可靠度。
機器人時代來臨:Niantic 想打造「活地圖」
Niantic Spatial 執行長 John Hanke 指出,最初開發視覺定位技術的目的是支援 AR 眼鏡與擴增實境應用,但隨著機器人產業快速發展,公司開始將技術轉向機器人導航。
他表示,公司正在建立一套稱為「活地圖 (Living Map)」的系統,這是一種高度細緻且持續更新的數位世界模型,能隨著現實世界的變化不斷更新。
未來,配送機器人、智慧設備甚至 AR 裝置都可能成為地圖資料來源,持續回傳環境資訊,使數位世界逐漸接近真實世界的動態樣貌。
AI 需要理解現實世界:「World Model」成科技新焦點
近年 AI 研究領域開始重視「世界模型 (World Model)」概念。儘管大型語言模型 (LLM) 在文字與知識處理方面表現出色,但在理解物理空間與現實環境方面仍存在明顯限制。
透過結合地圖、影像與環境資訊,世界模型試圖讓 AI 能夠理解物體、空間關係與環境變化。包括 Google DeepMind 等公司,也正在開發能生成虛擬世界的模型,用於訓練 AI 代理。
Niantic Spatial 則採取不同策略,透過大量真實世界影像資料,逐步重建現實世界的數位模型。隨著資料持續累積,該系統可能成為未來機器人與 AI 理解現實世界的重要基礎設施。
這篇文章 寶可夢玩家替公司訓練 300 億張照片打造「AI 世界模型」,助攻外送機器人產業 最早出現於 鏈新聞 ABMedia。