Pokémon Go開發地理空間大模型，AR眼鏡的高精地圖？

2024-11-23 01:39:54 1

兩天前，知名 AR 廠商 Rokid 釋出了新一代 AR 眼鏡——Rokid Glasses，透過攝像頭、多模態大模型以及（玻璃衍射）光波導等技術，在一定程度上讓 AR 眼鏡實現了對真實世界的感知與理解，以及對使用者的協同與展現。

然而就當下來說，AI 或者說視覺大模型對真實世界的理解還遠遠不夠，更多還是對二維照片的物體識別，很難像人類一樣具備空間理解能力，也根本無法準確描述物體與物體、物體與人之間的空間關係。

而這個問題的答案，或許還是要從大模型技術中尋找解法。

稍早前，《Pokémon Go》開發商 Niantic 對外宣佈正在開發「地理空間大模型」（Large Geospatial Model，簡稱 LGM），將利用大規模機器學習來理解真實世界的空間，藉助 LGM 模型實現「空間智慧」。

LGM 模型訓練，圖/ Niantic

用全球玩家資料打造的「地理空間大模型」

正如 Niantic 在新聞稿中提到的，即使是當今最先進的 AI 模型也難以視覺化和推斷場景中的缺失部分，或從新的角度想象一個地方。而在根本上，Niantic 認為藉助大語言模型訓練的方式，我們已經能讓 AI 實現比擬甚至超越人類空間理解能力的「空間智慧」。

野心背後，Niantic 的另一份底氣在於，作為《Pokémon Go》《Ingress》開發商，Niantic 早就手握全球無數玩家貢獻的海量真實影像和地圖資料，並在過去五年中開發視覺定位系統（VPS），在手機上實現根據單個影象在 3D 地圖中確定使用者的方位。

事實上，2021 年 Niantic 還發布過一項名為 ManyDepth 的技術，能夠透過單個手機攝像頭直接建立 3D 地圖，利用機器學習將沒有深度資訊的二維影象轉化為帶有深度資訊的三維影象，並且不依賴 LiDAR 或者其他深度感測器。

圖/ Niantic

而作為 Niantic 視覺定位系統的一部分，LGM 模型目前已經訓練了超過 5000 萬個神經網路，擁有超過 150 萬億個引數，能夠在超過 100 萬個位置執行。Niantic 首席科學家 Victor Prisacariu 還表示：

「利用我們的使用者在玩 Ingress 和 Pokémon Go 等遊戲時上傳的資料，我們打造了世界的高保真 3D 地圖，其中包括 3D 幾何形狀（或事物的形狀）和語義理解。」

最終，LGM 模型的目標是在全球範圍內實現對地理空間的共同理解，即便是那些沒有被玩家掃描過的地方。

但 LGM 模型意義不僅是讓裝置「看懂」真實環境，提供精準的空間定位。更重要的是，只有讓計算機能夠更準確、高效地感知和理解物理空間，才能更深刻地改變人與機器之間基於物理世界的互動方式，進而推動 AR 眼鏡以及智慧機器人真正走進我們的生活。

左邊是 Rokid Glasses，右邊是特斯拉擎天柱，圖/ Rokid、特斯拉

不過具體到 AR 眼鏡上，LGM 模型的推出真的會如人們期待的那樣，加速 AR 眼鏡的普及嗎？甚至成為 AR 行業的「一腳地板油」？這不是一個容易解答的問題。

地理空間大模型，AR版的「高精地圖」？

在 AR 眼鏡中，準確的空間定位一直是重中之重，這一點相信早已不言而喻。問題在於，現行的 SLAM（同步定位與建圖）空間定位技術就像一位即興作畫的畫家：透過攝像頭等感測器，實時描繪周圍環境的地圖並確定自身的位置。

但要用這種「即看即建」的方式實現準確的空間定位，不僅依賴感測器支援，往往還需要較高的效能與續航開銷，對於內部空間「寸土寸金」的 AR 眼鏡來說，始終是不小的壓力。AR 廠商不是沒想過新的解決方案，比如 Rokid AR Studio 上就實現了基於單目攝像頭的空間定位和手勢識別，也只是降低了硬體門檻和成本。