IDEA研究院與騰訊、美團、比亞迪達成具身智慧合作

2024-11-24 01:33:19 1

對具身智慧而言，開發環境感知和理解是核心能力。視覺感知作為機器和物理世界互動的基礎，自Transformer架構誕生後，視覺模型與之結合、走上一條“從小變大，從N變1”之路，帶來了全場景視覺感知能力的提升，為技術落地拓寬空間。

11月22日，2024 IDEA大會在深舉辦，IDEA研究院現場釋出了最新的DINO-X通用視覺大模型，它具備物體級別理解能力，無需使用者提示，即可實現對開放世界（Open-world）目標檢測；同時還推出行業平臺架構，透過大模型基座結合通用識別技術結合，實現模型不需重新訓練就可邊用邊學，以支援多種應用需求。

以具身智慧為代表新一輪落地浪潮中，技術路徑更強調泛化性，追求現實場景適配。會上，IDEA研究院宣佈達成了三大合作：與騰訊，在深圳福田區、河套深港科技創新合作區落地建設福田實驗室，聚焦人居環境具身智慧技術；與美團，探索無人機視覺智慧技術；與比亞迪，拓展工業化機器人智慧應用。

IDEA研究院創院理事長、美國國家工程院外籍院士沈向洋

此前，機器人已進入工廠製造、汽車生產車間、物流倉儲碼頭等場景，可在半結構化領域中完成基礎性工作，但仍缺乏對真實場景的認知能力，應用空間侷限；比如住宅區域地面車輛的物流配送，需要克服複雜的地面環境。

IDEA研究院計算機視覺與機器人研究中心負責人張磊就指出，“機器人有不同的形態，有雙臂機器人、移動機器人，如果移動機器人分室內、室外，室外更像是無人駕駛，需要面對結構化、半結構化的道路環境，高速公路更結構化，進到城市再到小巷，面對的問題更復雜。”

而AI大模型的到來，大幅度提升了機器人認知和決策能力。騰訊Robotics X實驗室智慧體中心負責人韓磊表示，“語言作為人類知識或是思維的高度抽象，符號化的語言可進行長期且慢速的高維思考。而機器人是站在第一人稱視角看待這個世界的Agent，所以首要的是從視覺理解這個世界。”

《從視覺到行動：具身智慧的挑戰和機遇》圓桌

當機器人進行運動時，一個紙盒子的摺疊、向某一方向的行進，往往難以用簡單的語言進行步驟描述，而有了多模態加入後，融合物理世界認知的具身智慧可以有效增強機器人對世界的理解角度。

在落地方面，美團副總裁兼無人機業務部負責人毛一年認為，機器人首要的應用場景，應該以人類的高風險任務作為切入點，如上山巡檢、深海檢測、油田鑽井、高樓清潔等，“隨著全身控制、行動控制、手、視觸協同，從小場景做進去、用起來，使用者不會說它好，也不會罵它，不會一腳把它清出去。我們希望看到它不砸鍋，這件事很重要。”

IDEA大會上，IDEA研究院創院理事長、美國國家工程院外籍院士沈向洋指出，在技術大爆發時期開展創新，對技術的深度理解尤為重要。而“深圳是一座用迭代軟體的速度迭代硬體的城市。”

除上述提及的福田實驗室外，IDEA與前海深港合作區共建IDEA前海創新院，與深圳龍崗區合作建設IDEA低空經濟分院，與橫琴粵澳深度合作區共建IDEA-橫琴數字技術及人工智慧測評中心。初創生態方面，IDEA也孵化有識淵科技、AI玩伴機器人愛小伴、GPU加速電影工業渲染器Smaray慧光追等生態企業。