2024-11-08 01:35:12 2
2022年12月13日,是一個值得被機器人行業記住的日子。
這一天,Google Research對外開源了RT-1模型。
與兩個月前釋出的ChatGPT相似的是,RT-1同樣是一個基於transformer架構的通用大模型;
與ChatGPT不同的是,RT-1是面向機器人這一垂直領域的通用大模型。
作為一個通用機器人大模型,RT-1可以以97%的準確率讓機械臂在廚房中執行700多項常見任務,並擁有了一定的泛化性。
RT-1出現之時足夠驚豔,它甚至實現了OpenAI想做卻沒做成的具身智慧。
而在RT-1背後,最關鍵的是Google Research一個16人團隊,耗時17個月,花費上千萬美金,用13臺機器人收集的13萬條真實機器人執行資料組成的訓練資料集。
它是RT-1在廚房場景實現97%任務執行準確率的關鍵“教材”。
這之後,谷歌又相繼在2023年7月和2023年10月釋出了RT-2和RT-X。
谷歌RT系列相繼面世,引起了全球機器人團隊的高度關注,大家都開始拆解研究谷歌RT系列成果,思考大模型究竟能為機器人帶來怎樣的泛化能力。
也是在這時,深度參與了RT系列模型研發的谷歌機器人科學家Karol Hausman從谷歌拉出一支團隊,聲稱要為全球機器人造一個通用大腦。
Hausman通用大腦的構想,既是RT系列的延續,也是一次逃離谷歌的冒險。
01 一代“產品”,兩輪融資
Hausman為從谷歌“拉出”的這支團隊,起了一個很接地氣的名字——Physical Intelligence,直譯過來是「物理智慧」。
當然,你也可以稱它為具身智慧,不過,他們更願意將自己簡稱為PI,而他們的公司LOGO,也是直接用的數學中那個用來表示圓周率的π。
如今,PI對外公佈了第一階段研究成果——π0。
π0不是一款機器人,而是PI團隊花費八個月時間造出的一個通用機器人基礎模型,PI團隊希望,這個模型可以讓人們像使用ChatGPT這樣的chatbot一樣,便捷地使用機器人。
PI團隊這裡所說的機器人是任意品牌、任意形態的機器人,可以讓這些機器人執行通用任務,也可以透過微調讓這些機器人在專業場景執行專業任務。
就像ChatGPT不挑電腦品牌,甚至也可以在手機等更多終端裝置上應用一樣。
不過,PI團隊在對外發布的論文和影片中,使用的機器人依然是基於移動平臺的雙機械臂。
由於這一形態最適合機器人“練手”,適合訓練機器人手眼腦協調執行任務的能力,也一直是機器人,尤其是人形機器人的最簡配置。
PI團隊套用莫拉維克悖論解釋稱:
“讓人工智慧贏得一場國際象棋比賽或發現一種新藥來說很簡單,但讓它執行疊衣服或清理桌面這樣對人類來說再簡單不過的任務,卻很困難。”
為了構建能夠執行類人任務的人工智慧系統,在π0研發的這八個月裡,PI團隊最主要的工作就是採集資料,並透過大量資料來對這一模型進行高強度的訓練。
據官方透露,π0的訓練資料主要來源於目前行業中的開源資料集,以及他們自己透過8臺機器人執行多樣化任務積累下來的資料。
具體而言,這一模型訓練過程可以分為以下四步:
第一,從OpenAI的GPT-4V、谷歌的Gemini這樣的預訓練視覺語言模型(VLM)中繼承語義知識和視覺理解能力,PI團隊基於此獲得的30億引數的VLM進行再調整,以適應機器人的實時靈活控制;
第二,基於PI團隊自研的流匹配(flow matching)演算法,為VLM模型提供連續動作輸出,以使其可以實現50次/s的頻率輸出運動控制指令;
第三,基於開源的機器人資料集和網際網路資料訓練的VLM,PI團隊形成了自己的視覺-語言-動作流匹配模型,並透過自採集的高質量機器人資料對這一模型進行後續訓練;
第四,針對複雜、靈巧任務,對模型進行微調。
基於這四步,經過八個月的研發,PI團隊搞出了第一版機器人通用大腦,π0。
相較於年初在學術界鬧得沸沸揚揚的斯坦福團隊遙操作的Mobile ALOHA而言,π0真正實現了完全自主執行任務。
PI團隊就單一指令簡單任務、複合指令複雜任務,以及疊襯衫、雜物裝袋、從烤麵包機中拿出吐司幾個任務,對π0、π0-small(未使用VLM預訓練的470M引數模型)與OpenVLA、Octo進行了對比,得出的結論是,π0實現了全面碾壓。
能夠在八個月內迅速造出這樣的模型,得益於Hausman從谷歌拉出了一支強悍的團隊。
這支擁有27人的創業團隊,既有像Brian Ichter、Chelsea Finn這樣來自Google Brain團隊的科學家,也有像UC Berkley助理教授Sergey Levine這樣同樣參與了RT系列專案的外部科研團隊的科學家。
可以說,Hausman是再次集結了RT專案中的科學家,做了一個延續RT系列使命的創業專案。
正因如此,PI團隊在美國大受追捧,截止目前已經先後拿到了7000萬美元、4億美元兩輪融資,包括紅杉資本、Khosla Ventures、Thrive Capital、Lux Capital等知名投資機構都擠進了這一專案。
就連OpenAI、亞馬遜創始人貝索斯,也為PI開出了支票。
據《紐約時報》報道稱,這個成立不到一年的團隊,如今估值已經飆升到了24億美元。
02 硬體天團後,軟體熱潮來
大模型讓全球看到了一條通向通用人工智慧的路,這不僅讓全球科技巨頭為之騷動,也讓一大批創業團隊湧入了這條賽道。
優質資源堆積的大模型賽道,很快就在全球範圍內經歷了一次百團大戰。
然而,眾所周知,大模型的進化,就是一支又一支科學家團隊不斷燒錢的過程,燒錢程度超乎想象。
馬斯克曾為還未面世的GPT-5的訓練做過一個估算,他認為,OpenAI訓練GPT-5大概需要3-5萬張H100,僅僅是買卡,就需要6-10億美元。
這還不包括伺服器成本、電力成本,以及頂級科學家團隊的薪資成本。
另一個來自於市場研究機構CB Insights的統計資料顯示,2023年,全球生成式AI新創企業一共融到了204億美元,即便是國內,人工智慧領域融資就有232筆,融資總額達到了20億美元。
面對這樣一個燒錢的大傢伙,只進不出是肯定不行的,畢竟投資人的錢也不是白拿的,他們更在乎實際的經濟價值和應用效果。
於是,2024年,我們看到全球都在呼喚大模型落地。
其中,AI硬體被寄予厚望,具身智慧概念風起。
AI PC、AI手機,尤其是AI機器人不斷湧向,就連不關注商業化的波士頓動力創始人Marc Raibert也主導成立了波士頓動力人工智慧研究院。
而波士頓動力轉向電驅後的Atlas,也在近日放出了在工業場景全自動執行搬運任務的Demo影片——告訴Atlas搬運位置,它就可以將零件自動搬運到相應位置。
這自然有賴於波士頓動力團隊在人工智慧領域的研究成果。
大模型帶來的人工智慧技術突破,的確讓一大批機器人團隊看到了推動人形機器人產業化的可能。
據IT桔子統計資料顯示,2023年1月至今,國內共有29家人形機器人公司成立。
這其中就不乏銀河通用、星動紀元、UniX AI這樣以人工智慧演算法見長的團隊。
人形機器人要進入產業,目前一個關鍵技術瓶頸是任務執行的泛化性,這就對人工智慧演算法提出了很高的要求。
如果說哪個團隊對這類模型有著最高的聲望,那一定是谷歌RT系列背後的研究團隊。
Hausman正是想要破除壁障,造一個通用的機器人大腦。
他現在的方法是,透過預訓練模型用來教會這個大腦有關物理世界的規律和知識,透過微調讓這個大腦能夠很好地執行特定任務。
藉助這一模式,π0已經學會了自動完成疊衣服、收拾桌子、疊紙箱子在內的11項日常任務。
不過,經由這一模式研發的π0,實則仍然算不上機器人通用大腦,要想造出機器人通用大腦,整個模型的微調過程就需要由機器人自動完成。
在PI官方部落格中,Hausman的團隊也坦然承認,“通用機器人策略依然處於起步階段,我們還有很長的路要走。”
至於此次釋出的π0,PI團隊自己給出的評價是:
強大的通用策略,繼承了預訓練大模型的語義理解能力,整合了來自不同任務和機器人平臺的資料,實現了前所未有的靈活性。
而為了打造機器人通用大腦,PI團隊認為,他們在模型研究上需要聚焦三個方向:
長任務鏈推理和規劃、自主最佳化和自進化、穩定性和安全性。
作為脫胎於谷歌RT系列專案的明星團隊,又是隻做通用軟體的中立團隊,據悉,PI團隊已經和多家機器人公司和實驗室展開合作:
一方面,幫助合作伙伴的機器人團隊改進他們機器人的遙操作和自主執行任務的能力;
另一方面,引入合作伙伴的資料,將這些資料整合到PI團隊的預訓練模型中,提升模型的泛化性和相容性。
作為被黃仁勳、馬斯克、奧特曼等科技巨頭掌舵者看重的未來產業,也是具身智慧最重要的形態,人形機器人由大腦、小腦、肢體三大核心部分組成。
而如果說誰最有可能造出機器人通用大腦,脫胎於谷歌RT系列專案的PI團隊或是其中一個。
2024-11-16 1 人在看
2024-11-16 0 人在看
2024-11-16 0 人在看
2024-11-15 1 人在看
2024-11-15 1 人在看
2024-11-15 0 人在看
2024-11-15 0 人在看
2024-11-14 1 人在看