搞定影象+文字+影片大一統!智源釋出多模態世界模型Emu3:下一個token預測直通AGI

2024-10-23 01:35:22 5

作者 | 智源研究院

OpenAI前首席科學家、聯合創始人Ilya Sutskever曾在多個場合表達觀點:只要能夠非常好的預測下一個token,就能幫助人類達到通用人工智慧(AGI)。

雖然,下一token預測已在大語言模型領域實現了ChatGPT等突破,但是在多模態模型中的適用性仍不明確,多模態任務仍然由擴散模型(如Stable Diffusion)和組合方法(如結合 CLIP視覺編碼器和LLM)所主導。

2024年10月21日,智源研究院正式釋出原生多模態世界模型Emu3。該模型只基於下一個token預測,無需擴散模型或組合方法,即可完成文字、影象、影片三種模態資料的理解和生成。