谷歌Fluid顛覆共識：兩大因素被發現，AI文生圖領域自迴歸模型超越擴散模型

2024-10-24 01:34:02 6

IT之家 10 月 23 日訊息，科技媒體 The Decoder 昨日（10 月 22 日）釋出博文，報道稱谷歌 DeepMind 團隊攜手麻省理工學院（MIT），推出了全新的“Fluid”模型，在規模達到 105 億引數時候，能取得最佳的文生圖效果。

目前在文生圖領域，行業內的一個共識是自迴歸模型（Autoregressive Models）不如擴散模型（Diffusion Models）。

IT之家簡要介紹下這兩種模型：

擴散模型 (Diffusion Models): 這是一種最近非常熱門的內容生成技術，它模擬的是訊號從噪聲中逐漸恢復的過程。擴散模型透過迭代地減少隨機噪聲來生成高質量的影象、文字和其他形式的資料。比如應用於影象生成領域中的 DDPM（離散擴散機率模型）及其變體就有很高的關注度。

自迴歸模型 (Autoregressive Models): 自迴歸模型預測序列中的下一個元素時，依賴於前面的元素。在文字生成領域，像基於 Decoder-only 的 GPT 系列（如 GPT-3、GPT-4）就是典型的自迴歸模型，它們逐詞預測下一個詞，從而生成連貫的文字段落。

谷歌 DeepMind 和 MIT 團隊透過深入研究，發現了使用連續 tokens（非離散 tokens）和採用隨機生成順序（非固定順序）兩個關鍵設計因素，顯著提高了自迴歸模型的效能和可擴充套件性。

團隊表示在離散 tokens 為每個影象區域分配一個來自有限詞彙的程式碼，這會導致資訊丟失，而連續 tokens 可以更精確地影象資訊儲存，減少資訊丟失。這讓模型能夠更好地重建影象，提高視覺質量。

此外大多數自迴歸模型以固定順序生成影象，而 Fluid 採用隨機生成順序，讓模型能夠在每一步預測任意位置的多個畫素，這種方法在理解整體影象結構時表現更為出色。

Fluid 模型結合了連續標記和隨機生成順序後，當其規模擴大到 105 億引數時，Fluid 在重要基準測試中超越了 Stable Diffusion 3 擴散模型和谷歌此前的 Parti 自迴歸模型。

與 Parti 相比，Fluid 顯示出顯著的改進：擁有 200 億引數的 Parti 在 MS-COCO 上達到了 7.23 的 FID 分數，而僅有 3.69 億引數的小型 Fluid 模型卻達到了相同的分數。

本文標籤谷歌 fluid 顛覆共識兩大因素被發現 ai文生圖領域迴歸模型超越擴散

實探小米汽車二期工廠：為趕工期開設早晚雙班，專案或明年6月中旬竣工

« 上一篇 2024-10-24

高通連甩兩顆車芯王炸！智駕座艙全面AI化，理想賓士首批用

2024-10-24 下一篇 »

谷歌Fluid顛覆共識：兩大因素被發現，AI文生圖領域自迴歸模型超越擴散模型

實探小米汽車二期工廠：為趕工期開設早晚雙班，專案或明年6月中旬竣工

高通連甩兩顆車芯王炸！智駕座艙全面AI化，理想賓士首批用

相關文章