智源推出全能視覺生成模型OmniGen：支援文生圖、影象編輯等

2024-10-30 01:32:57 9

IT之家 10 月 29 日訊息，北京智源人工智慧研究院（BAAI）推出了新的擴散模型架構 OmniGen，這是一種用於統一影象生成的多模態模型。

▲ 文字生成影象，編輯生成影象的部分元素，根據生成影象的人體姿態生成重繪影象，從另一影象中提取所需物件與新影象融合

官方表示，OmniGen 具有以下特點：

統一性：OmniGen 天然地支援各種影象生成任務，例如文生圖、影象編輯、主題驅動生成和視覺條件生成等。此外，OmniGen 可以處理經典的計算機視覺任務，將其轉換為影象生成任務。

簡單性：OmniGen 的架構高度簡化。此外，與現有模型相比，它更加使用者友好，可以透過指令完成複雜的任務，而不需要冗長的處理步驟和額外的模組 (如 ControlNet 或 IP-Adapter)，從而大大簡化了工作流程。

知識遷移：受益於統一格式的學習，OmniGen 有效地跨不同任務遷移知識，應對未見過的任務和領域，並展示新穎的功能。我們還探討了模型的推理能力和思維鏈機制的在影象生成領域的潛在應用。

▲ 指代表達生成

IT之家附相關連結如下：

論文：https://arxiv.org/pdf/2409.11340

程式碼：https://github.com/VectorSpaceLab/OmniGen

演示：https://huggingface.co/spaces/Shitao/OmniGen

本文標籤智源推出全能視覺生成模型 omnigen 支援文生圖影象編輯

極氪汽車：浩瀚智駕2.0無圖城市NZP將於10月31日開啟全國公測

« 上一篇 2024-10-30

小米SU7 Ultra原型車紐北賽道首跑一鏡到底影片公佈

2024-10-30 下一篇 »

智源推出全能視覺生成模型OmniGen：支援文生圖、影象編輯等

極氪汽車：浩瀚智駕2.0無圖城市NZP將於10月31日開啟全國公測

小米SU7 Ultra原型車紐北賽道首跑一鏡到底影片公佈

相關文章

蘋果：Apple Intelligence明年4月支援中文

華碩推出NUC 14 Essential迷你主機，部分搭載英特爾Alder Lake-N Refresh處理器

訊息稱華為MatePad 11.5英寸2024款平板與前代產品售價一致，支援30W充電

訊息稱三星下代400+層V-NAND 2026年推出，0a DRAM採用VCT結構

神秘模型“小熊貓”一夜刷屏：排名超Flux、Midjourney

小米澎湃OS 2引入AI“電影感”鎖屏時鐘，支援大模型寫作、翻譯、備忘錄音