首頁 | 資訊 | 財經 | 公益 | 彩店 | 奇聞 | 速遞 | 前瞻 | 提點 | 網站相關 | 科技 | 熱點 | 生活 |
      GAN卷土重來:10億參數的GigaGAN效果堪比擴散模型

      發稿時間:2023-04-21 13:43:06 來源: 程序員客棧


      (相關資料圖)

      點藍色字關注“機器學習算法工程師”

      設為星標,干貨直達!

      自從 DALL·E 2 之后,在圖像生成方面擴散模型替代GAN成了主流方向,比如開源的文生圖模型stable diffusion也是基于diffusion架構的。近日, Adobe研究者在論文Scaling up GANs for Text-to-Image Synthesis提出了參數量為10億(1B)的GAN模型:GigaGAN,其在文生圖效果上接近擴散模型效果,而且推理速度更快,生成512x512大小圖像只需要0.13s,生成16M像素圖像只需要 3.66s。同時GigaGAN也支持latent空間的編輯功能,比如latent插值,風格混合,以及向量運算等。

      GigaGAN改進了StyleGAN架構,采用兩階段訓練策略:一個是64x64的圖像生成器和一個512x512的圖像超分2器,其圖像生成器架構如下所示(這里也是采用CLIP text encoder來引入text condition):GigaGAN在 LAION2B-en和 COYO-700M數據集上訓練,其在COCO數據集上的FID達到9.09,超過stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生圖能力,還可以實現可控的合成,比如風格混合,如下圖所示:更多效果圖和技術細節見論文https://arxiv.org/abs/2303.05511和網站https://mingukkang.github.io/GigaGAN/

      標簽:

      責任編輯:mb01

      網站首頁 | 關于我們 | 免責聲明 | 聯系我們

      生活晚報網版權所有

      Copyright @ 1999-2017 www.8x5.com.cn All Rights Reserved豫ICP備20022870號-23

      聯系郵箱:553 138 779@qq.com