【全球报资讯】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型-华西金属网

当前位置：聚焦 > 详情

【全球报资讯】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型

2023-04-20 18:07:45 来源：程序员客栈

【资料图】

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

自从 DALL·E 2 之后，在图像生成方面扩散模型替代GAN成了主流方向，比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日， Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿（1B）的GAN模型：GigaGAN，其在文生图效果上接近扩散模型效果，而且推理速度更快，生成512x512大小图像只需要0.13s，生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能，比如latent插值，风格混合，以及向量运算等。

GigaGAN

改进了StyleGAN架构，采用两阶段训练策略：一个是64x64的图像生成器和一个512x512的图像超分2器，其图像生成器架构如下所示（这里也是采用CLIP text encoder来引入text condition）：

GigaGAN

在 LAION2B-en和 COYO-700M数据集上训练，其在COCO数据集上的FID达到9.09，超过stable diffusion 1.5，推理速度比stable diffusion快20倍多（2.9s vs 0.13s）：

GigaGAN

除了文生图能力，还可以实现可控的合成，比如风格混合，如下图所示：

更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/

关键词：

最新资讯

【全球报资讯】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型: 点蓝色字关注“机器学习算法工程师”设为星标，干货直达！自从DALL·E2之后，在图像生成方面扩散模型替代GA
2023-04-20

大国汽车| 引领智能化下半场！腾势汽车携N7重磅亮相上海车展闪耀申城: 4月18日，2023第二十届上海国际汽车工业展览会在国家会展中心（上海）正式拉开帷幕，腾势汽车以“新势界共
2023-04-20

铜

叶嘉莹等三位学者获第六届世界中国学贡献奖

铝

铝价何时止跌？从成本端的角度来分析

造福人类的“幸福草”（开卷知新）