800starsPixArtΣ革新4K文本到图像生成的高效扩散变换器模型AI开源

PixArt-Σ:革新4K文本到图像生成的高效扩散变换器模型

2024-02-29 805 stars 37 forks

PixArt-Σ是一个由PixArt-alpha团队开发的GitHub项目,专注于4K分辨率的文本到图像生成技术。该项目通过“弱到强训练”方法,显著提升了图像质量和与文本提示的对齐程度。PixArt-Σ的核心优势在于其训练效率,它在PixArt-α的基础上,通过整合更高质量的数据和高效的令牌压缩技术,实现了从较弱基线到更强模型的演变。

项目特点包括:

高质量训练数据 :PixArt-Σ使用了超过3300万个高分辨率图像的数据集,其中包括约230万个接近4K分辨率的图像。

高效的令牌压缩 :提出了一种新的注意力模块,能够在DiT框架内压缩键和值,显著提高效率并促进超高分辨率图像的生成。

较小的模型尺寸 :尽管生成质量高,但PixArt-Σ的模型参数仅为0.6B,远小于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数)。

4K图像生成能力 :支持创建高分辨率海报和壁纸,有效增强了电影和游戏等行业的高质量视觉内容生产。

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/250.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>