SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达 4096×4096 分辨率的高清晰度图像。
SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达 4096×4096 分辨率的高清晰度图像。Sana 采用线性扩散变换器和深度压缩自编码器技术,显著提高了图像生成的速度和质量,同时降低了计算资源的需求。该框架支持在普通笔记本 GPU 上运行,适用于低成本的内容创作。
PixArt-α 是由华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等多家学术和工业界机构共同研发的一种高效文本到图像生成模型。
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。
Real Dream 是一款基于 Pony 开发的真人大模型,融合先进的人工智能和深度学习技术,旨在打造高度逼真的虚拟人物。
Stable Diffusion 于 2022 年发布,是开启当前 AI 艺术革命的模型。Stable Diffusion是一个开源项目(https://github.com/Stability-AI/stablediffusion),得益于庞大的开发人员和艺术家社区,它不断发展。Stable Diffusion 有许多版本,每个版本的优势略有不同。
GigaGAN 是一个强大的图像生成系统,它使用了大规模的数据集和先进的深度学习技术,被设计用于提高文本到图像合成的效率和质量。
Kandinsky 3.0 是指由俄罗斯 AI Forever 研究团队提出的一种基于潜在扩散的大规模文本到图像生成模型,其目的是提高图像生成的质量和真实性。
PixArt-α 是由华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等多家学术和工业界机构共同研发的一种高效文本到图像生成模型。