GigaGAN 是一个强大的图像生成系统,它使用了大规模的数据集和先进的深度学习技术,被设计用于提高文本到图像合成的效率和质量。
DreamBooth 是一种用于个性化文生图的模型技术。它允许用户通过上传少量特定对象的照片并赋予这些对象唯一的标识符来进行自定义图像生成。
Kandinsky 3.0 是指由俄罗斯 AI Forever 研究团队提出的一种基于潜在扩散的大规模文本到图像生成模型,其目的是提高图像生成的质量和真实性。
PixArt-α 是由华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等多家学术和工业界机构共同研发的一种高效文本到图像生成模型。
CM3Leon 是一种多模态语言模型,擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型,包括大规模检索增强预训练和多任务监督微调阶段。
Imagen 2 是 Google DeepMind 开发的最先进的文本到图像扩散技术。它能够生成高质量、逼真的图像,这些图像与用户的提示紧密对齐且一致。
PanGu-Draw基于华为昇思 MindSpore AI 框架研发,在昇腾 Atlas 系列硬件加持下,文生图模型在数据利用、训练和推理方面的效率得到显著提升。
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。
Infinity 是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity 通过无限词汇量的标记器、分类器和位自纠正机制,显著提升图像生成的细节和质量。
SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达 4096×4096 分辨率的高清晰度图像。
GigaGAN 是一个强大的图像生成系统,它使用了大规模的数据集和先进的深度学习技术,被设计用于提高文本到图像合成的效率和质量。