Rodin 是由 Hyper3D 开发的可控大规模生成模型,用于创建高质量的 3D 资产。
Kandinsky 3.0 是指由俄罗斯 AI Forever 研究团队提出的一种基于潜在扩散的大规模文本到图像生成模型,其目的是提高图像生成的质量和真实性。
PanGu-Draw基于华为昇思 MindSpore AI 框架研发,在昇腾 Atlas 系列硬件加持下,文生图模型在数据利用、训练和推理方面的效率得到显著提升。
Imagen 2 是 Google DeepMind 开发的最先进的文本到图像扩散技术。它能够生成高质量、逼真的图像,这些图像与用户的提示紧密对齐且一致。
DeepFloydIF 是 Stability AI 推出的一款强大的文本到图像模型,基于 T5-XXL 语言模型,能精确生成图像并理解文本提示。 模型采用级联像素扩散方法,在 COCO 数据集上表现优越,具有高度写真性和文本集成能力。
SANA 是由 NVIDIA、麻省理工学院和清华大学共同推出的文本到图像生成框架,能高效地生成高达 4096×4096 分辨率的高清晰度图像。
CM3Leon 是一种多模态语言模型,擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型,包括大规模检索增强预训练和多任务监督微调阶段。
Kandinsky 3.0 是指由俄罗斯 AI Forever 研究团队提出的一种基于潜在扩散的大规模文本到图像生成模型,其目的是提高图像生成的质量和真实性。