APPMARK 是快速找到最新 AI（Artificial Intelligence, 人工智能）应用的一站式导航平台，我们按照模型平台、提示词、写作、办公、对话聊天、图像、视频、设计、语音、编程、开发平台、法律助手、学习资源等进行分类导航和索引，并保持更新，最短时间内找到需要的AI应用。

视觉与图像生成

CM3Leon

CM3Leon 是一种多模态语言模型，擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型，包括大规模检索增强预训练和多任务监督微调阶段。

链接直达手机查看

CM3Leon 是 Meta AI 发布的一种多模态语言模型，擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型，包括大规模检索增强预训练和多任务监督微调阶段。

相关导航

Infinity

Infinity 是字节跳动推出的基于位级自回归建模的视觉生成模型，能根据语言指令生成高分辨率、逼真的图像。Infinity 通过无限词汇量的标记器、分类器和位自纠正机制，显著提升图像生成的细节和质量。

ControlNet

ControlNet 不是独立的图像生成模型。相反，它是一个功能强大的附加组件，可与其他模型（如 Stable Diffusion）配合使用。它让你可以对生成的图像的结构和组成进行令人难以置信的控制。

通义万相

通义万相是阿里云推出的视觉生成大模型，涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级，采用 Diffusion Transformer 架构，提升了模型的灵活性和可控性。

Flux.1

Flux.1 是最新和最强大的 AI 图像生成模型之一，它使用一种称为潜在扩散模型的高级架构。Flux.1 最受欢迎的版本包括 Flux.1 Pro、Flux.1 Dev 和 Flux.1 Schnell，作为 Midjourney 和 DALLE3 模型竞品，尤其是在比较图像质量和细节时体验更好。

Janus Pro 7B

Janus Pro 7B 是 DeepSeek 的开创性 AI 模型，将文本和图像能力结合在一个强大的系统中。基于 DeepSeek-LLM-7b-base，它具有先进的视觉编码，支持高达 384x384 的高分辨率图像处理。