Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。
Pippo 是 Meta Reality Labs 推出的图像到 视频生成 模型,能从单张照片生成 1K 分辨率的多视角高清人像视频。
Stable Video Diffusion 是 Stability AI 发布的一种开源潜在扩散模型,支持文本生成视频和图像生成视频以及物体从单一视角到多视角的 3D 合成。
魔搭 MotionAgent 是由阿里巴巴达摩院旗下魔搭社区(ModelScope)推出的开源一站式视频生成工具,MotionAgent 集成了大语言模型、文本生成图片模型、视频生成模型和音乐生成模型。
Hunyuan Video 是一个拥有 130 亿参数的开源 AI 文本转视频生成器,轻松从文本提示创建高质量视频。
FastHunyuan 是一种可以提高 HunyuanVideo 模型推理速度的扩散模型,支持多种视频生成任务。
Luma Ray2 是 Luma AI 推出的最新视频生成模型,Ray2 基于 Luma 新的多模态架构训练后展现出先进功能,该架构的计算能力是 Ray1 的 10 倍。
Open-Sora 是一个致力于高效生成高质量视频的开源项目。该项目由 Colossal-AI 团队开发,旨在通过开源的方式,简化视频生成的复杂性,并为所有人提供一个创新、创造和包容的平台。
Show-1 是一种高效的文本到视频生成模型,它结合了像素级和潜变量级的扩散模型,既能生成与文本高度相关的视频,也能以较低的计算资源要求生成高质量的视频。
VideoCrafter2 是一个由腾讯 AI 实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出能够生成高质量视频的模型。
Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。