Hunyuan Video 是一个拥有 130 亿参数的开源 AI 文本转视频生成器,轻松从文本提示创建高质量视频。
Pippo 是 Meta Reality Labs 推出的图像到 视频生成 模型,能从单张照片生成 1K 分辨率的多视角高清人像视频。
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用 Diffusion Transformer 架构,提升了模型的灵活性和可控性。
Stable Video Diffusion 是 Stability AI 发布的一种开源潜在扩散模型,支持文本生成视频和图像生成视频以及物体从单一视角到多视角的 3D 合成。
Goku 是香港大学与字节跳动合作开发的视频生成模型,支持文本到视频、图像到视频、文本到图像等多种生成任务。基于 Rectified Flow Transformer 架构,通过多模态训练,Goku能够生成自然互动的广告视频,显著降低制作成本。
Runway Gen系列包括 Runway Gen-2 和其后续升级版本 Runway Gen-3,这些模型专注于从文本到视频的转换,展示了在物体运动和场景生成方面的进步。
包括 Pika 1.0 和 Pika 2.0,这些模型在处理活动主体的真实性方面进行了优化,尽管在复杂行为生成上仍面临挑战。
Pippo 是 Meta Reality Labs 推出的图像到 视频生成 模型,能从单张照片生成 1K 分辨率的多视角高清人像视频。