Runway Gen系列包括 Runway Gen-2 和其后续升级版本 Runway Gen-3,这些模型专注于从文本到视频的转换,展示了在物体运动和场景生成方面的进步。
Sora 由 OpenAI 于 2024 年 2 月推出,Sora 模型因其生成逼真视频的能力而受到关注,能够根据简短的文字指令生成长达 60 秒的高清视频。
Sa2VA 是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是 SAM2 和 LLaVA 结合而成,能实现对图像和视频的密集、细粒度理解。
Show-1 是一种高效的文本到视频生成模型,它结合了像素级和潜变量级的扩散模型,既能生成与文本高度相关的视频,也能以较低的计算资源要求生成高质量的视频。
FastHunyuan 是一种可以提高 HunyuanVideo 模型推理速度的扩散模型,支持多种视频生成任务。
魔搭 MotionAgent 是由阿里巴巴达摩院旗下魔搭社区(ModelScope)推出的开源一站式视频生成工具,MotionAgent 集成了大语言模型、文本生成图片模型、视频生成模型和音乐生成模型。
Pippo 是 Meta Reality Labs 推出的图像到 视频生成 模型,能从单张照片生成 1K 分辨率的多视角高清人像视频。
Sora 由 OpenAI 于 2024 年 2 月推出,Sora 模型因其生成逼真视频的能力而受到关注,能够根据简短的文字指令生成长达 60 秒的高清视频。