一、主流开源视频生成框架
HunyuanVideo(腾讯混元)
显存需求:原生支持最低8GB显存(时间切片优化后),标准部署需12GB显存
特点:130亿参数,支持文本/图像生成720P视频,物理模拟能力强,ComfyUI原生兼容
创新:采用“双流到单流”Transformer架构,压缩效率提升10倍,支持动态细节控制
Open-Sora 2.0(北京大学 & 潞晨科技)
显存需求:6GB显存(本地RTX 3060可部署)
特点:11B参数,支持120秒长视频生成,4K分辨率,VBench指标逼近Sora(差距仅0.69%)
创新:基于Flow Matching训练框架,支持多桶训练机制,成本降低5-10倍
FramePack(斯坦福大学 & GitHub)
显存需求:仅需6GB显存生成60秒1080P视频
特点:固定时域上下文优化,解决长视频“漂移”问题,支持RTX 3050/40系列显卡
创新:多阶段压缩技术,计算成本接近图像扩散模型,实时逐帧预览
二、垂直领域创新项目
Step-Video-T2V(阶跃星辰)
显存需求:基础版需78GB显存,Turbo蒸馏版支持32GB显存
特点:300亿参数生成204帧视频,支持双语输入,DPO优化减少伪影
应用:影视分镜、广告创意,支持多卡分布式推理
SkyReels-V1(昆仑万维)
显存需求:单卡4090需24GB,量化版支持12GB显存
特点:好莱坞级数据训练,支持33种表情+400种动作组合,影视级站位控制
创新:开源表情动作算法SkyReels-A1,支持视频驱动动态迁移
StreamingT2V(PicsArt AI)
显存需求:16GB显存生成2分钟视频,优化后支持8GB
特点:自回归生成长视频,引入条件注意力模块(CAM)保证时序一致性
创新:随机混合技术提升分辨率至720P,支持无缝过渡
三、前沿技术探索
MagicTime(北京大学)
显存需求:8GB显存模拟物理过程(如植物生长)
特点:时间变形生成技术,科研可视化首选,支持复杂动态过程
Follow-Your-Click(腾讯 & 清华大学)
显存需求:8GB显存实现局部动画
特点:点击图像区域生成动态效果(如水流、头发飘动),支持运动速度控制
创新:首帧屏蔽策略提升生成质量,开源代码及交互式Demo
四、显存优化对比
项目 | 显存需求 | 生成能力 | 对标商业产品 |
---|---|---|---|
FramePack | 6GB | 60秒1080P | 可灵AI(云端依赖) |
Open-Sora 2.0 | 6GB | 120秒4K | 即梦AI |
HunyuanVideo(优化版) | 8GB | 15秒720P+音频同步 | Runway Gen-3 |
SkyReels-V1(量化版) | 12GB | 短剧级表情动作控制 | 可灵AI |
五、开发者资源
硬件适配:优先选择NVIDIA RTX 30/40系列,FramePack和Open-Sora兼容消费级显卡
部署建议:
低显存场景:FramePack(6GB)、HunyuanVideo时间切片版(8GB)
专业级需求:Step-Video-T2V Turbo(32GB)、SkyReels-V1(24GB)
社区支持:Hugging Face提供HunyuanVideo模型,魔搭社区有Open-Sora完整训练代码