快手VideoTetris：可灵文生视频背后的AI框架

LumaAi2024-06-14 16:18:22556

先做个广告：如需购买Luma帐号或代充值Luma会员，请添加站长客服微信：gptchongzhi

最近几天，快手旗下的快影正在内测一个类似于 Sora 的文生视频项目“可灵”。这个项目一经推出，立即引起了 AI 业界的广泛关注。作为一个 AI 爱好者，我也对该项目产生了浓厚的兴趣，也写了几篇文章来介绍它。为了深入了解“可灵”文生视频技术背后所采用的技术，我进行了为期两天的研究，发现该项目可能采用了 VideoTetris 技术，而这项技术恰好是快手与北京大学联合研发的。今天，我们就来聊聊这个技术的特别之处，以及它如何引领文生视频的未来。

自从有了 AI，我想大家应该跟我一样，经常想用一段提示词就能生成视频。想象一下，你只需一句简单的描述，就能生成一段精彩的视频。比如，“秦朝士兵驾驶木制机甲对战霸王龙。”听起来很科幻。

虽然之前 OpenAI 的 Sora 发布了演示视频，但随后爆出的信息说他们可能用的是摆拍视频，这让大家逐渐感到失望。现在，VideoTetris 让这一切变成了现实。这项技术通过一种叫做“时空组合扩散”的方法，可以把复杂的文字指令转换成逼真的视频画面。简单来说，它能够在时间和空间两个维度上调整视频生成过程中的细节，确保每个场景的转换都流畅自然。

VideoTetris 的总体架构。

VideoTetris与其他顶尖模型在组合提示视频生成中的比较，展示了各模型在复杂场景生成中的表现。

有了这项技术，就意味着无论是多个对象同时出现在同一个场景中，还是随着时间推移场景中的对象发生变化，VideoTetris 都能处理得游刃有余。我们不仅可以生成短小精悍的动画片段，还能制作内容丰富的长视频，让故事更加生动。

长视频生成的关键

目前市面上的文生视频面临的同一个挑战是保持长视频每一帧之间的连贯性。想象一下，如果我们生成的视频在不同帧之间同一个对象突然变了颜色或位置，那是很讨厌的，这种视频基本上也就废了。为了解决这个问题，VideoTetris 引入了一种“参考帧注意机制”。这个机制的作用类似于在每一帧中都能参考之前的画面，确保生成的视频对象的一致性。就像在制作动画时，每一帧都要参考上一帧的内容，这样才能保持整体风格的连贯性。

参考帧注意机制的消融研究，显示了有无该机制的情况下，生成视频在一致性和颜色准确度上的区别。

目前来看，这种机制不仅可以保持视频中对象的颜色和位置的一致性，还能减少生成过程中常见的颜色失真问题。通过这种方式，VideoTetris 能够生成长达数分钟甚至更长时间的视频，而且不会出现令人不爽的画面跳跃或不协调的现象。

从量变到质变

想要生成高质量的视频，不仅需要强大的模型，还需要丰富的训练数据。这点我想大家应该可以不用担心他们的数据不够丰富，毕竟快手在国内是仅次于抖音的视频平台，他们平台拥有大量的短视频内容。相信 VideoTetris 在这一方面会做得非常出色。论文里说，研究团队通过增强视频数据预处理，过滤掉低质量内容，确保每一个用于训练的视频片段都是优质的。

这种数据增强的方法不仅提升了视频生成的质量，还改善了视频的动态效果，使得生成的视频更加流畅自然。看完下面的演示视频你会发现，使用 VideoTetris 生成的视频，运动画面更加连贯，细节处理更加精细。

快影的内测项目“可灵”：VideoTetris 的实际应用

说到这里，很多人可能会好奇，快影内测的文生视频项目“可灵”是真的使用了 VideoTetris 的技术吗？考虑到快手技术团队深度参与了 VideoTetris 的研究，这个推测是很有可能的。“可灵”这个项目，通过业界和参与测试的人放出来的视频来看，似乎在生成复杂多对象场景和长视频方面表现得很出色，目前来看这正是 VideoTetris 的强项。