稳定的视频扩散通过AI将任何图像变成动画
Stability.ai在本月早些时候发布的一份新闻稿中宣布,Stability.ai的新人工智能(AI)模型可以使任何静态图像变成动画。这是Stability.ai创建的最新AI模型,Stability.ai是一家成立于2019年的开源人工智能公司。新模型称为稳定视频扩散(StableVideoDiffusion),基于Stability.ai的稳定扩散图像模型。StableVideoDiffusion的完整代码可在Stability.ai的Github存储库中找到,用户现在可以在研究预览中测试图像到视频模型。
稳定视频扩散在根据上传的图像进行调节后会生成动画。基本上,这意味着人工智能模型使用静态图像中的内容来制作视频动画。Stability.ai训练模型根据静止图像创建25帧,组合形成短视频动画。不过,用户也可以创建14帧视频。动画可以以高达576×1024的分辨率生成,但这要求上传的图像具有相同或更大的尺寸。
该公司认为,其稳定视频扩散模型比竞争的图像到视频人工智能模型更受用户欢迎。这是基于与稳定视频扩散一起发布的一篇研究论文。然而,值得注意的是,这不是一项经过同行评审的研究,因此不能被认为是完全公正的。在用户调查中,StableVideoDiffusion与Runway的GEN-2模型和PikaLabs的模型进行了比较。
不过,该公司确实列出了稳定视频扩散模型的一些限制。其一,由静止图像创建的视频只能持续4秒左右。虽然这可能适用于循环内容,但对于任何类型的原创动画来说都不是很好。除此之外,Stability.ai表示该模型有时无法创建动画,而是渲染静态图像。此外,AI图像动画期间生成的运动可能缓慢或不自然。
此外,与许多人工智能模型一样,这种稳定视频扩散模型在处理面部和文本时遇到了困难。当翻译成视频时,图像中的任何文本都可能变得难以辨认,并且人们的面部可能会变形。该模型目前仅用于研究目的,但任何想要尝试它的人都可以从该公司的GitHub存储库开始。不过,您需要有一些下载和运行代码的经验。
这一最新版本延续了人工智能的快速发展步伐。就在昨天,PikaLabs发布了一款名为Pika1.0的文本到视频人工智能生成器。随着研究的继续,我们可能会继续看到视频和图像生成器变得更加先进。