DeepMind 的 DVD-GAN 是一种基于生成对抗网络(GAN)的 AI 视频生成技术,它在视频建模领域取得了显著的进展。这项技术能够生成逼真的视频内容,其效果在一些情况下已经接近真实视频的质量和连贯性。DVD-GAN 建立在 DeepMind 之前开发的 BigGAN 架构之上,并引入了多项技术来加速训练,包括高效的可分离注意力和判别器的时空分解 。
DVD-GAN 能够扩展到更长和更高分辨率的视频生成,生成的视频样本复杂度显著高于之前的研究 。它使用两个判别器:空间判别器(D_S)和时间判别器(D_T)。空间判别器负责评估单个帧的内容和结构,而时间判别器则提供生成动作的学习信号,这些动作是空间判别器无法评价的 。
在 Kinetics-600 数据集上训练后,DVD-GAN 生成的视频在连续性和语义性上都有很好的体现,尽管还存在一些问题,例如物体和人不符合几何关系,以及有些视频不符合常理 。DVD-GAN 在视频合成任务和视频预测任务上都取得了当前最优的得分 。
DeepMind 的研究者们认为,DVD-GAN 是在不受约束的条件下持续生成逼真视频的重要一步,尽管这一成果还有些许不足,但它无疑是利用 AI 生成高度逼真视频的一次重要尝试 。这项技术的出现将对视频生成领域产生深远的影响,并可能在未来应用于电影制作、游戏开发、虚拟现实等领域 。
然而,DVD-GAN 目前还未公开发布,其价格和具体应用情况尚不明确 。尽管如此,这项技术已经展示了 AI 视频生成的巨大潜力,并为未来的研究和应用提供了新的思路和方法 。
更多关于DVD-GAN资料https://arxiv.org/pdf/1907.06571
发表回复