好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

华盛顿大学研究人员可以将单张照片变成视频

众所周知,视频其实是由很多帧图片构成的,从视频中可以截取很多张图片。那么,是否可以反过来,用一张图片生成视频呢?视频的信息比图片要丰富很多,从图片生成视频必然需要“脑补”很多画面。

让静态的瀑布“动起来”

最近,华盛顿大学和Facebook的科学家团队,就做了这样一件事情。该团队仅仅依据一张瀑布的图片,就生成一段栩栩如生的瀑布视频,原来在图片上静止的水流流动起来,达到了以假乱真的程度。研究人员将于6 月 22 日在计算机视觉和模式识别会议上介绍这种方法

整个过程是怎么实现的呢?

关键是通过建立流体运动模型,预测流体的运动方向。将大量的瀑布视频用于训练AI模型,AI系统通过对比视频中的前后帧,来确定每个像素点的瞬间运动方向,通过多帧图片确定每个像素的运动轨迹。然后,把多个像素点的运动轨迹综合起来,就可以近似模拟出流体的运动情况。通过不断的数据训练,提升模型预测的准确率,就能准确预测流体的运动情况。


最终,AI模型只要看到一张瀑布照片,就能预测出照片中每个像素点的运动轨迹,进而生成照片中水流的流动情况,最终形成一段栩栩如生的瀑布视频。

为了产生连续、无缝循环的视频,该团队使用了一种新颖的视频循环技术,使特征点可以同时向前和向后运动,然后得到融合结果。团队将该技术应用于大量流体运动场景,都得到了比较好的结果,证明了该方法的有效性和鲁棒性。

万物皆可动

从物理上看,瀑布只是液体流动形成的。既然该AI技术的本质是通过预测流体的运动情况,实现将静态图片转化为动态的视频,那么这项技术应该也可以应用于其他液体、气体场景。

事实上,该团队也将该技术应用于很多场景,生成了大量足够以假乱真的视频。

比如将一张静止的水面图片,演变成一段波光粼粼的湖面视频。

华盛顿大学研究人员可以将单张照片变成视频

只要掌握物体的运动轨迹,几乎可以让一切静止的画面动起来。在电影《哈利波特》中,一个有意思的场景,就是在魔法世界中报纸上的人物是可以动的,而不是一张张静止的图片。

将AI技术与AR结合,不仅可以实现《哈利·波特》中的动态照片,甚至可以让人物从照片中“跳出来”,其活动范围不再局限于2D平面,而是走进三维世界,实现立体生动的影像。

华盛顿大学和Facebook的科研团队,就在探索这样的技术。在一个场景中,将需要“唤醒”的人物身上叠加一个可变形的人体模型,估计人物身体各部位的深度,预测皮肤权重,重塑人物纹理,再将人物放置到原来的背景中,就可以将静态的图片打造成有人物运动的动态视频。通过AR设备,还可以将二维平面图片变成3D立体画面。

打开潘多拉魔盒?

技术本身是把双刃剑,一项技术如果利用的好可以给我们带来很多收获,但如果不当应用则会带来很多烦恼。

准确预计事物的运动轨迹,则可以让照片变“活”。但是,如果是错误的预测,则会带来烦恼。尤其是,人们还可以通过修改模型设定,故意歪曲事物的运动轨迹,这就给视频造假大开方便之门。

中国PS术、泰国变形术、韩国整容术、日本化妆术并称亚洲四大邪术。但是,跟视频造假比起来,PS技术就有点小儿科了。

下面让我们来见识下AI视频造假的手段:

合成人们并未说过的话。利用原有的主角发音视频让AI进行学习,然后让系统的神经网络,学会将口型和发声联系在一起,生成CGI唇动,在3D姿态的匹配下,将CGI唇动和视频本身整合在一起。

移花接木。通过面部捕捉技术,进行脸检测和五官识别,对人脸的关键点实时跟踪,让人们在动态视频中对脸进行改造,对视频的内容进行编辑,将视频中的主角变成另外一个人。

无中生有。最近MIT研究人员提出了一种模块化的生成神经网络,用从人类运动视频中提取的图像和姿势进行训练,之后他就能够生成一个新的姿势,而且这个模型在没有经过刻意的训练下,可以生成一段连续的视频。试想一下,别人单凭你的一张照片,就可以大量生成视频,让你在完全不知觉的情况下“做了”很多你不想做的事情,并作为视频证据,这是一件多么恐怖的事情啊。

蜘蛛侠中有一句经典的台词,“能力越大,责任就越大”。当AI技术的能力越来越强大的时候,我们就不得不更多的考虑道德、法律和责任,让AI造福人类的同时尽量避免负面影响。[来源图灵TOPIA]

上一篇:

下一篇:


标签