论文部分内容阅读
2011年,照片鑒证专家法里德(Hany Farid)收到一封失去儿子的父亲发来的邮件。3年前,发件人的儿子因为车子发动不了站在路边,几个陌生人请他搭顺风车,他上车几分钟后被枪杀,原因未明。一个监控摄像头拍下了他走向那些人的车的画面,但画质很差看不清哪些人的脸,没有这些关键细节无法确认嫌疑人。嫌疑车辆的车牌号也分辨不了。父亲能看到指向杀害儿子凶手的证据,只是清晰度不够。
在上世纪90年代后期,法里德率先对数码照片进行鉴证分析,并且担任很多刑事案件和民事案件的专家证人,去解释某个有争议的数码图像或视频到底是真还是假。他现在是达特茅斯计算机科学的教授,在他位于达特茅斯的实验室里,他一遍又一遍地播放着那位父亲发来的视频,看看能做些什么。在电视剧里,侦探们通常会“增强”图片,锐化嫌疑人的脸部像素得到清晰的样貌。但在实际生活里这种操作是不可能的。因为视频在摄像头成像保存过程中已经被压缩了,最终保留下来的信息量很小,而图像的压缩是不可逆的。这个案子悬而未决。
几个月后,法里德想到了一个解决方案。如果能用同一款监控摄像头拍摄大量的车牌,是否可以算出模糊的像素和特定的车牌号码之间的关系?这种关联会很细微,因为图像的模糊还跟光线条件、车牌设计以及其他很多因素都有关系。尽管如此,如果图像库足够大的话,还是可能找出其中关联的。
这种方法原本看起来不切实际,但是随着计算机图像和AI融合的“图像合成”受到关注,进展加快了。在新兴的“合成媒体”世界里,数字图像变为了通过专家系统就能自动大规模生成。
法里德先是让他的研究生在达特茅斯校园拍摄了几百个车牌,根据这些照片建立了一个生成模型,能够合成更多图片。在几周的时间里,他们制造了数千万张仿真的车牌照片,每一张都不一样。接下来,把这些合成照片全部输入模拟的监控摄像头,让图片变得模糊,目的是建立一个把像素和车牌号联系起来的解读系统。
而后他们开始训练神经网络来解读那些模糊的图像。现代神经网络是多层次的,每一个层级都有数百万个变量,在这样一个网络里监控数据流就好比在瀑布里追踪一滴水一样困难。研究人员不确定这个神经网络如何运行,必需通过反复测试来训练。法里德的团队多次完善这个神经网络,最后他们把上面提到的案件视频中一帧静止图像输入了这个网络,在图片上的车牌就像是10个噪音的像素,但是仍然有信号。而神经网络能肯定辨认出车牌最后3位。
去年夏天法里德把车牌最后3位发给了负责该案的侦查人员。此前警方把调查范围缩小到了一部蓝色雪佛兰,而根据神经网络辨认出的车牌后3位锁定了其中一辆车。跟被锁定的那辆车的车主竟然也是另一宗案件的涉案人员,因此快10年都尚未侦破的案子又重启调查了。与此同时,法里德及其团队把研究成果发表在了计算机视觉期刊上。在论文里,他们指出这个系统是对几百个低像素监控摄像头的免费升级。但影像合成也是一把双刃剑,它可以把假图像做得像真的一样。
合成技术是一把双刃剑
在充斥着各种假新闻的媒体环境里,这种新技术带来了各种不良影响。早前一位匿名用户在Redditor上发布了一个软件工具,该软件利用神经网络能将一个人的脸替换成另一个人的,同时能保持表情一致,软件开放给所有人用来合成视频。与这个软件同时发布的,还有几个色情视频,主角看似是各种好莱坞女明星,但实际是伪造的。在华盛顿大学的一个研究团队发表的论文《合成奥巴马》指出,神经网络可以制造出看似真的视频,视频里前总统奥巴马在说着一些话,但那些话实际上是由另一个人说出来的。
伯克利校区北部坐落着世界上最好的图像合成实验室之一,该实验室的负责人是阿列克谢·埃弗罗斯。我在前往伯克利之前给他的一个研究生吉诺萨(Shiry Ginosar)发邮件询问如何制作一个我自己的合成图像。她在邮件里给了我详细指引:为了让我们能够生成你的后脑勺图像,你的轮廓,还有你的手臂上下摆动等等,我们需要你录一段有这些素材的影响。于是我在手机镜头前走来走去,转圈,做各种动作,大概录了10分钟。之后吉诺萨告诉我,大概需要两周时间让神经网络学会合成我的影像。
在读博士帕塔克(Deepak Pathak)说,1999年《黑客帝国》上映的时候,这种想法的雏形就出现了。现在计算机运行速度快了很多,图形处理能够为游戏设计提供很多助力。而且这些软件都是开源的。现在即便是高中生都能从图书馆里找到并运行这些程序代码。家用计算机的升级和另一趋势重合:大量的图片视频被上传到网络。
埃弗罗斯说,在2000年的时候计算机图片数据匮乏,尽管3D建模能够做出逼真的场景,但那些设计出来的城市、室内和山景看起来有点缺乏生气。真实的场景需要大量的数据,关于垃圾、灰尘和芜杂。而收集这些数据的最佳方式就是随机地记录日常生活。
比如你有一张晴天拍摄的风景照,你可能想知道这个景观在雨天看来是什么样的。而关于这个问题,答案不只一个。一个真正的有创造力的网络能够合成多种看似真实的图像,能综合很多的可能性,类似法里德生成车牌系统做的那样,但比那个复杂得多。
斯坦福大学和普林斯顿大学的计算机科学家共同运营了一个叫ImageNet的网站,系统里存有1400万张普通地点和物品的照片,大部分是来自社交和购物网站上发布的随机快照。最初这些照片需要雇人来整理分类,到了2012年,多伦多大学的研究人员建立了一个神经网络能够自动完成分类工作。近年来,YouTube变成了一个非官方的ImageNet视频系统。埃弗罗斯的实验室则摆脱了这些网站的平台偏见——偏爱猫和流行歌星——建立了一个中立的神经网络,囊括了很多人们日常生活的视频,诸如拆快递、翻冰箱、用毛巾擦干、刷牙之类的。这个巨大的包含无趣视频的数据库,把合成现实带到了一个新高度。 埃弗罗斯在电脑上展示了一张从里昂大桥上拍摄的照片,照片上有一大块缺失。他在电脑上点击了一下,那张照片缺失的部分就被合成风景填满了,包括建筑和绿植。他解释说,2007年他设计了一个系统,能通过网站搜索类似的照片进行采样。很多照片是在度假时拍摄上传的,合成风景可能来自另外一个城市,但是河岸风景总有些类似的建筑,合成起来毫无违和感。
合成现实延伸到了社交媒体上,脸书新闻推送强调“跟你相似的人在看什么”,而除了寻找相似点之外,社交媒体更是在创造相似点。假如你浏览了很多某一类图片,神经网络就可以合成那种你会感兴趣的图片。
伯克利实验室的门上写着“小心深网”。刚获得博士学位的理查德·张梳理了合成图像最新的发展。他说,比如你有一张晴天拍摄的风景照,你可能想知道这个景观在雨天看来是什么样的。而关于这个问题,答案不只一个。一个真正的有创造力的网络能够合成多种看似真实的图像,能综合很多的可能性,类似法里德生成车牌系统做的那样,但比那个复杂得多。
2016年,美国国防部高级研究计划局启动了媒体鉴证计划MediFor,重点关注合成媒体对国家安全的威胁。该项目的经理马特·图雷克举例说明了可能的图像操纵:图像里加入别的地方剪切黏贴过来的物体,从场景中删除对象,换脸,音频和视频不一致,伪造在某个时间或地点拍摄的图片。他指出,在未来几年我们可能会看到很多实际未发生过的事情的图像。从不同角度拍摄的图片或影像会以某种方式合成,让他们看起来像是来自不同的拍摄设备。某些国家可能会利用这种合成技术来达到某种军事或政治目的。即便一个资源匮乏的小集团也能做到这一点,甚至个人都可以。
MediFor聚集了来自各大高校、科技公司和政府机构的数十位科研人员,开发基于50多项图像操纵的自动化系统,目的不止能甄别出伪造图像。图雷克说他们希望在找出合成图像之后还能追踪到到具体是谁干的,以及他的动机是什么。
理想状态下这类系统能植入各大社交平台,对合成的内容进行标记。但是问题在于速度。每天都有57.6万小时的视频被上传到YouTube,MediFor系统的运算时间有限。此外也还存在一些悬而未决的问题,比如如何把无害的操纵和恶意的操纵区分开来?广告内容会不会被标记?合成内容到底有多少?
让数码图像更具防伪性
法里德在自己家的客廳播放了一个名为“金雕抓小孩”的视频,视频里一只猛禽在蒙特利尔公园扑向一个幼儿。法里德解释说,专业的软件可以识别金雕的阴影和幼儿的阴影有细微的错位。法里德调出一只灰熊的图片,指出在高放大倍率下,它的口鼻边缘呈现蓝色和红色。当光射到镜头的表面会发生弯曲,弯曲程度和波长相关,因此你可以看到光的散射现象。这些色差在图像的中心最小,在边缘最大。如果一张照片不符合这个规律,就表示是由不同的图像合成的。
有些措施可以让数码图像比模拟图像更具防伪性,数码相机成像过程中保存了大量数据,而且并不均匀, 不可避免产生褶皱,从而导致图像呈现一些像素点更亮或更暗的模式,而这个模式每一台相机都不一样。现代数码相机通常会通过猜测传感器无法捕捉到的光来实现更高的分辨率,这就导致在成像过程中图像有三分之二不是忠实记录而是合成,以某种合乎逻辑的方式创造一个独一无二的模式。如果你对图像进行了后期编辑,这个模式就会受到干扰。
Jacob Huh是实验室的一名研究生,他训练了一个神经网络来发现色差和其他操纵痕迹,该神经网络会生成热图,标出图像中可疑的区域。从理论上讲,如果能识别出伪造的部分,就能设计出逃避甄别的对策。比如说把鉴证神经网络整合进造假神经网络里,训练造假的神经网络躲过鉴证。因此,法里德在国际鉴证科学上发布的论文《后真相时代的数码鉴证》中,呼吁研究人员将最新的科技保密一段时间,他认为当下应该在科学公开和助长敌对势力之间找到一个平衡。
在法里德看来,大量独特的操纵指标使鉴证专家略胜一筹,正如造假者必须费力解决百元美钞上的每一个防伪特征,媒体操纵者也需要克服无数的技术问题,甚至有些是统计学意义上而非肉眼可见的,训练神经网络来做这件事也有很大难度。
但法里德同时也指出,造谣比辟谣在传播上有优势,正如前文提到的金雕抓小孩视频,虽然已经被证实是伪造的,但它在网络上的点击率达到了1300万次。图雷克推测说,当涉及图片和影像时,人们的信任度会降低,不再相信“眼见为实”了。
马里兰大学法学教授西特伦(Danielle Citron)和得克萨斯州大学法学教授切尼斯(Robert Chesney)联合发表了一篇论文,探讨了某些类型合成媒体是否涉嫌违法以及是否需要修法禁止。他们在论文里还进行了一些猜想,比如出现最糟糕的情况是用合成媒体达到构陷或者勒索的目的,那么人们可能需要不断地录制自己,一边在被构陷的时候证明自己的清白。而提供此类记录服务的供应商将拥有巨大的权利,它的数据库对执法机构也很重要。如果让人们在被监视和被合成造谣之间选择,很多人可能宁愿选择被监视。
周五的早上,我在埃弗罗斯的实验室看到了自己的合成影像。吉诺萨打开电脑上一段视频,在屏幕左上方的页面播放的是火星哥布鲁诺·马尔斯(Bruno Mars)的一段视屏,在他下方的页面是模仿他动作的人形轮廓,吉诺萨解释说那是动作探测。屏幕右方则是我的图像,动作则跟火星哥的舞蹈动作一致。吉诺萨按了一下空格键,电脑开始播放火星哥的MV,画面里他在舞蹈,而我的合成图像也跟着他在跳舞,甚至连地面的影子也在一致轰动。研究人员说他们并没有教机器怎么合成图像,这是机器自己学会的。
虽然仔细观察之后,我还是找出了合成影像的一些纰漏,比如衬衫出现多余的扣子,腕表一会儿出现一会儿消失。但这个合成影像还是让我很震惊,画面里我们的发型是如此相似,我们手指打节拍是如此一致。埃弗罗斯说音乐对此也有帮助,让纰漏没有那么显眼。
在Photoshop出现之前,大家都相信图片是真实的,但实际上图片从最开始就不是客观的,你所拍摄的对象、角度都是经过选择的。也许这种对图像真实性的质疑早该出现了。
(来源:《纽约客》)