AI时代来临,还能相信眼见为实吗?

来源 :南都周刊 | 被引量 : 0次 | 上传用户:markhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  2011年,照片鑒证专家法里德(Hany Farid)收到一封失去儿子的父亲发来的邮件。3年前,发件人的儿子因为车子发动不了站在路边,几个陌生人请他搭顺风车,他上车几分钟后被枪杀,原因未明。一个监控摄像头拍下了他走向那些人的车的画面,但画质很差看不清哪些人的脸,没有这些关键细节无法确认嫌疑人。嫌疑车辆的车牌号也分辨不了。父亲能看到指向杀害儿子凶手的证据,只是清晰度不够。
  在上世纪90年代后期,法里德率先对数码照片进行鉴证分析,并且担任很多刑事案件和民事案件的专家证人,去解释某个有争议的数码图像或视频到底是真还是假。他现在是达特茅斯计算机科学的教授,在他位于达特茅斯的实验室里,他一遍又一遍地播放着那位父亲发来的视频,看看能做些什么。在电视剧里,侦探们通常会“增强”图片,锐化嫌疑人的脸部像素得到清晰的样貌。但在实际生活里这种操作是不可能的。因为视频在摄像头成像保存过程中已经被压缩了,最终保留下来的信息量很小,而图像的压缩是不可逆的。这个案子悬而未决。
  几个月后,法里德想到了一个解决方案。如果能用同一款监控摄像头拍摄大量的车牌,是否可以算出模糊的像素和特定的车牌号码之间的关系?这种关联会很细微,因为图像的模糊还跟光线条件、车牌设计以及其他很多因素都有关系。尽管如此,如果图像库足够大的话,还是可能找出其中关联的。
  这种方法原本看起来不切实际,但是随着计算机图像和AI融合的“图像合成”受到关注,进展加快了。在新兴的“合成媒体”世界里,数字图像变为了通过专家系统就能自动大规模生成。
  法里德先是让他的研究生在达特茅斯校园拍摄了几百个车牌,根据这些照片建立了一个生成模型,能够合成更多图片。在几周的时间里,他们制造了数千万张仿真的车牌照片,每一张都不一样。接下来,把这些合成照片全部输入模拟的监控摄像头,让图片变得模糊,目的是建立一个把像素和车牌号联系起来的解读系统。
  而后他们开始训练神经网络来解读那些模糊的图像。现代神经网络是多层次的,每一个层级都有数百万个变量,在这样一个网络里监控数据流就好比在瀑布里追踪一滴水一样困难。研究人员不确定这个神经网络如何运行,必需通过反复测试来训练。法里德的团队多次完善这个神经网络,最后他们把上面提到的案件视频中一帧静止图像输入了这个网络,在图片上的车牌就像是10个噪音的像素,但是仍然有信号。而神经网络能肯定辨认出车牌最后3位。
  去年夏天法里德把车牌最后3位发给了负责该案的侦查人员。此前警方把调查范围缩小到了一部蓝色雪佛兰,而根据神经网络辨认出的车牌后3位锁定了其中一辆车。跟被锁定的那辆车的车主竟然也是另一宗案件的涉案人员,因此快10年都尚未侦破的案子又重启调查了。与此同时,法里德及其团队把研究成果发表在了计算机视觉期刊上。在论文里,他们指出这个系统是对几百个低像素监控摄像头的免费升级。但影像合成也是一把双刃剑,它可以把假图像做得像真的一样。

合成技术是一把双刃剑


  在充斥着各种假新闻的媒体环境里,这种新技术带来了各种不良影响。早前一位匿名用户在Redditor上发布了一个软件工具,该软件利用神经网络能将一个人的脸替换成另一个人的,同时能保持表情一致,软件开放给所有人用来合成视频。与这个软件同时发布的,还有几个色情视频,主角看似是各种好莱坞女明星,但实际是伪造的。在华盛顿大学的一个研究团队发表的论文《合成奥巴马》指出,神经网络可以制造出看似真的视频,视频里前总统奥巴马在说着一些话,但那些话实际上是由另一个人说出来的。
  伯克利校区北部坐落着世界上最好的图像合成实验室之一,该实验室的负责人是阿列克谢·埃弗罗斯。我在前往伯克利之前给他的一个研究生吉诺萨(Shiry Ginosar)发邮件询问如何制作一个我自己的合成图像。她在邮件里给了我详细指引:为了让我们能够生成你的后脑勺图像,你的轮廓,还有你的手臂上下摆动等等,我们需要你录一段有这些素材的影响。于是我在手机镜头前走来走去,转圈,做各种动作,大概录了10分钟。之后吉诺萨告诉我,大概需要两周时间让神经网络学会合成我的影像。
  在读博士帕塔克(Deepak Pathak)说,1999年《黑客帝国》上映的时候,这种想法的雏形就出现了。现在计算机运行速度快了很多,图形处理能够为游戏设计提供很多助力。而且这些软件都是开源的。现在即便是高中生都能从图书馆里找到并运行这些程序代码。家用计算机的升级和另一趋势重合:大量的图片视频被上传到网络。
  埃弗罗斯说,在2000年的时候计算机图片数据匮乏,尽管3D建模能够做出逼真的场景,但那些设计出来的城市、室内和山景看起来有点缺乏生气。真实的场景需要大量的数据,关于垃圾、灰尘和芜杂。而收集这些数据的最佳方式就是随机地记录日常生活。

  比如你有一张晴天拍摄的风景照,你可能想知道这个景观在雨天看来是什么样的。而关于这个问题,答案不只一个。一个真正的有创造力的网络能够合成多种看似真实的图像,能综合很多的可能性,类似法里德生成车牌系统做的那样,但比那个复杂得多。

  斯坦福大学和普林斯顿大学的计算机科学家共同运营了一个叫ImageNet的网站,系统里存有1400万张普通地点和物品的照片,大部分是来自社交和购物网站上发布的随机快照。最初这些照片需要雇人来整理分类,到了2012年,多伦多大学的研究人员建立了一个神经网络能够自动完成分类工作。近年来,YouTube变成了一个非官方的ImageNet视频系统。埃弗罗斯的实验室则摆脱了这些网站的平台偏见——偏爱猫和流行歌星——建立了一个中立的神经网络,囊括了很多人们日常生活的视频,诸如拆快递、翻冰箱、用毛巾擦干、刷牙之类的。这个巨大的包含无趣视频的数据库,把合成现实带到了一个新高度。   埃弗罗斯在电脑上展示了一张从里昂大桥上拍摄的照片,照片上有一大块缺失。他在电脑上点击了一下,那张照片缺失的部分就被合成风景填满了,包括建筑和绿植。他解释说,2007年他设计了一个系统,能通过网站搜索类似的照片进行采样。很多照片是在度假时拍摄上传的,合成风景可能来自另外一个城市,但是河岸风景总有些类似的建筑,合成起来毫无违和感。
  合成现实延伸到了社交媒体上,脸书新闻推送强调“跟你相似的人在看什么”,而除了寻找相似点之外,社交媒体更是在创造相似点。假如你浏览了很多某一类图片,神经网络就可以合成那种你会感兴趣的图片。
  伯克利实验室的门上写着“小心深网”。刚获得博士学位的理查德·张梳理了合成图像最新的发展。他说,比如你有一张晴天拍摄的风景照,你可能想知道这个景观在雨天看来是什么样的。而关于这个问题,答案不只一个。一个真正的有创造力的网络能够合成多种看似真实的图像,能综合很多的可能性,类似法里德生成车牌系统做的那样,但比那个复杂得多。
  2016年,美国国防部高级研究计划局启动了媒体鉴证计划MediFor,重点关注合成媒体对国家安全的威胁。该项目的经理马特·图雷克举例说明了可能的图像操纵:图像里加入别的地方剪切黏贴过来的物体,从场景中删除对象,换脸,音频和视频不一致,伪造在某个时间或地点拍摄的图片。他指出,在未来几年我们可能会看到很多实际未发生过的事情的图像。从不同角度拍摄的图片或影像会以某种方式合成,让他们看起来像是来自不同的拍摄设备。某些国家可能会利用这种合成技术来达到某种军事或政治目的。即便一个资源匮乏的小集团也能做到这一点,甚至个人都可以。
  MediFor聚集了来自各大高校、科技公司和政府机构的数十位科研人员,开发基于50多项图像操纵的自动化系统,目的不止能甄别出伪造图像。图雷克说他们希望在找出合成图像之后还能追踪到到具体是谁干的,以及他的动机是什么。
  理想状态下这类系统能植入各大社交平台,对合成的内容进行标记。但是问题在于速度。每天都有57.6万小时的视频被上传到YouTube,MediFor系统的运算时间有限。此外也还存在一些悬而未决的问题,比如如何把无害的操纵和恶意的操纵区分开来?广告内容会不会被标记?合成内容到底有多少?

让数码图像更具防伪性


  法里德在自己家的客廳播放了一个名为“金雕抓小孩”的视频,视频里一只猛禽在蒙特利尔公园扑向一个幼儿。法里德解释说,专业的软件可以识别金雕的阴影和幼儿的阴影有细微的错位。法里德调出一只灰熊的图片,指出在高放大倍率下,它的口鼻边缘呈现蓝色和红色。当光射到镜头的表面会发生弯曲,弯曲程度和波长相关,因此你可以看到光的散射现象。这些色差在图像的中心最小,在边缘最大。如果一张照片不符合这个规律,就表示是由不同的图像合成的。
  有些措施可以让数码图像比模拟图像更具防伪性,数码相机成像过程中保存了大量数据,而且并不均匀, 不可避免产生褶皱,从而导致图像呈现一些像素点更亮或更暗的模式,而这个模式每一台相机都不一样。现代数码相机通常会通过猜测传感器无法捕捉到的光来实现更高的分辨率,这就导致在成像过程中图像有三分之二不是忠实记录而是合成,以某种合乎逻辑的方式创造一个独一无二的模式。如果你对图像进行了后期编辑,这个模式就会受到干扰。
  Jacob Huh是实验室的一名研究生,他训练了一个神经网络来发现色差和其他操纵痕迹,该神经网络会生成热图,标出图像中可疑的区域。从理论上讲,如果能识别出伪造的部分,就能设计出逃避甄别的对策。比如说把鉴证神经网络整合进造假神经网络里,训练造假的神经网络躲过鉴证。因此,法里德在国际鉴证科学上发布的论文《后真相时代的数码鉴证》中,呼吁研究人员将最新的科技保密一段时间,他认为当下应该在科学公开和助长敌对势力之间找到一个平衡。
  在法里德看来,大量独特的操纵指标使鉴证专家略胜一筹,正如造假者必须费力解决百元美钞上的每一个防伪特征,媒体操纵者也需要克服无数的技术问题,甚至有些是统计学意义上而非肉眼可见的,训练神经网络来做这件事也有很大难度。
  但法里德同时也指出,造谣比辟谣在传播上有优势,正如前文提到的金雕抓小孩视频,虽然已经被证实是伪造的,但它在网络上的点击率达到了1300万次。图雷克推测说,当涉及图片和影像时,人们的信任度会降低,不再相信“眼见为实”了。
  马里兰大学法学教授西特伦(Danielle Citron)和得克萨斯州大学法学教授切尼斯(Robert Chesney)联合发表了一篇论文,探讨了某些类型合成媒体是否涉嫌违法以及是否需要修法禁止。他们在论文里还进行了一些猜想,比如出现最糟糕的情况是用合成媒体达到构陷或者勒索的目的,那么人们可能需要不断地录制自己,一边在被构陷的时候证明自己的清白。而提供此类记录服务的供应商将拥有巨大的权利,它的数据库对执法机构也很重要。如果让人们在被监视和被合成造谣之间选择,很多人可能宁愿选择被监视。
  周五的早上,我在埃弗罗斯的实验室看到了自己的合成影像。吉诺萨打开电脑上一段视频,在屏幕左上方的页面播放的是火星哥布鲁诺·马尔斯(Bruno Mars)的一段视屏,在他下方的页面是模仿他动作的人形轮廓,吉诺萨解释说那是动作探测。屏幕右方则是我的图像,动作则跟火星哥的舞蹈动作一致。吉诺萨按了一下空格键,电脑开始播放火星哥的MV,画面里他在舞蹈,而我的合成图像也跟着他在跳舞,甚至连地面的影子也在一致轰动。研究人员说他们并没有教机器怎么合成图像,这是机器自己学会的。
  虽然仔细观察之后,我还是找出了合成影像的一些纰漏,比如衬衫出现多余的扣子,腕表一会儿出现一会儿消失。但这个合成影像还是让我很震惊,画面里我们的发型是如此相似,我们手指打节拍是如此一致。埃弗罗斯说音乐对此也有帮助,让纰漏没有那么显眼。
  在Photoshop出现之前,大家都相信图片是真实的,但实际上图片从最开始就不是客观的,你所拍摄的对象、角度都是经过选择的。也许这种对图像真实性的质疑早该出现了。
  (来源:《纽约客》)
其他文献
在鬼节即将到来的前夕,今年暑假最受瞩目的超自然惊悚强片、改编自恐怖小说大师史蒂芬·金的阴凉新片《1408》(又名《幻影凶间》)在美国隆重登场。本片刚上映便获得许多知名影评一致的赞赏,《Reel Views》还封此片为“2007年最恐怖的一部电影”!史蒂芬·金还亲自在自己的官网上推荐,他表示:“看完《1408》之后,我相信很多人会不敢关灯睡觉了!”  另外,骇人的《1408》电影预告也获得了美国第八
RX 590 GME显卡规格解析  在评测RX 590 GME显卡的第一时间,我们最想知道的是这款显卡的GPU到底采用的是何种生产工艺和架构。于是在驱动安装完成之后,我们打开了GPU-Z,而结果有些出乎我们的意料。首先,GPU-Z的侦测结果显示,RX 590 GME的核心采用的是14nm生产工艺,而非RX 590所采用的12nm生产工艺。此外在核心代号一览,GPU-Z显示RX 590 GME的核心
1997年7月的清晨,安吉尔·柳原像往常一样在怀基基海滩附近游泳,突然间一阵刺痛从胸口袭来。“那一次远远超过我之前经历过的所有疼痛,那一刻我觉得世界末日来了。”柳原数着呼吸,强忍着剧痛游上岸,晕了过去。在床上躺了四天后,这位夏威夷大学的生物化学教授决定用自己的专业来研究让她痛到世界末日的“真凶”,一种箱形水母。“有思想”的水母  现有的50多种箱形水母属于立方水母纲,外形像箱子。箱形水母是古老物种
李方  好多年了,我学会一个词:压制专业三段。  对,说的是演员张震。这段话我至少在几十篇文章里见过:为了演《吴清源》,围棋下到“压制专业三段”;演《一代宗师》,拿下八极拳冠军,演潜水员,考下PADI潜水执照……其实,我挺希望他下次演足球运动员的。  不下围棋的人恐怕不知道“压制专业三段”是个什么概念。这么说吧,目前世界上除了层出不穷的“狗”(go,围棋AI),能压制专业三段的棋手可能不超过100
16岁了还来抱怨自己和父亲的关系,你们一定会觉得我很幼稚吧。可最近,我真的有种不得不说的冲动。  我的爸爸供我吃穿,满足我日常生活的基本要求,也不随便打骂我,从这些角度讲,他对我够好了。但爸爸总是想控制我的一切,只要沿着他给我安排好的一切走,他就会对我笑。如果我违抗,那他就只会对我阴着脸。  这几天爸爸甩给我一大堆资料,跟我说他决定要送我出国读大学,让我研究一下这些资料做好准备工作。我傻了,那么大
以人脑之精密,何以如此认真看待幽默?    派对上,母虫们坐在长沙发椅上。某一公虫调情式地微笑,起劲地跟其中一只母虫聊天。另两条公虫在附近斜睨着这一对,公虫甲说:“老王,你瞧瞧。小丽歪躺在长沙发椅上,搞得小张饿狗似地猛灌迷汤——可是,他搞错边儿啦,竟然向着她尾巴说话呢。”  以上是《远程》(The Far Side)杂志里的漫画文字说明。约翰·欧曼博士读到这里,不禁微微一笑。他是加州理工学院神经学
2020年7月25日,北京朝阳北路,便利蜂连锁超市。  “便利店的长期价值,在于用算法来优化和覆盖营运中的一切”。在近期参与高瓴资本张磊的一次关于长期价值的直播对话中,便利蜂创始人庄辰超说了这段话。  庄辰超,更为人所知的身份,是去哪儿网的联合创始人、CEO。2015年,携程并购去哪儿后,庄辰超出走。2016年,成立便利蜂。  便利蜂品牌,走过不少弯路。比如做共享单车、无人货架,都失败了。只有便利
在很多粉丝心目中,刘德华是永远的天王。“刘德华”这三个字,对华人娱乐圈来说,意义非凡,他的作品伴随着七、八十年代年轻人的成长过程;他永远都是这么谦虚、好礼,永远都是如此亲切,在广大粉丝的心目中,他是永远的梦中情人。    曲风多元    刘德华已两年没发国语专辑,虽然让粉丝等得着急,但他从来没停下过脚步,筹备专辑、拍电影、开世界巡回演唱会……。他一直在工作岗位上努力,他全球同步发行的新专辑《一只牛
【摘 要】学校整合关键是学校文化的整合,而学校文化的整合不是“并和”、“调和”,而是“再造”。文化的“再造”必须要有核心价值的统领,也就是文化品牌。文化品牌的确立是一个理想与现实、传统与时代交织、理性思辨的过程,既要立足学校传统,也要符合当下的学校实境要求,更要契合教育本质要求。在核心价值的指引下,立足于学校教育的内涵和外延,进行品牌建设和价值追求,最终在学校快速整合的基础上形成学校办学的品牌化和
Cold Stone,这家在美国拥有超过1000家加盟店的超级冰淇淋连锁品牌,满足了现代人的小小奢求:逃离不了工作,逃离不了政治和经济压力,但至少可以拥有一点选择的自由——选择我专属的冰激淋。  第一次走进台湾第一家Cold Stone专卖店时,老实说有点尴尬。因为店员竟然唱起歌来!但很快地,每个顾客都笑了,小朋友尤其乐不可支。为什么不呢?只是买个冰淇淋,就有人那么尽心尽力地娱乐你,多有趣的附加价