生成式对抗网络
Deepfake换脸术建立在一种名为生成式对抗网络(GAN)的技术基础之上。顾名思义,GAN是由一对互相对抗(博弈)的网络组成的深度学习神经网络。
其中的一个网络名为生成式网络,负责尝试生成一些看起来很真实的东西,例如基于数百万张狗的图片,合成一张虚构的狗的图片。另一个网络名为判别式网络,它会把生成式网络所合成的狗的图片与真实的狗的图片进行比较,确定生成式网络的输出是真是假。
生成式网络会根据判别式网络的反馈,重新进行自我训练,努力让损失函数最小化,即缩小真实图片与合成图片之间的差异,朝着下一次能够成功愚弄判别式网络的目标迈进;而判别式网络也会重新进行自我调整,努力让损失函数最大化,希望练就火眼金睛,不被生成式网络蒙骗。经过数百万次这样的“对抗”之后,生成式网络和判别式网络的能力会不断提升,直至最终达到平衡。
第一篇有关GAN的论文发表于2014年。这篇论文展示了GAN的“对抗”过程——生成式网络首先合成了一个非常可爱但是看起来很假的“小狗球”(dogball)的图片,然后很快被判别式网络判定为“假”,接着生成式网络逐步学会了“伪造”让人很难区分真伪的狗的图片。目前,GAN技术已经被应用于视频、演讲和许多其他形式的内容之中。
那么,以GAN技术为基础的Deepfake视频会被识破吗?目前大多数Deepfake视频都可以被算法检测到,有时甚至用人眼就可以辨别出来,原因在于,这些视频在制作时使用的算法还不够完善,而且没有足够的算力做支撑。为了以AI制AI,Facebook和谷歌都曾发起过Deepfake视频鉴别挑战赛。不过,严苛的防伪检测器消耗的算力非常大,如果一个网站每天都会收到数百万段用户上传的视频,那么防伪检测器的有效性就将大打折扣。
长远来看,阻止Deepfake的最大难点其实在于GAN的内在机制——生成式网络和判别式网络会在一次次“博弈”之后携手升级。举个例子,我们构建了一个生成式网络,这时有人构建了一个判别式网络,它能够检测出我们的网络所生成的结果是“假”的,那么我们就可以把愚弄新的判别式网络作为目标,重新训练我们的生成式网络,这样就会激发判别式网络重新进行训练……这个循环发展到最后将成为一场军备竞赛,比的是哪一方能够用更强的算力训练出更好的模型。
在《假面神祇》这个故事中,阿玛卡曾在地下网吧里伪造了一段“白人吸血鬼男孩袭击拉各斯无家可归者”的视频。尽管当时阿玛卡依靠的是网吧里简陋的算法工具和算力,但这段视频仍然欺骗了不少人的眼睛,在发布后的24小时内获得了数百万次的点击,直到被平台鉴定为伪造而遭封禁。2042年的技术生成的伪造视频足以蒙蔽人类的肉眼,但在基于强大算力训练而成的GAN面前,还是会露出小尾巴,被GAN的判别式网络识破。
随着故事的发展,阿玛卡的雇主齐为他提供了不受限制的云端AI算力,用来训练复杂的大型GAN模型,学习生成面部、手/手指、步态、手势、声音以及表情等。此外,阿玛卡还向GAN投喂了大量真实的雷波的训练数据。在这样强大的支持下,阿玛卡制作的这段Deepfake视频能够欺骗所有普通强度的防伪检测器。这不难理解,就像珠宝店的防弹窗可以挡住所有普通抢匪的入侵,但是如果有抢匪扛着火箭筒来抢珠宝店呢?在火箭筒面前,防盗窗简直形同虚设。在强大的算力面前,普通防伪检测器也是一样。
到2042年,针对Deepfake视频的防伪软件将成为类似于杀毒软件的存在。政府网站和官方新闻网站上对信息的真实度要求非常高,所以会设置强度最高的防伪检测器,以甄别网站上是否有由强大算力训练而成的GAN生成的高质量伪造视频。社交网站和视频平台(如微博、抖音)上的图片及视频数量庞大,如果用强度过高的防伪检测器来扫描用户上传的所有内容就会消耗大量算力,所以都会部署级别较低的防伪检测器,同时按照视频的传播量对级别进行动态调整,传播量越大的内容会使用更为精准而严格的检测技术。在故事中,雇主齐希望阿玛卡伪造的视频能够像病毒一样迅速而广泛地传播,因此GAN需要在算力最强大的计算机上进行训练,以免被网站使用的最高级别的防伪检测器发现。
难道就没有检测准确率能够达到100%的防伪检测器吗?这在未来并非无法实现,只不过可能需要采用一种完全不同的检测方法——每台设备在捕捉视频或照片时,就对每段视频和每张照片进行认证,用区块链保证它是原版的,绝对没有经过篡改。这样,每个网站在用户上传内容时,只要确认该内容是原版的,就不存在伪造的可能了。然而,在2042年,这种“高级”的方法还无法落地,因为这种方法落地的前提之一是,让所有电子设备都部署上区块链技术(就像如今的AV播放器全部带有杜比音效)。此外,区块链技术必须实现突破,才能处理这么大规模的内容。
在实现上面提到的区块链或其他长期解决方案之前,人们需要不断改进防伪检测技术和工具来应对Deepfake,同时需要出台相应的法律,对恶意制造Deepfake的人采取严厉的处罚措施,以威慑潜在的犯罪者。例如,加州在2019年就通过了一项法律,禁止Deepfake在色情片中出现,同时禁止使用Deepfake来扰乱政治选举。即便立法滞后,人们可能还需要自己学会辨别网上的内容——无论线上的内容看起来多么真实,都不排除有“假冒”的嫌疑(直到区块链解决方案起作用)。
其实,除了制作Deepfake换脸视频,GAN也可以用于做一些更有建设性的工作,例如让照片中的人物变年轻或者变老、为黑白电影及照片上色、让静态的画作(如《蒙娜丽莎》)动起来、提高分辨率、检测青光眼、预测气候变化带来的影响,甚至发现新药。
我们不能把GAN和Deepfake画上等号,因为这项技术的积极影响将远远超过其负面影响,绝大多数新出现的突破性技术也都是如此。