什么是计算机视觉技术
通过《一叶知命》这个故事,我们看到了深度学习技术在互联网及金融等大数据应用领域的巨大潜力,已经不会对AI在大数据的应用领域超越人类感到惊讶了。那么在人类所特有的能力方面,例如感知,AI的表现又会如何呢?
在人的六感之中,视觉是最重要的。计算机视觉(Computer Vision,CV)是AI的技术分支之一,主要研究如何让计算机拥有“看”的能力。这里的“看”不仅意味着看到并捕捉一段视频或图片,而且意味着能够分析并理解图像序列的内容和含义。
由简单到复杂,计算机视觉技术包括以下从简单到复杂的功能。
※ 图像采集和处理——使用摄像头及其他类型的传感器采集真实世界中的三维场景,将其转化为视频。每段视频就是一系列的图像,而每个图像都是一个二维矩阵,矩阵里的每个点都代表人所能看到的颜色(这个点也就是所谓的“像素”)。
※ 目标检测和图像分割——把图像划分为若干个不同区域和物体。
※ 目标识别——对物体进行识别(例如识别出一只狗),并在此基础上掌握更多的细节特征(例如确认该狗为德国牧羊犬、深棕色等)。
※ 目标追踪——在视频中定位和跟踪物体。
※ 动作识别——对动作和手势进行识别,如Xbox体感游戏中的舞蹈动作。
※ 场景理解——对一个完整的场景(例如一只饥饿的狗正在盯着一根骨头)进行分析并理解,掌握其中复杂而微妙的关系。
故事中的阿玛卡为了让FAKA摘下面具露出雷波的脸,使用了Deepfake制造工具去伪造视频,他的操作过程涉及了上述所有步骤。
具体来看,阿玛卡首先要把一段真实的FAKA视频分解成每秒60帧的图像,每张图像都用数千万个像素来表示;接下来,AI会读取图像上的像素,然后自动识别并分割出FAKA的身体(可以想象成用笔描出FAKA的身体),进而分割出FAKA戴着面具的脸庞、嘴唇、手/手指等具体部位。AI要对视频分解出来的每一帧图像重复这样的操作,如果是一段50秒长的视频,那么就需要对50×60=3000帧图像进行处理。除此之外,AI还要关联并追踪帧与帧之间的运动姿态,发掘物体之间的关系。所有这些工作都只是阿玛卡编辑伪造视频之前的预处理。
也许你看到这里会想,原来计算机视觉这么费劲呀!做了这么多工作,还没开始造Deepfake呢!上面提到的这些工作,对于人类来说可都是不费吹灰之力的——人类只要看上一眼视频,就能瞬间在脑海中抓取并消化上面提到的内容和信息。而且,人类能够对事物进行广义的理解和抽象的认知,即使同一物体在不同的角度、光线、距离下存在视觉上的差异,甚至有时会被其他物体遮挡住,人类也能通过推理产生相应的视觉认知。例如我们只要看到雷波以一种特定的姿势坐在办公桌前,就算没有看到他究竟在干些什么,也可以推断出他正在拿着一支笔在纸上写字。
我们在“看”的时候,调用了许多过去积累的有关这个世界的知识,包括透视现象、几何学、常识,以及之前看过、学过的所有东西。对于人类而言,“看”似乎是一件自然而然的事情,但我们却很难把这项能力传授给计算机。计算机视觉就是一个旨在克服这些困难,让计算机学会“看”懂物体的研究领域。