第五节
第三次浪潮与未来:算力提升与数据驱动
一、人工智能的第三次浪潮概述
1997年5月11日,IBM 研发的“深蓝(Deep Blue)”打败了当时的国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)。这是历史性的一天,它意味着机器首次在复杂的博弈游戏中战胜了人类。除了使用强化学习方法以外,“深蓝”最关键的一点在于使用“蛮力”,它能够每秒钟对113.8亿次浮点进行运算,能搜索2亿步棋。因此,这一次里程碑式的成功,可以说是由人工智能技术和算力共同创造的。它激发了投资者对于计算机硬件技术、人工智能技术的热情,尤其在那个科技互联网泡沫的年代,大量资金投向相关的研究之中。
20世纪90年代后期以来,人工智能技术取得进展。1997年,长短期记忆人工神经网络模型(LSTM)被提出,并且广泛运用于序列数据中,如语音、文本等领域。而在商业领域,2001年iRobot公司推出的智能扫地机器人Roomba也大获成功。
在语音、图像、文本、机器人领域,人们慢慢看到了人工智能技术能够实现商业落地的曙光。2007年,李飞飞带领她的团队开展了一项名为ImageNet的项目,这一项目通过众包的方式向所有研究者、机构提供标注好的图像数据,并举办图像识别挑战赛,建立起图像领域的评判准则。有了丰富的标注数据,图像识别的准确率越来越高。更关键的是到了2012年,辛顿(Hinton)及其团队提出网络结构模型(AlexNet),在多种图像任务上均达到相当优异的成果,这也令业界看到了人工智能可以直接落地的希望。此后,随着互联网技术、大数据进入爆发式发展的阶段,人工智能技术,尤其是图像处理相关技术被运用到了各行各业,如人脸识别、安保识别、车牌识别,等等。2014年,生成对抗网络(GAN)被提出,这种算法采用生成模型(Generative Model)和判别模型(Discriminative Model)实现无监督学习,可以用于生成从未出现的数据、特征等,这种方法很快被业界用于图像生成、文本生成等领域。在文本处理领域,自2018年以来的BERT模型、GPT系列模型等超大型深度神经网络模型的出现,也将人工智能在处理许多文本任务的准确度提升至接近人类的水平,谷歌翻译正是采用了BERT模型将原有的翻译模型进行改进。同时这也意味着在未来,依靠超大模型+超级算力的人工智能很可能成为未来的基础设施。
有趣的一点是,图像领域所使用的突破性算法,并非全新的事物,其雏形在1998年就已经被杨立昆运用于图像识别,但之所以等到2012年才迎来如此重大突破,原因在于数据的爆发式增长、算力的提升以及某些机缘巧合。
在应用领域,2014年,亚马逊推出了智能音响Echo,微软推出了智能语音助理小娜,种种事件标志着语音技术走向成熟的商业化道路。2016年和2017年,谷歌的深度思维(DeepMind)团队使用人工智能阿尔法围棋(AlphaGo),打败了围棋世界冠军李世石和柯洁,这不仅让人们惊叹:没想到在这种顶级的智力游戏中,人工智能技术已经超过了人类的最优表现。另一家专注机器人技术的公司——波士顿动力在2016年发布了阿特拉斯(Altas)系列机器人,并且陆续推出了此后的改进版本,在后来的版本中,Altas已经能够完成快跑、跳跃、前空翻等需要高平衡难度才能完成的任务;2019年,波士顿动力宣布将旗下的另一款机器狗SpotMini商业化,并在2020年初用于巡逻等日常活动中。
很明显,我们目前仍然身处这一次浪潮之中。在技术层面上,基于深度神经网络而发展起来的人工智能技术仍处在高速发展的阶段,这一技术仍然具备十足的潜力;强化学习也在自动驾驶、游戏博弈等领域展现了其颠覆式的影响力。
在应用层面上,图像领域已经有不少非常优秀的人工智能公司,并且他们已经将各种算法落地在了安防、支付、风控等领域,但图像仍然有许多值得挖掘的地方,例如在辅助农业转型和工业智能化的过程中依然有不少潜力;文本领域的应用非常丰富,目前文本领域较大规模的成熟应用还主要是搜索、推荐和翻译,而在知识推理、文本抽取、文本生成等具体应用也有吸引人的商业价值;语音领域的应用主要体现在语音识别、语音合成,并且结合图像视频处理技术、文本处理技术,实现多模态信息的融合,这将形成巨大的商业价值;以医疗行业为代表的更智慧化的专家系统也在逐步落地,该系统摒弃了过去完全依靠规则的系统构建方式,而是转向专家知识+算法模型的方式,距离真正的智能化更近一步。
二、技术落地的三个关键点
当我们运用人工智能技术的时候,常常听到这样的问题:“使用人工智能技术时到底要注意些什么呢?如何判断在何种业务场景下,适合引入人工智能技术呢?”
的确,人工智能涉及的技术繁多,包括语音识别、文本生成、图像处理、机器人技术,等等。而且一旦和业务联系起来,要考虑的因素就更多了。算法专家不仅需要关注技术实现,还需要关注工程落地,更要理解业务价值。但这并不代表将技术和业务的结合是无迹可寻的。如果我们抽丝剥茧,就能够提炼出在运用人工智能时最应该关注的以下几个方面。
1.数据驱动
数据在人工智能技术落地中的重要性再怎么强调都不为过。算法驱动的核心是数据驱动,运用算法从数据中总结模式。抛开数据去谈人工智能的落地是不现实的。事实上,市面上有大量失败的案例正是由于业务中难以获得数据。当我们谈论数据的时候,不单单是谈论是否有数据,还包括数据质量、数据规模等。我们需要关注:
·数据质量如何?数据和业务是否有直接关联?
·是否能获取关键数据?如果不使用技术,而是让人来做,人是否能够从数据中寻找到某种模式?
·数据是否足够多?在数据不充足情况下如何进行模型取舍?
从数据出发,思考数据中有哪些值得挖掘的价值,让业务能更高效地实现。
2.算法迭代
使用人工智能技术时要以迭代的视角看待技术运用,尽量避免“系统交付—完成开发”的思维模式。技术的更新迭代日新月异,算法本身就需要不断更新,而非一旦完成就一成不变。更重要的是,在数据驱动的模式下,算法应该通过采集的新数据不断优化,形成“数据—反馈—上线新模型—新数据—再反馈”的循环。只有在极少数非常成熟的应用场景(如人脸识别)下,才可能需要以系统交付的形式完成任务。在大部分场景中,我们应该思考:
·如何快速冷启动?是否能将已有规则或模型直接迁移过来?
·如何获取新数据并用于模型优化?是否应该从整体考虑数据的采集、储存、反馈?
·如何使模型快速迭代?应该使用哪些技术让迭代更加流畅?
以迭代的思维运用人工智能技术,才能够避免闭门造车,不至于陷入花巨大精力开发出并不满足需求的“高精尖玩具”的困境。
3.回归业务
无论采用多么前沿的技术,技术的价值始终还是通过业务体现的。业界的技术落地不同于学术界的研究,算法专家需要回归业务本身,追求技术在业务中的实用性和价值创造的能力,明确围绕业务本身创造了什么价值,不能一味追求技术领先。例如,某些盲目上线的智能语音服务,其客户体验甚至不如文字交流来得通畅,那么这样的项目就显得有些得不偿失了。关注技术能满足客户的何种需求,关注何种技术在真实落地中更具备业务价值,这是算法工程师必须思考的问题。
三、应用于金融领域的前景
人工智能的各种技术在金融领域中已经得到广泛应用。在投资中,基金经理和分析师已经开始使用人工智能技术对另类数据进行处理,从而获取市场上其他投资者难以捕捉的独特信息;在投资优化、算法交易中,资金管理者也已经开始使用人工智能技术降低交易成本和投资波动率,提升获利的准确率;在金融服务中,银行、券商、保险、金融科技等公司已经开始在各类业务中使用人工智能技术。“刷脸支付”就是人工智能技术的典型应用:学习大量人脸信息数据构建算法模型进行人脸识别,并部署在云端。使用时,从终端获取客户脸部特征,再通过云计算技术在云端进行判别。
在金融领域的人工智能技术,既面临挑战也充满机遇。
1.促使人工智能认知能力的提升
目前人工智能技术主要集中在“感知”领域,但离“认知”还有一段距离。例如,如果我们通过对比航拍图像数据,识别出“2020年9月外贸港口吞吐量比去年同期增长8.9%”,那么这就是使用图像识别得出的结果,这种信息仍然停留在“感知”阶段,但这个信息蕴含的“新型冠状病毒肺炎疫情(后简称‘疫情’)以来中国经济恢复超预期”这一信息则是“认知”,它代表了数据背后蕴含的、以人类视角观察到的深层次信息。
“认知”需要有常识。未来的人工智能技术既需要有人类具备的基本常识,也需要有专家具备的领域知识。在前面的例子中,我们至少需要有“2020年暴发全球疫情”的基本常识,也需要有“港口吞吐量和外贸直接相关”“外贸增长率和中国经济增长联系在一起”“外贸增长预期约为6%,8.9%是超预期水平”等一系列专家知识。
针对人类基本常识,自然语言处理技术可能具有广阔的发展前景。我们已经有大量语料库,如维基百科、百度百科等基础信息,在金融领域,也有相当丰富的新闻、研报等文本,但是这些信息大部分没有被结构化为可以用作推理、认知的数据,其原因在于目前的知识图谱技术、知识推理技术还不够成熟。未来,我们将建立基于大量语料库的知识图谱,这对于构建知识问答系统、投顾系统等都具有深远价值。
如让智能化机器具备专家的领域知识,需要将人工智能技术和专家知识结合起来,将财务模型、投资模型、定价模型、产业分析模型等金融专业人员使用的知识转变为机器能够理解的代码,再将其和人工智能技术相结合。也就是说,在实现人工智能技术时,我们并不能抛开“专家知识”,仅仅使用数据拟合模型,而是需要将专家的认知逻辑作为框架,再使用人工智能技术去解决过去需要人工解决的每个细节。“人机回圈(Human-in-the-loop)”在某种程度上代表了未来人类智慧和机器智慧结合的方向:我们需要采用人机回圈的过程辅助机器做出决策,用户的反馈、专业人士的建议会被用于业务决策,同时也会被放入人工智能算法中,以提升算法的准确性。
2.缺乏数据仍是人工智能落地的难点
相比5年或者10年前,无论是从数据规模、数据质量,还是数据获取便捷性等方面考虑,数据似乎都不再是一个问题了。但在真正的工程实践中,数据缺乏仍然困扰着每一个团队,尤其是在许多金融细分领域,缺乏数据的问题仍然是人工智能落地的最大阻碍。数据缺乏主要分为三种情况:
第一种,获取途径受限。 不同公司都有各自的商业数据,并且这些数据被看作是公司宝贵的资产,因此在大多数情况下,想要获取其他公司的数据是相当困难的。例如,一家金融公司可能有客户大额转账的记录,但它没有客户出行、支付等生活信息的记录,这些记录可能在其他公司手中。这种情况下,“联邦学习”可能会成为未来技术发展的一种方向。“联邦学习”的含义是,让各参与方在不披露底层数据的情况下,通过交换加密的人工智能技术中间结果实现联合学习。每家公司只贡献自己的数据,得到的却是根据所有公司数据训练得出的模型,并且在这一过程中不用担心信息和隐私泄露的问题。按照这种思路,“联邦学习”可以打通各公司的数据孤岛,实现真正的“大数据”。
第二种,标注成本过高。 专业领域的数据往往存在数据标注过于昂贵的问题。例如,医疗领域的图像需要医疗领域的专家才能判别。类似地,金融领域的数据也常常需要金融领域的专家才能做出判断。这就导致虽然名义上这些数据是可以获取的,但是获取的成本过于昂贵,在实践中往往难以获得。目前的解决方案通常采用“迁移学习”,这是一种把已有知识、模型迁移到新任务上的技术。例如,我们想要训练一个能读懂金融文本的人工智能模型,如果我们已经有一个能读懂中文的人工智能模型,那么我们就可以在这一模型的基础上再加入数据,把它改进成能读懂金融文本的模型,这样做所需要的数据比从头训练一个能读懂金融文本的模型要少得多。
第三种,金融数据固有属性导致的数据缺乏。 金融中有大量数据是从金融市场的交易中获得的,我们没有办法采用数据标注或者数据生成等手段获取。例如,假设我们想要预测金融危机,或者研究金融危机时期的市场规律,我们期望的是获取100次金融危机发生时的数据,从这些数据中总结相似点——可是,1900年以来全球性金融危机就只发生了2次!我们无法在实验室中制造出100次金融危机来生成数据!
类似这样的“黑天鹅事件”,在金融研究中扮演了非常重要的角色,但我们可以使用的数据产生频次非常低,甚至只有屈指可数的几个数据点可以参照。传统的有监督学习的思路显然是不适用的,而是应该结合已有的金融模型、专家经验进行判别。另外,有监督学习和无监督学习的结合可能也对这类难题有所帮助。有监督学习可以类比成一个儿童看过几百万个标好了标签的苹果,然后建立“苹果”这一概念。但事实上,儿童在理解“苹果”这一概念时,自主地观察各种水果的大小、形状、颜色等特征后(无监督学习),大人只需要告诉他一次“这就是苹果”(有监督学习),他就能够很轻松地理解苹果是什么了。
总而言之,数据仍然是算法工程师应该关注的重点,针对不同类型的数据缺乏,应该采用不同的解决方案予以应对。
3.黑盒模型的“白盒化”
在前面我们已经提到了“黑盒模型”这一概念,实际上这也是大多数在人工智能领域以外的人对人工智能技术的认知:给人工智能算法一个输入,它可以给出一个看起来还不错的输出,但很难解释在机器内部到底发生了什么。这种难以解释的性质在金融领域可能成为致命的弊端,因为这很可能就意味着监管层或者合规部门不接受该结果。
出于这样的原因,想要让人工智能技术更好落地,更易解释的模型也是必需的。这里的解释分为三种层次:
第一,解释算法的内部结构,防止意外情况发生。 黑盒模型最直观也是最致命的弊端是:没有人能保证黑盒里不存在一颗定时炸弹。尽管它很有效,但为了保险起见,许多机构也会避免使用它。因此要让人工智能技术被更好地接受,就需要打消不了解模型算法的金融从业者的疑虑。而打消疑虑的关键,就是要让其他人知道“算法模型是安全的”。一方面,让监管层或者合规部门确认模型的设计是有逻辑的、在算法层面是有效的,尤其在某些“黑天鹅事件”发生时模型也能正常运行。另一方面,也可以在黑盒模型之外加入其他规则型设置,类似于为模型加上“保险杠”,以保证在特殊情形下不至于出现因为模型输出的结果不准确而产生巨大损失的情况。
第二,解释究竟是哪些输入起到了关键作用,解释输入和输出的联系。 例如,假设我们采用了黑盒模型去判断客户的违约概率,在得出了“拒绝放贷”的结论后,至少希望模型能够告诉我们做出“拒绝放贷”最关键的判断因素是什么:是客户抵押的资产不够,是和不良征信的人有密切联系,是缺少连贯的信用记录,还是以上三者兼有。目前比较常见的一些做法是使用代理模型、局部模型、敏感性分析等方法进行模型解释,给出关键的输入变量。例如,我们可以使用树模型作为黑盒模型的代理模型,其好处是树模型是便于解释的。我们使用树模型去尽量拟合黑盒模型的结果,这样一来,就可以把树模型得出的解释近似为对黑盒模型的解释,从而对输入和输出之间的联系有粗略的认知。
第三,按照人类更直观的、外行也能理解的方式解释黑盒模型。 例如,在图像领域,我们可以通过可视化技术让用户直观地理解每一层、每个神经单元捕捉到了颜色还是形状信息,但是在金融领域,大量数据都是难以可视化的,例如,财务数据经过神经元处理后就很难直观理解。因此从目前看,这一层次的模型解释性仍然处在探索之中。
人工智能的可解释性在未来很长一段时间都可能是技术人员需要关注的。随着人工智能的落地,技术人员需要越来越多地向外行解释算法的方法论、设计逻辑、有效性、可用性等问题,并需要在复杂模型和简单模型、可解释模型与难以解释模型之间进行权衡。