沃森大显身手
打败答题王
在我们开始东大机器人项目的2011年,美国IBM公司开发出了名为沃森(Watson)的人工智能。之后,沃森参加美国热门综艺节目《危险边缘》( Jeopardy )、连续打败两位冠军的新闻引起了人们的关注。后来,瑞穗银行的呼叫中心和东京大学医科研究所引进了沃森系统。东京大学引进的沃森因为能帮助医生诊断出极为罕见的白血病而大显神通,在日本也成了新闻。那么,它的工作原理是怎样的呢?
Mozart’s last & perhaps most powerful symphony shares its name with this planet.
(莫扎特的最后一部,也是最有影响的一部交响曲以某个行星的名字命名。)
这是一个典型的《危险边缘》式问题。《危险边缘》的问题都有一个特点,即在问题的最后,用“这个××是什么”(This ××)的形式来提问。例如所有问题最后都是以“this planet(这个行星)”“this country(这个国家)”“this musician(这位音乐家)”等形式提出的。《危险边缘》中不会出现HOW(如何)或者WHY(为什么)类型的问题。那么这种“This ××”形式的问题的答案是什么呢?只能是专用名词或者带有量词的数字,例如某某年、多少万人等数字。这种问题叫作事实性问题(factoid),过去就有针对事实性问题的解题方法。
“事实性问题的解法可以用来解答《危险边缘》的问题。如果让人工智能去答题,一定能带来很好的宣传效果!”
IBM的项目经理注意到了这一点,这十分了不起。而且,更了不起的是,他还从网上收集了《危险边缘》答题所需的数据,组成能实际运作的系统,构建起能在2秒钟之内答出最有把握的答案所需的并行计算机,然后又确实打败了之前的冠军。
我们回过头来看莫扎特的这道题。“与莫扎特最后一部交响曲同名的行星是什么?”您知道答案吗?如果不知道,您会怎么做?当然,您会用谷歌搜索正确答案。
在搜索时,首先需要决定关键词。不太习惯在网络上搜索信息的人可能比较容易用“莫扎特”搜索。这样的话,维基百科的“沃尔夫冈·阿玛多伊斯·莫扎特”条目会出现在所有结果的最上方。点开链接,可以看到莫扎特的身世背景、在宫廷的活动、关于他的晚年和死因的各种猜测、作品风格的转变以及人物形象等超过一万字的信息。从这里恐怕不太容易找到问题的答案。
经常使用网络搜索工具的人效率可能会更高一些。他们会多输几个关键词,例如“莫扎特 最后 交响曲”,这样显示在所有结果最前面的是维基百科的“第41号交响曲(莫扎特)”。这就是莫扎特最后一部交响曲,点开链接可以看到概要部分的第一行写道“该作品又名‘朱庇特交响曲’,是莫扎特创作的最后一部交响曲”。任务完成!答案就是“朱庇特”。
假设沃森也要通过搜索的办法来寻到答案,那么最重要的一点就是,必须让沃森像经常使用网络搜索的人一样选择适当的关键词。然后沃森就能从问题中选出“莫扎特”“最后”“交响曲”这三个关键词,轻松地找到维基百科“第41号交响曲(莫扎特)”的页面。对人类来说,找到这一页就等于找到了答案,不过人工智能还有一项工作,因为它是读不懂文章的。
那么沃森是如何做到这一点的呢?它首先会在维基百科“第41号交响曲(莫扎特)”的页面中找出包含三个关键词最多的句子。因为答案往往就在这个句子当中。多个词语在文本中同时出现的现象叫作“同现”。沃森需要根据同现关系找出可能包含答案的句子,再从中寻找属于“行星”类别的词语。请大家一定用英语版的谷歌搜索网站尝试一下。符合上述条件的只有“朱庇特”。因此沃森就可以确定应该输出的答案是“朱庇特”了。这就是沃森的工作原理。
被引进呼叫中心
银行呼叫中心引进的沃森系统也是通过同样的原理运作的。呼叫中心的业务主要可以分成两类,即准确回答顾客的咨询和正确地记录工作人员与顾客的通话过程。沃森的任务就是提高这些工作的效率。
要提高第二类业务的效率,语音识别人工智能技术可以发挥重要作用,把顾客与接线员之间的对话用文本正确地记录下来。大数据和深度学习提高了语音识别的精度,不过提供训练数据的合作者往往以讲普通话的20~49岁人群居多。因此,人工智能对老年人的声音或方言的识别率会大大降低。其实我的嗓音就有些偏高,貌似属于“离群值”,识别率也不高。
打电话到呼叫中心的顾客并不一定都讲普通话,老年人也不在少数。因此,呼叫中心的接线员要先把顾客咨询的内容重复一遍,这样做不仅可以提高语音识别的精度,还能每天都不断增加训练数据。
呼叫中心的职责并不是解决问题,工作人员只需按照事先准备好的FAQ(常见的问题及其对应的解答)进行回答,遇到复杂的问题就转交给相应的负责部门。沃森的职责是告诉接线员,顾客咨询的问题在FAQ的哪个部分,它最擅长的搜索功能可以发挥重要作用。
沃森系统的画面上应该能实时显示经过语音识别功能处理成文字的顾客与接线员的对话,还会几乎在同时按顺序显示出FAQ列表。这与准确答题的原理是一样的。目前的技术还无法锁定与顾客咨询相对应的唯一回答,不过它可以随时输入正在进行的对话,按照最接近正确回答顺序将FAQ依次显示出来。
接线员可以从屏幕上显示的列表中选择最接近的FAQ来解答顾客的咨询。如果不对,他会继续尝试选择其他FAQ。接下来,在沃森提供的备选FAQ就是正确答案时,接线员要点击“正确”按键。通过不断积累信息,沃森便能自动学习,从而变得越来越聪明能干。这应该就是沃森的工作原理。
我在前面的说明中连续用了“应该是”“应该能”,这是因为我并没有实际看过引进了沃森系统的工作现场。不过从人工智能目前的能力来看,我想不出还能有其他的用户界面。我曾经向某家引进了沃森系统的银行的一位工作人员求证,他告诉我“确实就是这样,你说的一点不错”。
计算机全靠数学运行,人工智能只是软件,所以也全是由数学组成的。只要了解数学原理,即使没有见到实物,我也能在一定程度上想象出人工智能能做到什么和做不到什么。