欢迎来到和机器聊天的2.无畏先锋 0时代

更新日期：2018-03-29 19:24:55来源：网络点击：1007743

原标题：欢迎来到和机器聊天的2.0时代

能够对话的语音助手已经成了互联网科技巨头的标配，不管做操作系统、搜索引擎、电子商务还是硬件终端，大家都得有个人工智能支持的女性声音跟用户聊几句天。但是“你有没有觉得跟人工智能对话很费劲？”周力在微软北京总部的办公室对记者提出这个问题。

2018年3月28日，微软小冰团队的两位负责人李笛和周力与科技媒体沟通了小冰在人工智能对话领域最新的技术进展。

欢迎来到和机器聊天的2.0时代

李笛介绍微软眼中的人工智能对话平台最新进展

●为什么跟机器对话不自然

微软在Windows10内置的小娜语音助手估计是普通用户最容易接触的智能对话机器人。但相信大家能注意到在使用语音跟小娜交流时，往往都会用比较正式的语气口齿清晰地跟她沟通。其他语音对话机器人也不能例外，即使它们好像学会了开玩笑，用户也很少能用放松的方式对着机器说话。

微软注意到用户在通过语音完成任务之外，人机对话的情感需求也很重要，于是另辟战场，在2014年发布了有具体人格和个性的微软小冰，探索在人机对话中人类情感需求的满足。实践证明，小冰选择的情感计算之路在增强互动、延长对话层面有了明显进步，每轮对话的次数远远超过其他对话程序。

但即使面对小冰，人类也往往不由自主地选择比较紧张的方式进行说出语音。这其中重要的原因，周力和他的团队认为是机器说完了人再说，一人一句轮流发言的形式并不是真正的对话。如果我们认为在语音交流层面，电话和面对面谈话差不多，与人工智能对话更像是两个人拿着对讲机交谈。

用通信行业的术语来说，对讲机交流是半双工传输，而人类自然交谈是全双工——通信双方可以随时发送和接受信息，也就是可以同时说话、边听边说。拿着对讲机说话，因为无法得到对方的实时反馈，人们传达的内容就会不由自主地调整到尽量清晰、简明的程度，也就是“说话费劲“的原因。

●对话的河流

机器跟人对话是怎么实现的？具体的技术细节恐怕普通用户不容易掌握，但是在大框架上，目前各大公司使用思路都差不多：收到语音之后理解用户说的内容，从中找到对应的任务，然后想办法完成并反馈给用户。但这只能实现对讲机式的交流，在现有技术平台上，这种技术思路已经比较成熟。微软认为实现持续、全双工的感官式交流才有更大的发展空间，这就需要全新的技术框架。

欢迎来到和机器聊天的2.0时代

现有AI对话机器人大多基于具体任务，继续提升体验已经比较困难

传统实现方法被行业称为Turn-oriented框架，微软表示可以翻译为面向单一任务的框架。微软小冰全球负责人，微软（亚洲）互联网工程院副院长李笛向记者解释了其中的原理：“以单一任务为目标，每一个对话就像是来到了一个十字路口。在路口中间有指挥交通的民警，每次当你输入一个命令，民警只负责把你迅速引导到干这个事的地方去。”

“比如你要问天气，他迅速把你引导到提供天气内容，然后把天气内容提炼出来，以对话的形式输送给你。当天气的任务完成以后，这个民警就把你拉回到十字路口中心来，一切都归零了。然后你再问出下一个问题的时候，他发现你还要去另外一个地方，就把你引导到另外一个地方进行。”李笛用具体的例子解释。

如果这个系统无法完成用户要求的任务，一个意外处理功能可以实现搜索协助，给用户展示对应的网络搜索结果，最终还是回到原点，等待下一个任务。

在人工智能的起步阶段，Turn-oriented框架可以高效、准确地实现目标任务，所以获得了几乎所有对话应用的青睐。但它的问题就是不像人，不能实现自然、轻松、持续的对话，给用户的感觉还是在和机器打交道，自然用起来就有些费劲。

欢迎来到和机器聊天的2.0时代

微软认为面向对话全程的框架相比以前的实现方法能实现更自然的交互

李笛认为，新的Session-oriented框架（面向对话全程的框架）将提供自然流畅的对话体验，有更大的发展空间。“对话像河流一样，我们认为任何的一个自然发生的对话，都是混合的。她就像河流一样，从一个turn往下一个turn走，这个turn可能跟任务有关，但是这个任务之后可能会进入到进一步的交流。随着进一步的交流有可能引发出新的任务，然后再随着新的任务引发一些知识的了解，然后走下去，持续流转。”

与现有的实现方法相比，我们可以看到Session-oriented框架在完成单个任务完之后，系统并没有回到原点，而是像河水流到了下游，对话进入了新的阶段。如果能实现持续的对话，在其中完成多个任务，用户的满意程度就不再局限于单个任务的成败，全体对话的体验将更重要。

有些任务传统的对话方式已经能解决，但用户体验不好。比如手机推荐，传统人工智能对话需要持续询问很多问题才能给出比较精确的答案。任务完成了，但用户很痛苦。而这个痛点，李笛希望能在Session-Oriented框架中得到改善。

●从局部到整体的视角转换

人工智能经常被网友戏称为人工智障，但并不能否认在特定领域它们已经能很好地完成任务甚至完胜人类，比如下棋、图像识别等应用场景。在传统的AI语音对话领域，完成特定任务也成为核心价值，但我们人类对交流的期望远不止查一下天气和讲笑话。微软这一次提出面向对话全程的理念，抓大放小，从另一个维度让我们看到了人工智能发展的方向。

以对话全程为考量，以往你来我往轮流发言的形式就不行了，人工智能需要具备边说边听、被打断和恢复、甚至插嘴的能力。为了保持对话，人工智能还需要对用户身份、情绪有适当的理解，从而引导对话持续进行。

欢迎来到和机器聊天的2.0时代

全双工的语音交流模式和以往差异很大

这对现在的人工智能研究者来说，是全新的挑战，甚至可能需要颠覆和重组整个底层架构。微软小冰在情感计算领域的早发优势应该是激励他们最先提出这个理念的资本。小冰代表的情感计算能力是保持和引导对话的基础，而以小娜为代表的智能计算能力，则可以完成对话河流中用户的任务。

通过对话完成任务是很重要的价值，但如果用户觉得不方便，这些功能可能永远被打入冷宫。”真正重要的并不是有100个、或1000个功能，而是用起来到底费劲不费劲，如果我费劲的话，你有再多的功能，我可能尝试一下之后，就不经常使用。但如果交互变得很自然，哪怕功能很少，用户可能也会经常去用，甚至像我们天天用手机一样，上瘾地玩。“周力表示。

李笛和周力都认为，产业现存的人工智能对话都将遇到难以继续成长的天花板，而以对话全程为基础的思路，能够提供更自然的对话体验，将是未来的方向。包括苹果、亚马逊、facebook等重要的人工智能公司都将把产品重点转向对话的持续性。

除了软件架构的变化，硬件感官的进步也是需要的。微软现在还没展示人工智能对话的视觉能力，但根据相关信息推测，他们已经做了很多工作，或许年内我们就能看到小冰能够观察用户和环境，甚至以具体的形象出现在屏幕上了。

●从对讲机升级到电话的挑战

人工智能对话实现从对讲机半双工到电话的全双工，技术上需要克服的挑战很多。周力给记者举了几个例子。

首先，机器需要边听边想，并及时反馈。人与人的对话正是如此，我们在听别人说话的时候已经开始思考怎么回答了，往往对方一结束我们就能立即接上话。对人工智能来说，就需要持续接收用户语音，对整体意思进行预测并开始组织答案。如果等到说完了再开始处理，考虑到网络延迟以及某些任务的处理时间（比如操作智能硬件），或许要等很久才能有反应。如果用户说完就能得到实时反应，哪怕任务结果还没有反馈，也会是很好的体验。

欢迎来到和机器聊天的2.0时代

周力解释人工智能边听边想的流程

其次，保持对话节奏，说什么和什么时候说也非常重要。在持续的对话中，语音是不能像微信消息一样一气儿发出来的。人工智能自己需要协调先后到达的内容，哪些更重要，把更重要的东西先说出来，甚至忽略掉还没说但已经不需要的信息。机器也可能在讲话时被人打断，那么它应该继续说下去，还是该收口？如果立即回应，是不是后面还需要接上自己前面的话。这些都是半双工，或者说面向单一任务模式不存在的挑战。

再次，如何协调不对称的交流以及让对话持续。面向任务的交流一般是一来一往，人和机器的沟通处于同一个量级。但是人和人的对话经常出现一个倾听一个倾诉的情况，在人工智能对话中，需要解决这样的场景。在对话中，如果出现冷场，人工智能是结束对话，还是想办法持续话题？这也是传统人机对话没有怎么考虑的问题。

还有，人工智能如何识别对话者的身份、情绪和场景。给大人讲鬼故事没问题，但如果小朋友听到了就不妥。说我爱你和唱我爱你，机器给出的回应也不应该一样。对话中如果来了别人，说话者接了个电话甚至家里电视开始播放电视剧，机器怎么识别这样的场景又是更复杂的问题。

很明显，这些新的对话需求以往的任务式对话技术很难满足。微软小冰最初的对话引擎基于大数据搜索技术，通过学习用户的对话，找到最适合当前场景的回答，效果相当好。但是这种模式基本上不能让人工智能产生新的内容，必须依赖大数据尺度下用户的数据贡献。

在基于对话的场景中，微软采用了生成模型以满足边听边想、动态调整内容的能力。周力表示，“从目前能产生的对话质量来说，（生成模型）和我们之前的搜索技术是相当的，但生成模型本身本身更适于一种引流性交互的模式。”可以期待，随着生成模型的完善，小冰的对话能力终将超越以往的搜索技术，给交流带来更好的体验。

●更自然的智能对话可以无所不在

在微软的眼里，以小冰为代表的人工智能对话能力可以接入任何具备语音功能的智能设备，如果不需要物联网硬件控制能力，对这些设备来说，接入小冰只是多一个IP语音流连接到云端，没有什么复杂的开发工作。最新的案例是微软与小米生态合作，在Yeelight语音助手中植入了小冰。用户可以自由选择与小米的小爱同学或者微软小冰对话，小冰还可以控制大多数小米生态链的智能产品。

在幕后，小冰的技术平台实际上已经有了很多的落地应用。小冰是很多媒体的人工智能主持人、在日本罗森便利店的智能助手、甚至已经在大多数国内的陪伴机器人中给小朋友讲故事了。李笛表示，微软小冰在国内市场上有三种合作方式。第一个是提供人工智能解决方案，相比其他产品更关注终端产品的用户体验。第二还能提供内容和服务，包括资讯资源的整合，以及启动相关任务，如智能设备的控制。第三则可以利用人工智能的创造能力，提供内容服务。

实际上，根据搭载的硬件场景不同，尽管接入的同样是微软小冰，她的功能和特性也会有差异，小冰是一个可以有不同面目和功能的对话平台，而不是具体的定型产品。比如在普通的语音助手设备上，实时信息的输入基本上只有语音，而在车载设备上，对话随时可能被驾驶信息打断，两种场景下的处理方式并不相同。在微信等消息平台上，以搜索模型为主的内容可以提供更安全可靠的交流，而物联网智能设备上的小冰可以用生成模型适应更灵活的的对话。

对话式的人工智能现在还没有成为不可替代的应用，甚至大多数人几乎不用。所以有人会认为小冰只是微软研究未来技术的一个实验性产品，不会成为Windows、Office这样商业化的应用。但是别忘了，微软两年前就提到过一个概念：对话即平台。以小冰为代表的持续性对话能力很可能成为微软未来某个核心业务的基石。如果把现在大多数语音对话机器人称为1.0一代的话，以对话全程体验为目标的微软小冰，给我们展示了智能对话2.0时代的样子。

欢迎来到和机器聊天的2.无畏先锋 0时代

频道本周排行

频道本月排行