首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

聊天机器人中的3个后续步骤

聊天机器人是人工智能的一个子领域,专注于在人与计算机之间产生自然而无缝的对话。近年来,我们在这方面看到了几项惊人的进步,自动语音识别(ASR),文本到语音(TTS)和意图识别方面的重大改进,以及Amazon Echo等语音助手设备的火箭发展和谷歌之家,估计2018年家庭中有近1亿台设备

但是,我们距离科幻小说中所承诺的流畅的人机对话还有很长的路要走。以下是我们在未来十年应该看到的一些关键进展,这些进展可以使我们更接近这一长期愿景。

超越机器学习的新工具

机器学习,特别是深度学习,在过去几年中已经成为AI领域中非常流行的技术。它已经推动了面部识别,语音识别和对象识别等领域的重大进步,使许多人相信它将解决聊天机器人的所有问题。但是,实际上它只是我们工具箱中的一个有价值的工具。我们需要其他技术来管理有效的人机对话的所有方面。

机器学习特别适合于涉及在大型数据库中查找模式的问题。或者作为图灵奖得主Judea Pearl的简洁说道,机器学习基本上解决了曲线拟合问题。聊天机器人中有几个问题可以很好地映射到这种类型的解决方案,例如语音识别和语音合成。该技术也已应用于意图识别(采用人类语言的文本句子并将其转换为用户意图或愿望的高级描述)并取得了很大成功,尽管使用此技术捕获意义时存在一些限制。自然语言,本质上是有状态的,对语境敏感,而且往往含糊不清。

但是,计算机对话中肯定存在一些不太适合机器学习的问题。将人机对话视为由两部分组成:

  • 自然语言理解(NLU) - 理解用户所说的内容
  • 自然语言生成(NLG) - 为用户制定合理的主题响应。

最近的注意力主要集中在第一部分,但是在发电方面仍存在许多挑战,而这些挑战往往不适合机器学习,因为响应生成不仅仅是收集和分析批次的产物。数据的。维持可信,持续和有状态的对话的挑战将需要在未来几年更多地关注这些问题的NLG和对话管理部分。

更高保真度的体验

今天的聊天体验可以非常简单和受限制。为了超越这些限制,我们需要支持更高保真度的对话。实现这一目标有几个部分,包括:

  1. 广泛而深入的对话。今天的大多数聊天体验要么非常广泛而且浅薄(例如,“时间是什么时候?”=>“时间是早上9点45分”)或者非常狭窄但很深(例如,在测验游戏中的多转对话)。为了超越这些有限的经验,我们需要进入一个广泛而深入的对话世界。这将需要更好地理解用户输入的上下文,以便能够适当地响应,强有力地跟踪对话的状态(存储器),以及扩展到超出当前技术限制的能力。一次几百个意图。
  2. 个性化。在两个人之间的自然对话中,每个人通常会利用之前与另一个人的经历,并将根据他们的回答量身定制。不这样做的计算机对话往往会感觉不自然甚至烦人。长期解决这个问题需要解决诸如说话人识别之类的挑战,以便计算机知道你是谁,并且可以对你和其他人做出不同的反应。另一方面是跟踪先前对话的状态并且能够随时间不同地响应,例如学习特定用户的偏好或风格。
  3. 多模式输入和输出。目前,聊天AI专注于理解口头输入和产生口头反应。但是,用户可以以多种不同的方式提供输入,并且输出也可以以不同的形式生成。例如,除了提供口头输入之外,用户还可以按下屏幕上的按钮。或者情绪分析可用于提供计算机可以做出反应的情绪级输入。同时支持多个输入或输出会带来一系列需要考虑的复杂性。例如,如果用户在按“是”按钮时显示“否”,系统应该怎么做?

在循环中寻找人类的正确角色

作为技术专家,我们经常被驱使尝试以计算方式解决每个问题。然而,重要的是要注意一些领域,例如游戏和娱乐或销售和营销,可能总是希望精细地制作计算机响应的声音和个性以匹配他们的品牌。此外,最近已经注意到,尝试生成完全自动化的自然语言生成可能不是最佳前进方式,因为最自然的人类对话不是重复大量先前对话的结果,而是通过考虑当前上下文形成的,独特的双方的聊天记录,以及一系列更广泛的聊天技巧和惯例。

这些论点表明,将人类置于初始对话生成的循环中可能实际上是一件好事,而不是我们必须寻求根除的东西。当我在皮克斯的Finding Nemo工作时,一个重大的技术挑战是模拟水的外观和行为。但比解决潜在的物理模拟问题更困难的是水必须是人类可导向的:电影的导演必须能够要求改变水在场景中的外观和反应。同样的限定词在聊天机器人领域也是如此:自然语言生成解决方案必须允许人类“创意总监”输入,能够控制合成角色的语气,风格和个性。

今天,这些创造性的输入必然处于人类写作层面,系统可以识别每个上下文的个体响应,并定义对话应该如何流入下一个问题或主题。这就是目前所有计算机对话体验的工作方式。我们似乎不太可能在未来几年完全消除这种人在循环中,因此当我们展望未来时,我们将希望建立支持更具可扩展性和广泛机制的方法来定义一个人的声音和音调。例如,计算机响应能够在更抽象的层面上定义其关键特征。

HBO系列Westworld在展示这种世界观方面做得非常出色。人工“宿主”显然非常复杂,并且在反应和行为方面往往与血肉之躯无法区分。然而,这是通过在“叙事”部门中让许多作家定义每个主持人的内容及其各种高级人格特征来实现的。创意设计师可以使用强大的可视化创作工具调整这些因素。

在未来几年,该领域可以从灵活的创作工具的开发中受益,使得对话编写者能够像Photoshop赋予艺术家或Final Cut Pro赋予权力的视频创作者一样的方式。

结合更丰富的语言生成和对话管理系统工具,更高保真度的体验以及更好地在循环中使用人类将产生更好的内容,并最终将我们带入一个充满愉快和无缝计算机对话体验的世界。

Martin Reddy是语音技术公司PullString的联合创始人兼首席技术官。

  • 发表于:
  • 原文链接https://venturebeat.com/2018/07/29/the-3-next-steps-in-conversational-ai/
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com