近日,第七届对话系统技术挑战赛(DSTC7)中,阿里AI获得双料冠军。
DSTC7由来自微软研究院、卡耐基梅隆大学的科学家于2013年发起,是人工智能领域的权威学术比赛。它要求参赛的AI模型依据给定的多轮对话历史从上万个句子中选出正确的回复。阿里AI在参与的2项比赛中拿下两个世界第一,击败了包括麻省理工学院、约翰霍普金斯大学、IBM研究院在内的近20支国际知名大学和研究机构的参赛队伍。
基于此次比赛所提供的公开对话回复数据集DSTC7 Ubuntu,阿里AI将人机对话准确率的世界纪录提升至94.1%。
一直以来,人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。人类的语言表达复杂且多变。在多轮人机交互对话中,机器如果不能快速准确理解人类的表达,就会给出“牛头不对马嘴”答复的情况。
此次阿里的参赛AI模型叫做ESIM,是一个解决多轮对话回复问题的原创模型,通过给对话机器人装上实时搜索并理解人类真实意图的“雷达”系统,实现对对话历史的实时检索,自动去除多余信息的干扰,给出人类期待的回复。
例如当人们线上购物时,提出要一件M号的黑色裙子,智能机器人通过对库存情况的实时检索,发现并答复用户没有黑色M号的裙子。用户接着问,“那有白色的吗?”此时传统模型训练出的AI客服很难判断用户是要问“这件裙子是否有白色款”还是“有没有白色的M号裙子”,无法给出准确回复。
阿里AI通过对用户对话上下文的检索,明确用户的核心在于尺寸而非颜色,很快给出有没有白色M号裙子的准确回复。
这项技术未来将会被应用到人机交互的多个场景:智能语音点餐机能够更准确地理解人们的真实意图,提高点单成功率;导航软件能更容易听懂人们的语音请求,少走冤枉路;家里的智能音箱能够更快做出反应,节省等待时间。
ESIM技术最初由达摩院语音实验室内的一位90后科学家——陈谦研发,不到两年,这一模型已经成为业界的热门模型和通用标准。此次DSTC7的国内外参赛队伍中就有6支队伍同样使用了基于ESIM的模型。