搜狗超越微软成CoQA新纪录保持者，阅读理解能力可媲美人类

2019-01-07 16:41:18 来源：网络整理

2019年1月3日，搜狗搜索人工智能研究团队在对话型机器阅读理解挑战赛CoQA（Conversational Question Answering Challenge）中全面刷新所有评价指标成绩，以总成绩82.8%夺得第一。

CoQA是面向建立对话式问答系统的大型数据集，挑战赛的目标是衡量机器对文本的理解能力，以及机器面向对话中出现的彼此相关的问题的回答能力的高低。与业界所熟知的机器阅读理解评测SQuAD相比，该挑战赛集中的问题不再是单轮的一问一答的形式，而是扩展到多轮的对话交互；SQuAD 中约一半都是what型，该挑战赛问题种类更多；SQuAD中没有共识推断，该挑战赛几乎每组对话都需要进行上下文理解推断；SQuAD中所有答案均可从原文本中提取，该挑战赛中这一比例仅为66.8%。2018年8月，CoQA挑战赛正式启动，吸引了众多国内外知名研究机构和高校，其中包括微软、艾伦研究院（AI2）、斯坦福大学、清华大学COAI实验室、北京大学、复旦大学、北京邮电大学、中国科技大学等。

图1：CoQA挑战赛最新成绩榜单（截至2019年1月3日）

1月3日，搜狗研究团队凭借BERT + Answer Verification(单一模型)，全面刷新CoQA所有评价指标，以总成绩82.8%进一步缩小机器与人类在该数据上的平均水平差距。据悉，搜狗的算法模型能综合考虑答案抽取和证据对答案的支撑作用，同时融入对话历史的问题和答案信息，极大提升了对当前问题的理解和回答的准确性。

搜狗超越微软成CoQA新纪录保持者，阅读理解能力可媲美人类

图2：CoQA阅读素材

搜狗超越微软成CoQA新纪录保持者，阅读理解能力可媲美人类

图3：CoQA问题与答案

让机器掌握阅读理解能力究竟意义何在？搜狗一直坚持探索以语言为核心的人工智能战略，相信搜索的未来是问答，而机器阅读理解是现今问答技术发展的核心之一。在AI技术的实用化方面，搜索走向问答将会在一些专业领域产生颠覆性的效果，如医疗、法律领域。

目前，搜狗已经将相关技术应用于产品及业务中。在医疗领域，搜狗明医智能自诊分诊功能，首创引入了基于人工智能技术的智能诊断助手，模拟医生与病人对话的模式与用户进行病情沟通。在法律领域，搜狗大律师的问答机器人具备逻辑分析和推理能力，在递进式问询过程中，挖掘判决书中的结构化数据，帮助用户理清已发生的事实，并在充分、准确理解用户法律诉求的基础上，给出可能的判决结果、法律建议或相似案例。

此次AI技术的突破，为搜狗更多AI技术的实用化奠定技术基础，也意味着搜狗在人工智能赛道上将继续保持其固有领先优势。

显示全文

搜狗超越微软成CoQA新纪录保持者，阅读理解能力可媲美人类

相关文章