搜狗超越微软成CoQA新纪录保持者,阅读理解能力可媲美人类
2019年1月3日,搜狗搜索人工智能研究团队在对话型机器阅读理解挑战赛CoQA(Conversational Question Answering Challenge)中全面刷新所有评价指标成绩,以总成绩82.8%夺得第一。
CoQA是面向建立对话式问答系统的大型数据集,挑战赛的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低。与业界所熟知的机器阅读理解评测SQuAD相比,该挑战赛集中的问题不再是单轮的一问一答的形式,而是扩展到多轮的对话交互;SQuAD 中约一半都是what型,该挑战赛问题种类更多;SQuAD中没有共识推断,该挑战赛几乎每组对话都需要进行上下文理解推断;SQuAD中所有答案均可从原文本中提取,该挑战赛中这一比例仅为66.8%。2018年8月,CoQA挑战赛正式启动,吸引了众多国内外知名研究机构和高校,其中包括微软、艾伦研究院(AI2)、斯坦福大学、清华大学COAI实验室、北京大学、复旦大学、北京邮电大学、中国科技大学等。

图1:CoQA挑战赛最新成绩榜单(截至2019年1月3日)
1月3日,搜狗研究团队凭借BERT + Answer Verification(单一模型),全面刷新CoQA所有评价指标,以总成绩82.8%进一步缩小机器与人类在该数据上的平均水平差距。据悉,搜狗的算法模型能综合考虑答案抽取和证据对答案的支撑作用,同时融入对话历史的问题和答案信息,极大提升了对当前问题的理解和回答的准确性。

图2:CoQA阅读素材

图3:CoQA问题与答案
让机器掌握阅读理解能力究竟意义何在?搜狗一直坚持探索以语言为核心的人工智能战略,相信搜索的未来是问答,而机器阅读理解是现今问答技术发展的核心之一。在AI技术的实用化方面,搜索走向问答将会在一些专业领域产生颠覆性的效果,如医疗、法律领域。
目前,搜狗已经将相关技术应用于产品及业务中。在医疗领域,搜狗明医智能自诊分诊功能,首创引入了基于人工智能技术的智能诊断助手,模拟医生与病人对话的模式与用户进行病情沟通。在法律领域,搜狗大律师的问答机器人具备逻辑分析和推理能力,在递进式问询过程中,挖掘判决书中的结构化数据,帮助用户理清已发生的事实,并在充分、准确理解用户法律诉求的基础上,给出可能的判决结果、法律建议或相似案例。
此次AI技术的突破,为搜狗更多AI技术的实用化奠定技术基础,也意味着搜狗在人工智能赛道上将继续保持其固有领先优势。
相关文章
-
【虎嗅早报】小米成立中国区线下业务委员会,张剑慧任主席
-
营销观察|猫爪杯之后,“不务正业”的星巴克又开始吆喝玩具熊了
-
新华社又做了个“别人家的H5”,这次刷屏靠的是AI技术
-
【钛晨报】金山云正式登陆纳斯达克,首日交易收涨40%;苹果计划将400万部AirPods转至越南生产;李小加后,港交所IPO联席主管史琳宣布“个人原因”离任
-
中国移动近营收下滑 流量套餐竞争激烈前三季度营收降0.3%
-
终于!年度账单又来了!网友:看完emo了
-
豪掷30亿,支付宝能“买”来刷脸支付的未来吗?
-
“现场求偶高质量女主播”人类高质量男性官宣首播,女粉狂喊老公
-
文章代写标题和内容的基本要求-墨彦
-
产品经理周报第90期|百度上线匿名社交“听筒”;字节跳动上线借贷App“满分”
-
亚马逊的权力,比我们想象的更大
-
3dfxVoodoo唯一对手!诞生26年的PowerVR1古董显卡开源驱动
-
我的智能手表怎么充不进去电了
-
ipad应用商店无法连接怎么办
-
网信办就《数据安全管理办法》向社会公开征求意见
-
特斯拉将ModelY的起售价下调3000美元
-
AR创企MagicLeap考虑出售,交易额可达100亿美元。
-
OA系统设计(2):表单
-
鞋服行业智能物流迎来新变局,极智嘉RS5货箱机器人完成大规模落地
-
暗网到底是什么?是谁创造了它?里面又有些什么不为人知的交易?
-
亚马逊AWS官网惊现中国合作伙伴,CDN和云计算厂商又入蜜月期
-
【周鸿祎:网络安全人才缺口大,未来行业挑战会加剧】
-
苹果宣布:启动Mac和iOS通用购买功能
-
一个iOS的Bug值多少钱?大概是25000美元起
-
Gartner报告:阿里云容器产品布局全球第一
-
奏响网信事业最强音
-
对话任正非:信息安全问题不能靠技术手段解决,要靠法律
-
最前线丨“再造下一个大众点评”的抖音,这次发起了5折餐饮券
-
这些年,Meta关闭的“创新App们”