业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?
AI 科技评论按:搜索技术从一开始的桌面文件搜索、互联网搜索,发展至今日流行的程序内部搜索(In-app search),先后攻克了不同的技术难点,面对如今来势汹汹的 AI 时代,搜索技术又该何去何从呢?
作为 2018TOP100Summit 案例分享嘉宾之一,Dropbox 技术主管叶旭刚将在本文中分享搜索技术的发展的来龙去脉,以及当下该领域所面临的机会与挑战。
叶旭刚,机器学习和数据科学领域资深专业人士。现任美国云服务科技公司 Dropbox 的搜索团队的技术主管, 负责开发新一代的云工作空间的智能搜索推荐引擎。曾在美国最大房地产搜索引擎 Zillow 任主任应用科学家, 从事房地产垂直领域的搜索以及自然语言理解的研发。曾在美国苹果公司任主任数据科学家, 从事客服搜索的研发。并曾在美国微软公司任高级应用科学家, 从事网页搜索、地区搜索、企业搜索的研发。拥有约翰霍普金斯大学应用数学及统计博士, 并曾在美国国立健康研究所从事生物信息统计博士后研究。曾获约翰霍普金斯大学博士全额研究奖, 美国国立健康研究所优秀人才奖, 海军研究部研究专款等。曾在运筹统计、生物信息、大数据及机器学习方面的期刊及会议发表多篇第一作者文章。在顶级会议 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做过报告。
搜索技术的「前生今世」
搜索领域的发展最早可追溯至微软操作系统的基础检索功能——桌面文件搜索系统(index),后来随着互联网的普及,用户搜索范围不再局限于单机系统,才诞生了互联网搜索系统。
雅虎是最早投入互联网搜索系统开发的公司,然而一直未能从门户网站的商业逻辑中跳脱出来,导致错过了搜索引擎作为新型商业模式的风口,因而被同期的小公司赶超。这种新型商业模式后来被谷歌发扬光大,逐渐发展成今日的体量。
谷歌时代最重要的技术里程碑,是强调了网页的重要性。谷歌为此进行了大量的互联网资源整合工作,只要出现一个站点/网页,谷歌都会统一进行 Index 标注,日积月累下成就了庞大的 Index 系统。Index 系统有效解决了雅虎时代遗留下的问题,使用户的查询输入同时映射至多个结果,并根据重要性对搜索结果进行排序,从而保证呈现在用户面前的都是最优的搜索结果。
为此,谷歌需要付出高昂的基础设施维护代价。据了解,单 2016 年,谷歌系统便已累积多达 10 万亿个网页 index 标注,耗费存储空间高达 100 PB(1 PB = 1024 TB)。
最近这几年,谷歌的搜索模型逐渐从静态封闭向开放动态发展,从单纯的「搜索-返回」变为通过各种途径揣测用户意图的智能化搜索服务。换句话说,谷歌系统时刻关注着用户的搜索反馈,这些信息将被完整记录下来,然后经过整理后更新至模型里头,最后通过对比检验模型的搜索效果。
「小而精」的 In-app search 时代
这一阶段搜索技术在的特点是: Index 体量变得越来越大,Index 种类变得越来越丰富,同一时间模型理解用户意图(语境)的能力也在不断地提高。
与此同时,搜索技术也迎来了新挑战:
- 互联网资源底层结构变得多元化,用户的搜索输入不再局限于文字,当中还包括图像、语音、视频等。
- 一旦资源库的体量超出系统可负荷的临界点,后期可能导致资源管理上的问题。
对应的解决方案,是如雨后春笋般冒出的垂直领域搜索引擎。
跟过去不同的是,这些平台未必在一开始就提供检索服务,而是在商业模式取得巨大成功后,沉淀的用户反哺为平台带来了大量内容,当内容丰富到一定程度时,自然而然形成了特定领域的搜索引擎,业界将之称作In-app search——用户先登陆某个具体 app 再进行特定领域搜索的行为。
当中最具有代表性的 In-app search 平台是 Facebook,Facebook 在社交领域的积淀,使其在做社交搜索方面有着得天独厚的优势。有人曾经断言,In-app search 极有可能在未来取代谷歌、Bing 等一般性搜索成为主流搜索工具。
此外,随着「机器人时代」的来临,搜索趋势也将从单一输入理解变成互动式交流,由文字过渡至语音、图像乃至视频。为了更好地理解用户的搜索意图,这些机器人将拥有强大的自然语言理解能力,可以根据用户的搜索需求将之导引至某个专属领域 app。
目前看来,拥有庞大的开发者生态以及企业基础数据的苹果 app store 和 AWS 云平台,极有可能超越谷歌,成为 In-app search 时代的弄潮儿。
搜索领域现阶段面临的难点——「内容理解」
无论是一般性检索还是垂直领域检索,在「机器人时代」都不可避免地要面临「内容理解」的难题。
为了让搜索引擎很好地理解人类意图,我们必须保证引擎底层的知识结构和人类的知识结构保持一致,自然语言理解在这过程中便扮演了重要的角色。换句话说,自然语言理解是搜索引擎的索引和用户输入之间的桥梁,一旦缺少这个桥梁,我们的检索技术相当于倒退至几十年前,基本没有进步。
然而「内容理解」面对的内容不仅仅是常见的网页,还包括了其他的文本结构如工作文档(可进一步细分为 word 文档、pdf 文档等)、图像、视频等,这就超出了自然语言理解的范畴,必须依赖诸如卷积神经网络、运动监测、物体检测等一系列特定技术才能解决信息提取问题。这也推动了目前深度学习领域较热门的 embedding 工作,试图将字面上的 token 映射至数字空间上。只有将不同文本结构的信息提取出来,我们才能将对象映射至文本空间上,接着通过文本技术来解决搜索的问题。
总的来说,「内容理解」的目的是要让搜索引擎找到一种近似人脑对自然观察理解的方式,然而这块目前还处于比较初级的阶段,目前引擎的信息提取效果大约等同于几岁小孩,有的时候甚至还不如一只动物。
这是搜索技术的发展当下所面临的瓶颈,需要更多的业界人士参与进来一起努力攻克。
附:叶旭刚老师的 TOP100Summit 案例分享详情
由 msup 主办的技术界一年一度的 TOP100Summit 上,叶旭刚老师将与大家分享他在房地产搜索领域关于自动补全与自动建议技术的建模实现(内容链接页:http://www.top100summit.com/think/13504)。作为搜索的辅助手段,智能的自动补全和自动建议可以帮助用户快速表达搜索意图,同时避免查询词重复进入深层 index 造成系统延迟。
为了实现这一目的,需要构建一套该垂直领域的知识图谱、词汇表、字典树数据结构,以及相关性概率的数学模型。叶旭刚老师将在报告中采用基于贝叶斯原则和条件独立及非条件独立的简化假设把相关性概率分解成区域化和个性化两个部分。在具体实现时采用两阶段贪婪排序。也就是先用区域化的相关性概率来找到一个搜索结果列,再对这个列计算个性化打分从新排序。此外,叶旭刚老师还会在报告中介绍评价系统表现的模型,以及对应的评价指标。
通过本次分享,学员可以了解自动补全和自动建议的一个全貌和具体在一个垂直领域是如何建模、设计和实现的。学员可以把该模型和技术移植到他们自己的搜索领域。比如说常见的场景是开发商品搜索或专业知识搜索的移动应用。
如果你对叶旭刚老师的主题分享感兴趣,也想通过活动了解更多其他领域的技术创新/研发管理实践,欢迎大家通过活动页面购买会议门票:http://www.top100summit.com/apply,会议提供各种购票组合,大家可以实际需进行购买。
相关文章
-
互联网“黑话”发展史
-
知乎2019新知青年大会:全面升级用户权益机制
-
【虎嗅早报】暴风集团遭立案调查;滴滴上海已领超千万元罚单
-
爱奇艺Q1财报解读:营收超预期会员单季增长1200万
-
当网红们开始尝试内容付费,这对品牌来说意味着什么?
-
氪星晚报|贾跃亭正式申请个人破产重组;乐视预计前三季度亏损近102亿;腾讯体育恢复NBA直播
-
小米年会雷军C位献舞:造型满分 节奏慢半拍
-
为何要进行多轮核酸检测?
-
网信办重拳出击半个月后,那些大厂的App们都改成啥了?
-
【王牌决策情报&2021年8月10星期二】
-
小米国外又开新店“性价比”深得外国人人心
-
LGDisplay将向韩国OLED面板生产线投资约26亿美元
-
王一博全新代言上线,却因名字引关注,网友:不好意思看错了!
-
创投观察|无品牌不等于低质量,DTC模式才是出口电商的未来
-
小米之家西安旗舰店即将开业:全国最大
-
热点|任正非:华为手机今年预计出货2.7亿台
-
春节年货包裹“次日达”,背后是这群人的坚守和付出
-
对标 R3、放眼 Linux?联盟链战场充斥国际巨头,国产平台的破口在哪里?
-
Windows11全新黑暗主题效果展示深蓝幽暗画风超赞
-
情人节变“情人劫”,这款APP让无数情侣上当受骗!
-
微信视频号被曝改版,设立影视专区鼓励二创短视频
-
“5G制造新冠病毒”阴谋论是怎么来的?
-
苹果、三星、华为们进场,睡眠产业的百家争鸣
-
市值蒸发700亿美元,谷歌母公司一季度利润率降至18%
-
彭博社:苹果电视服务的内容主要来自合作伙伴
-
谷歌对安卓收费,2019年国产手机会涨价吗?
-
百度也能直播带货!12小时——“慢行”才能持久
-
6000首歌没了!8090后“青春”集体下架,KTV 今成中老年“专场”
-
年轻人的第一套出租屋?小米新公司成立:经营房屋租赁业务