实体搜索引擎
本条目属于网络搜索引擎系列 |
网络搜索引擎 |
元搜索引擎 |
国际性搜索引擎(多语言) |
Yahoo! Search |
Bing |
仅中文搜索引擎 |
百度 |
360搜索 |
搜狗 |
yam蕃薯藤 |
其他搜索引擎 |
DuckDuckGo |
Ecosia |
Exalead |
Naver |
Yandex |
Alexa Internet |
AOL |
Ask.com |
Qwant |
其他链接 |
实体搜索引擎(Physical search engine)或者称为线下搜索引擎(Off-line search engine),也称为物联网搜索引擎(IoT search engine),实体搜索是一种对应线下实体信息的检索系统,也是应用万维网进行搜索的机制, 搜索结果类似网络搜索引擎,以条列方式展示结果,亦称为搜索结果页 (Search engine results page,SERP) ,实体搜索引擎以搜索者指定的方位为中心显示结果,将其搜索得到的信息做距离排序,排序距离的规则由近到远,若信息是同一距离时,则会加入SEO与服务状态等因素做排序,这一点不同于网络搜索引擎仅以SEO排序,其显示的信息的链接同样可以链接至网页、影片、或其他开放的服务信息。搜索引擎的搜索资料技术,使用自动化信息汇整方式达成,一般做法以网络爬虫 (web crawler)运行算法得出信息。实体搜索引擎对应实体世界实现各类信息的搜索入口,搜索机制与互联网搜索引擎相似,各类线下服务只需提供Web页面,不需要额外制作线下搜索App (例如 Uber、 Lyft、Foodpanda, ...等Apps); 实体世界的服务与信息搜索, 不论是定点的信息, 或是移动的信息,经由关键字搜索便可达到实时搜索的目的。
发展历史
1990年Montreal大学学生发明了Archie,这是追溯网络搜索的最早发展概念,当时万维网还没有出现,他们整理了FTP站点上所有档的目录列表,创建了一个可对文件名称进行搜索的数据库,因此Archie被称为搜索引擎的始祖。
1993年Matthew Gray开发了Wanderer[1],Wanderer的技术是第一个Spider Robot,并在Web上搜索索引页面目录的技术,而后Jonathon Fletcher创建了JumpStation系统[2],它是世界上第一个具备 抓取、索引和搜索集于一体的搜索引擎,接着搜索引擎的另一个重大发展为网络爬虫(WebCrawler),1994年搜索引擎开始导入网站全文索引概念,它支持用户搜索任一网页中的任一个搜索词,而不是仅对网页标题进行索引。
1994年,Carnegie Mellon 大学Michael Mauldin[3]博士成立Lycos,开发以页面网址追踪的Robot技术,Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。接着, Netherlands软件工程师 Martijin Koster, 提出Robots Exclusion Standard[4]的 R E S概念,通过 robots.txt 抓取网址页面,网络信息自动化搜索自此得到完整的发展架构。
1995年12月AltaVista推出自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法(例如:AND、OR、NOT等)。同时期还有inktomi、HotBot等搜索引擎的竞争者。
1996年Larry Page和Sergey Brin[5],为了解决搜索结果的客观排序问题,建立一个大量链接的数据库,藉以找出每个网页的链接会通向什么网站, 因而决定网站以链接数量排名的“PageRank”机制。1998年10月,Google诞生,它成为了目前世界上最流行的搜索引擎。
1999年Auto-ID公司Kevin Ashton应用物品编码RFID技术,最早提出了“物联网”的概念,而后在2005年国际电信联盟(ITU)发布的报告中,将物联网的覆盖范围延伸拓展,目标在实现人类社会与物理系统的集成,物联网与物理系统开始有了对应概念。
2004年Glasgow大学提出最早的实体搜索引擎技术概念, 开发开源搜索引擎技术Terrier[6],利用RFID以及联网设备对应实体方位的做法, 实现实体对象的搜索方法, 并期望在2014年实现实体世界的搜索应用, 但最终此构想没有如期完成。Snoogle[7]以及St. Joseph Engineering College[8], 也有类似的架构提出实体搜索引擎技术。
2005年2月在Google博客上首次公布Google地图,它实现了云端信息对应线下实体信息的搜索的系统。Google地图的服务信息没有应用网络爬虫进行云端信息集成,其信息来源为Open data,以及用户自行上架的资料,它虽然不是典型的搜索引擎,但其应用则开启线下信息搜索的开端。Google地图目前在全球多国开通了“街景”(Street View)服务,用户可以通过由Google金龟车在街道上拍到的影像查看街景。2011年10月7日,Google地图新增了3D鸟瞰功能。
2008年Apple发展并建立AppStore服务机制,行动服务市场的开始爆发,智能手机以App做为核心的应用,引爆了移动“互联网”概念,并开启了“物联网”时代,服务类型开始着重在用户与实体信息关系,早期的车队的管理架构,应用App开始走向开放服务市场,发展至今线下普遍以App做为线下搜索应用例如,Uber、Lyft、Foodpanda等。
2011年7月浙江大学[9]提出以URL结合定点方位, 对应实体对象的Web信息, 实现实体搜索引擎方法与架构, 以及2011年12月InTimeGo[10]提出Web信息结合定点与移动方位的方法,开启物联网(IoT)与 Web 融合的概念,这个使用情境称之为 Web of Things (WoT)。Web世界的URL可以说是链接的基础,每个对象都可利用特定URL来对应其特有信息与方位,WoT 概念之所以重要,在于开始有了 Web 实体化的应用概念, 过去 Web 只是物品云端上的信息,WoT 让Web信息开始对应到真正的实体方位。2016年Google应用此概念, 发表类似iBeacon读取近端实体信息的方法, 命名为“The Physical Web”项目, Google对于“The Physical Web”发展构想, 希望进而实现近端实体搜索的机制[11]。
2011年10月武汉大学首先发表实体搜索爬虫和信息抽取研究方法[12],开启了自动化信息汇整的实体搜索引擎创新思维, 但网络爬虫汇整的实体信息,除了实体位置还包含各类服务的状态信息, 如何制定涵盖广泛的服务应用规范与定义, 最终为实体搜索引擎的信息集成能力的指针, 对此微软公司[13]以及中国大陆的电子科技大学[14]、东南大学[15]等, 也陆续提出相关的应用规范与定义。
2014年11月Amazon Alexa与Amazon智能音箱Echo一同发布。其概念源自于Apple的语音应用, 借由Siri语音呼求,为实现线下服务搜索集成入口,并达到物联网设备互联的机制,Amazon Alexa提供一种与App应用服务串接的方法,名为 Alexa Skills Kit (ASK) 的开发包,它是一种开放式的串接接口,实际上是把物联网相关业者的服务汇整在一起,利用语音呼求的方式,达成本地化的服务搜索机制,不过这样的服务串接方案所费不赀,Amazon推出1亿美元的Alexa Fund,以鼓励开发者参与Alexa语音技能的开发,Amazon从创新性、消费者关系度、与 ASK 的关系度等角度衡量开发者项目,一旦通过就会提供一笔资金反馈业者。Amazon Alexa虽然并非典型的搜索引擎,但对于线下移动服务搜索方式,则为第一个实现线下服务搜索集成入口的架构,其后Google、Microsoft、百度、阿里巴巴、腾讯、京东等后进者,也纷纷推出类似架构的线下服务搜索集成入口。
2017年9月创新工场李开复首先发表了一个新的商业模型: OMO(Online-Merge-Offline)在线线下虚实融合模式[16],OMO 是O2O营销模式的巨大演进,且预测在10年内完成在线线下一体化,汽车、商店、商场、诊所和学校等现实世界的场景和行为即时资料化,自此,资料世界和实体世界将完全集成,在线线下的界限消失,将让互联网对实体行业的渗透率提升至100%。李开复认为,未来OMO的新商业浪潮将推动,未来发展在线线下融合的新零售、实体世界的资料化以及实体搜索等领域,再加上AI技术的辅助,将会缔造巨大的蓝海商机与愿景[17]。OMO驱动潮流之下, 互联网下一个焦点将朝向新零售服务、线下服务搜索以及线下大数据发展,也为实体搜索入口的发展铺陈一个全新愿景。
2019年8月大千搜索提出定点或移动位置数据的集成规范[18],发布首个自动化信息汇整的实体搜索引擎[19],其构想的方法源于大千搜索创办人黄柏尧,首先定义“互联网”与“物联网”服务模型之差异[20],以厘清“互联网”与“物联网”相互之间的混淆概念,应用其“物联网服务模型”集成实体各类服务信息与方位,延伸云端搜索引擎的技术运作机制,以Web信息结合Location成为Location Web,实现服务信息的OMO (Online-Merge-Offline)虚实融合效益,并借由网络爬虫自动汇整线下的人/车/物信息,成就一站式的线下信息搜索入口。
2019年10月Gabriel Rene提出“The Spatial Web”概念[21],Spatial Web是一种场域空间虚实融合的技术,每个场域空间可以独立建构应用,如果要构成实体世界的连续性视角,将面临不同场域空间的衔接问题,不过基于Web3.0驱动Spatial Web开放系统, 可以为未来场景统合与衔接的发展铺路。对于实体搜索引擎应用发展而言,应用Location Web概念,可以解决不同应用服务领域信息统合问题,而Spatial Web可以将Location Web的信息呈现方式, 扩展成为对应三维空间的形相与方位。
2020年物联网领域知名顾问公司SRI Consulting描绘之物联网技术路线,综合物联网发展的类型与目标, 归纳物联网依据时间轴发展, 可分为四个阶段分别为:供应链辅助、垂直市场应用、无所不在的寻址(Ubiquitous positioning),最后可以达到“The Physical Web”,意即让物联网上的每一个智能设备都以URL来标示[22],呼应实体世界的每个对象都可利用特定URL来对应其特有信息与方位,据此发展趋势,实体搜索引擎将更易于获取实体信息。
技术与服务差异
搜索引擎之服务功能差异
实体搜索引擎承袭了网络搜索引擎的主要技术架构, 但为了区别搜索引擎服务功能的世代差异, 以下将之分别称为“互联网”搜索引擎与“物联网”搜索引擎。 “互联网”与“物联网”的差异在于,互联网仅将信息引导至在线,物联网则是将信息达成线下在线融合,物联网其实就是线下在线虚实融合的发展趋势, 这也相应于创新工场李开复先生所提的OMO (Online-Merge-Offline)服务模式 。物联网与实体世界服务类型其实完全一致, 物联网的发展目标, 则是在在线创造一个对应线下实体的世界, 目的在解决人类因地域的信息限制, 可以借由线下实体搜索与大数据服务, 提升周遭信息的服务性能, 藉以创造更加“直接”“即时”“便利”的生活方式。
实体搜索引擎具备之特点
线下在线虚实融合的搜索应用, 目前有了Google 地图, 为何还是需要发展物联网搜索引擎呢? 其实这个症结在于Google地图并非搜索引擎, 最终发展的潜力将不及搜索引擎 , 如同2000年以前Yellow Page与搜索引擎的竞争, 最终Yellow Page资料总量不敌搜索引擎的量级而退场。搜索引擎可以创造资料总量的优势, 至少需具备以下三个特点:
- 搜索引擎资料来自不同的系统: 资料来自不同的系统, 也就是来自不同的服务器, 如此可以跨应用跨服务集成, 也进而达成搜索线下万物的搜索入口 , 届时也不需要额外制作线下搜索App, 例如 Uber, Foodpanda这类App, 可以直接经由物联网搜索引擎, 便可搜索线下所有服务。
- Spider Robot信息收集机制: 创建Robot机制的目的在于, 自动汇集全球信息 ,比起资料来源于自家建立, 或者自家会员提案, 拥有更为巨大的量级潜力。
- 优异准确率的搜索能力: 搜索产出的结果关系于Ranking演算技术, “互联网”与“物联网”有其差异, 所以相互间无法直接套用, “物联网”需要考量服务距离, 服务状态等因素, 加入索引与排序的演算机制, 需要重新优化之后, 才能实现满意的搜索结果。
而Google 地图搜索方式, 依据标题与分类的关键字等因素得出结果, 搜索演算尚属直觉简单, 估计仍在发展阶段, 然而最关键的因素在于, Google 地图没有符合前两个特点的任一项 , 如同Yellow Page搜索机制, 最终将成为物联网时代的过渡性搜索应用。
Web发展的必要性
综观现阶段线下实体搜索方式,普遍以App做为线下搜索应用 (例如,Uber、Foodpanda等) ,事实上App应用架构难以实现跨应用跨服务的集成入口。移动设备发展初期,因为硬件性能不足的因素,App相比于Web拥有较佳的性能表现,所以PC或移动设备发展初期, 都是优先发展App应用, 回顾PC的发展史,一开始便先发展App应用, 然后慢慢过渡到Web应用,例如过往在PC玩游戏, 或查阅字典, 过往都需要安装App,现在的PC已甚少安装App的面向来看,移动设备应不难推测将历经相同的发展过程。目前主流App设计采用的是资料串接方式,实际上这是一种封闭架构,难以如同开放性的Web具备跨应用跨服务的信息集成特性,加之客户端实际上安装App数目有限,大部分Apps在客户端没有市场,根据Adjust近年App应用的统计数据得知,前十排名的App便占据八成五以上流量,并且高达九成以上的僵尸App [23],这已形成非常严重的软件资源浪费,App应用架构若没有相应方案改善, 不仅不利于发展信息共享的任何服务,也不利于发展跨应用的线下服务集成入口,故驱使W3C (World Wide Web Consortium)开始着眼定义物联网 (Internet of Things)前瞻的应用规范,以Web 或Web of Things [24] (WoT)方式推动线下服务应用。
参考资料
- ^ 1993-06, Matthew Gray Develops the World Wide Web Wanderer.. [2021-02-22]. (原始内容存档于2020-08-07).
- ^ 2013-09-03, Jonathon Fletcher: forgotten father of the search engine. [2021-02-22]. (原始内容存档于2021-02-28).
- ^ 2021-02-21, Lycos founder Mauldin returns to company after 17 years. [2021-02-22]. (原始内容存档于2018-03-03).
- ^ 2013-12-15, What is the Robots Exclusion Standard?. [2021-02-22]. (原始内容存档于2020-10-01).
- ^ 2019-06, Larry Page and Sergey Brin
- ^ 2012-06-14, Search Engine Queries Physical World In Real Time. [2021-03-06]. (原始内容存档于2021-01-19).
- ^ 2004-12, Snoogle: A Search Engine for the Physical World
- ^ 2017-06, Search Buddy: A Search Engine for Physical Objects. [2021-03-06]. (原始内容存档于2019-10-02).
- ^ 2011-07, What-you-retrieve-is-what-you-see: a preliminary cyber-physical search engine (PDF). [2021-03-23]. (原始内容存档 (PDF)于2020-01-25).
- ^ 2011-12-21, 物件搜尋服務引擎及移動資訊管理系統架構 (PDF). [2021-03-23]. (原始内容存档 (PDF)于2021-01-09).
- ^ 2016-02-19, With The Physical Web, You Become The Search Engine. [2021-03-23]. (原始内容存档于2021-01-27).
- ^ 2011-10, 实体搜索爬虫和信息抽取研究方法[失效链接]
- ^ 2012-12, 基于实体的搜索和解析
- ^ 2014-10, 基于Web的实体信息提取和搜索研究[失效链接]
- ^ 2015-01, 一个面向语义 Web的实体探索系统
- ^ 2017-12-12, 李开复畅谈OMO时代的出行
- ^ 2017-11-30, BAT之后下一个超级公司会从OMO领域中产生
- ^ 2019-12-09, 线下服务应用与HTML规范发展[失效链接]
- ^ 2019-11-20, 線上線下萬物聯網 「大千搜尋」首創實體搜尋引擎服務. [2021-02-22]. (原始内容存档于2021-01-08).
- ^ 2020-04-21, 解析物聯網的真實商機與發展方向. [2021-04-10]. (原始内容存档于2021-01-09).
- ^ 2020-10-02, An Introduction to The Spatial Web. [2021-04-12]. (原始内容存档于2021-07-05).
- ^ 2020-08-13, APPENDIX F: THE INTERNET OF THINGS (BACKGROUND). [2021-04-10]. (原始内容存档于2021-04-10).
- ^ 2016-09-05, Statista: 90% Of All iOS Apps Are Zombies. [2021-02-22]. (原始内容存档于2021-01-09).
- ^ 2021-02, WEB OF THINGS AT W3C. [2021-02-22]. (原始内容存档于2021-03-09).