加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

“搜索”的原理,架构,实现,实践,面试不用再怕了(值得收藏)!!!

发布时间:2019-04-01 15:13:23 所属栏目:建站 来源:58沈剑
导读:可能99%的同学不做搜索引擎,但99%的同学一定实现过检索功能。搜索,检索,这里面到底包含哪些技术的东西,希望本文能够给大家一些启示。 全网搜索引擎架构与流程如何? 全网搜索引擎的宏观架构如上图,核心子系统主要分为三部分(粉色部分): (1)spider爬虫

当有查询请求发生时,会同时查询各个级别的索引,将结果合并,得到最新的数据:

  • 全量库是紧密存储的索引,无碎片,速度快;
  • 天库是紧密存储,速度快;
  • 小时库数据量小,速度也快;

分级索引能够保证实时性,那么,新的问题来了,小时库数据何时反映到天库中,天库中的数据何时反映到全量库中呢?

dump&merge,索引的导出与合并,由这两个异步的工具完成:

  • dumper:将在线的数据导出。
  • merger:将离线的数据合并到高一级别的索引中去。

小时库,一小时一次,合并到天库中去;

天库,一天一次,合并到全量库中去;

这样就保证了小时库和天库的数据量都不会特别大;

如果数据量和并发量更大,还能增加星期库,月库来缓冲。

简单小结一下:

超大数据量,超高并发量,实时搜索引擎的两个架构要点:

  • 索引分级;
  • dump&merge;

关于“搜索”与“检索”,GET到新技能了吗?

【本文为51CTO专栏作者“58沈剑”原创稿件,转载请联系原作者】

戳这里,看该作者更多好文

【编辑推荐】

  1. 究竟啥才是互联网架构“高可用”
  2. 下一代微服务!微博Service Mesh高可用架构实战
  3. 有赞基于ES的搜索系统架构是如何演进的?
  4. 新虚拟网络架构——Cable介绍
  5. 马蜂窝搜索基于Golang并发代理的一次架构升级
【责任编辑:赵宁宁 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读