Elastisearch的实现原理是什么?主要应用场景是什么?

白色黑墙


ElasticSearch(业界常称为ES)是一个全文搜索引擎,其特点为分布式,易扩展,实时文件存储与提取!

ES的底层使用Apache鼎鼎大名的Lucence开源框架实现,严格来说lucence只属于一个工具包,提供了简单的接口用于实现全文检索!

lucence有什么用呢?

想想我们使用天猫购物的时候,假设输入一个床,整个页面能显示木板床,水床,甚至有床垫,床单等购物信息出现,就是因为所有这些与床有关的信息录入时,以“床”这个词作为分词,建立索引,从而能得到各种与床有关的店铺,商品等等!


如果用mysql,怎么实现呢,一大段商品信息描述,使用like'%床%'来查询,本来就不走索引,字段还很大,别说亿级别的数据了,几百万就能把一台mysql服务器搞死!

那么ES怎么做的呢?跟mysql的查找方式相反,mysql是从文档中提取关键字,而使用ES可以先提取出关键字(使用特定的分词器),然后关键字出现的位置,建立倒排索引,明确的记录关键词所在的位置,举例截图如下:


图中的箭头所示的一列数据叫做Posting List,就是存放关键字对应的位置;这样在查询羽毛球的时候,能迅速返回证件号1的数据,查年龄20的时候,能迅速返回证件号2,3对应的数据;

图中的Term就是Term Dictionary(字典),ES对字段Term Dictionary进行了排序,然后使用二分法查找数据,查找到的效率为O(logN),为了避免磁盘IO的低性能,ES可以把字典放在了内存中来提升查询性能,那么问题来了,如果是亿万级的数据,年龄还好,但是爱好可能也是亿万级别的量,这时候内存可能就要爆了,于是就有了Term Index,就是将Term Dictionary再进行一次索引,比如说羽毛球这个词,建立一个索引树,使用羽字就可以定位到羽字开头的所有Term Dictionary,然后在使用二分法查找到需要的关键词,这样就可以只把Term Index放入内存,从而提升整个ES系统的处理能力;


上面就是ES大概的原理,当然远不止于此,作为大数据领域中文档处理的佼佼者,ES大量使用在日志记录与分析,全文检索,数据统计等等情景中!

以上是ES简单的原理说明,对于分词器选择,字典树压缩,如何使用等更多的东西没有描述,以后找机会会详细分享一次,请关注。。。


哎哟JAVA不错哦


Elastic主要用于快速储存、搜索和分析海量的数据。它的底层是基于开源库Lucene。

Elastic是面向文档型数据库,一条数据就是一个文档。在插入数据的时候,elastic就默默的为插入这些字段都建立的索引--倒排索引。而倒排索引是比mysql的B+树索引更快的索引。

而且如果多个字段联合查询就利用跳表快速做与运算或者bitset按位与。

主要应用场景 站内搜索,日志数据分析,BI系统等。


yes的练级攻略


es实现原理就是利用了Lucence框架实现索引,支持分布式部署,性能非常高。现在用的比较广泛,如:网站的全文搜索,数据的统计分析等。

如果项目需要选型,推荐使用es


分享到:


相關文章: