Elasticsearch基础概念

2024-07-14 1856阅读

Elasticsearch 是一款开源的,ESTful风格的分布式搜索、存储、分析引擎;

常见的使用场景

网站搜索,代码搜索等
日志管理与分析,应用系统性能分析,安全指标监控等
数据库同步,将数据库某个表的数据同步到elasticsearch上然后提供搜索服务

ES基本概念

文档

我们向elasticsearch存储的一条数据,就是一个文档,类似于mysql 数据表中的一条数据.

每个文档都有一个id,可以自己指定,也可以让elasticsearch生成.

元数据

"_index" : "user",
"_id" : "l0D6UmwBn8Enzbv1XLz0",
"_score" : 1.6943597,
"_source" : {
    "user" : "mj",
    "sex" : "男",
    "age" : "18"
}

_index:文档所属的索引名称.
_id:文档的唯一标识.
_version:文档的版本信息.
_score:文档的相关性打分.
_source:文档的原始JSON内容.
索引

一个索引包含多个文档,类似于mysql中的table,可以对文档元数据进行定义.

索引体现的是一种逻辑空间的概念,每个索引都应该有自己的Mapping定义,用于定义包含文档的字段名和字段类型,索引的数据分布在分片上

集群
一个elasticsearch集群由多个节点构成，它的分布式架构支持存储水平扩容，并且依靠副本可用性也很高。

节点

一个节点就是一个elasticsearch实例，即一个java进程。节点根据功能可以划分多种角色，比如主节点、数据节点、协调节点、ingest节点等。默认一个节点这些角色都承担。

分片（shard）
- 主分片:用于解决数据的水平扩展问题,通过主分片就数据分布在集群内的不同节点上,主分片在创建索引的时候就指定了,后面就不允许修改,除非重新定义Index.
- 副本:用于解决高可用的问题,分片是主分片的拷贝.副本分片数可以动态的调整,增加副本数量可以在一定的程度上提高服务的可用性.
```
"settings" : {
    "index" : {
        // 设置主分片数
        "number_of_shards" : "1",
        "auto_expand_replicas" : "0-1",
        "provided_name" : "kibana_sample_data_logs",
        "creation_date" : "1564753951554",
        // 设置副本分片数
        "number_of_replicas" : "1",
        "uuid" : "VVMLRyw6TZeSfUvvLNYXEw",
        "version" : {
            "created" : "7010099"
        }
    }
}
```
  倒排索引
  Elasticsearch 使用一种称为倒排索引的结构，它适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。
  
  借助官网的例子:假设我们有两个文档，每个文档的 content 域包含如下内容:
```
1. The quick brown fox jumped over the lazy dog
2. Quick brown foxes leap over lazy dogs in summer
```
  为了创建倒排索引，我们首先将每个文档的 content 域拆分成单独的词（我们称它为词条或 tokens ），创建一个包含所有不重复词条的排序列表，然后列出每个词条出现在哪个文档。结果如下所示:
```
Term      Doc_1  Doc_2
-------------------------
Quick   |       |  X
The     |   X   |
brown   |   X   |  X
dog     |   X   |
dogs    |       |  X
fox     |   X   |
foxes   |       |  X
in      |       |  X
jumped  |   X   |
lazy    |   X   |  X
leap    |       |  X
over    |   X   |  X
quick   |   X   |
summer  |       |  X
the     |   X   |
------------------------
```
  分词器
  
  分词是将文本转化为一系列单词的过程。转化为单词后就可以形成倒排索引分词是由分词器实现的
  - Standard Analyzer:默认的分词器,按照词切分,并作大写转小写处理
  - Simple Analyzer:按照非字母切分（符号被过滤）,并作大写转小写处理
  - Stop Anayzer:停用词（the、is）切分,并作大写转小写处理
  - Whitespace Anayzer:空格切分,不做大写转小写处理
  - IK:中文分词器,需要插件安装
  - ICU:国际化的分词器,需要插件安装
  - jieba:时下流行的一个中文分词器
    Dynamic Mapping
    Mapping可以简单的理解为数据库中的Schema定义,用于定义索引中的字段的名称,定义字段的类型,字段的倒排索引,指定字段使用何种分词器等.Dynamic Mapping意思就是在我们创建文档的时候,如果索引不存在,就会自动的创建索引,同时自动的创建Mapping,ElasticSearch会自动的帮我们推算出字段的类型,当然,也会存在推算不准确的时候,就需要我们手动的设置.常用的字段类型如下:
    - 简单类型:Text、Date、Integer、Boolean等
    - 复杂类型:对象类型和嵌套类型.
      我们可以使用GET /shgx/_Mapping查询索引的Mapping的设置,需要注意的是以下几点:
      - 当我们对索引中的文档新增字段时候,希望可以更新索引的Mapping就可以可以设置Dynamic:true.
      - 对于已经有数据的字段,就不再允许修改其Mapping,因为Lucene生成的倒排索引后就不允许修改.
        Dynamic Mapping可以设置三个值,分别是:
        
        true:文档可被索引,新增字段也可被索引,Mapping也会被更新.
        false:文档可被索引,新增字段不能被索引,Mapping不会被更新.
        strict:新增字段写入,直接报错.
        * index:可以设置改字段是否需要被索引到.设置为false就不会生成倒排索引,节省啦磁盘开销 * null_value:可以控制NULL是否可以被索引 * cope_to:将字段值放在一个新的字段中,可以使用新的字段search,但这个字段不会出现在_source中. * anaylzer:指定字段的分词器 * search_anaylzer:指定索引使用的分词器 * index_options:控制倒排索引的生成结构,有四种情况 * docs:倒排索引只记录文档ID * freqs:记录文档ID和Term * positions:记录文档ID、Term和Term Position * offsets:记录文档ID、Term、Term Position和offsets * PS:Text类型的字段默认的是Position,其它类型默认的是docs,记录的越多,占用的存储空间就越大.

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

Elasticsearch基础概念

常见的使用场景

ES基本概念

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]