一文搞懂 Elasticsearch 之 Mapping

這篇文章主要介紹 Mapping、Dynamic Mapping 以及 ElasticSearch 是如何自動判斷字段的類型,同時介紹 Mapping 的相關參數設置。

首先來看下什麼是 Mapping:

什麼是 Mapping?

一篇文章帶你搞定 ElasticSearch 術語中,我們講到了 Mapping 類似於數據庫中的表結構定義 schema,它有以下幾個作用:

  • 定義索引中的字段的名稱
  • 定義字段的數據類型,比如字符串、數字、布爾
  • 字段,倒排索引的相關配置,比如設置某個字段為不被索引、記錄 position 等

在 ES 早期版本,一個索引下是可以有多個 Type 的,從 7.0 開始,一個索引只有一個 Type,也可以說一個 Type 有一個 Mapping 定義。

在瞭解了什麼是 Mapping 之後,接下來對 Mapping 的設置做下介紹:

Mapping 設置

<code>PUT users
{
	"mappings": {
		"_doc": {
			"dynamic": false
		}
	}
}
/<code>

在創建一個索引的時候,可以對 dynamic 進行設置,可以設成 false、true 或者 strict。

一文搞懂 Elasticsearch 之 Mapping

Dynamic Mappings 設置

比如一個新的文檔,這個文檔包含一個字段,當 Dynamic 設置為 true 時,這個文檔可以被索引進 ES,這個字段也可以被索引,也就是這個字段可以被搜索,Mapping 也同時被更新;當 dynamic 被設置為 false 時候,存在新增字段的數據寫入,該數據可以被索引,但是新增字段被丟棄;當設置成 strict 模式時候,數據寫入直接出錯。

另外還有 index 參數,用來控制當前字段是否被索引,默認為 true,如果設為 false,則該字段不可被搜索。

參數 index_options 用於控制倒排索引記錄的內容,有如下 4 種配置:

  • doc:只記錄 doc id
  • freqs:記錄 doc id 和 term frequencies
  • positions:記錄 doc id、term frequencies 和 term position
  • offsets:記錄 doc id、term frequencies、term position 和 character offects

另外,text 類型默認配置為 positions,其他類型默認為 doc,記錄內容越多,佔用存儲空間越大。

null_value 主要是當字段遇到 null 值時的處理策略,默認為 NULL,即空值,此時 ES 會默認忽略該值,可以通過設定該值設定字段的默認值,另外只有 KeyWord 類型支持設定 null_value。

copy_to 作用是將該字段的值複製到目標字段,實現類似 _all 的作用,它不會出現在 _source 中,只用來搜索。

除了上述介紹的參數,還有許多參數,大家感興趣的可以在官方文檔中進行查看。

在學習了 Mapping 的設置之後,讓我們來看下字段的數據類型有哪些吧!

字段數據類型

ES 字段類型類似於 MySQL 中的字段類型,ES 字段類型主要有:核心類型、複雜類型、地理類型以及特殊類型,具體的數據類型如下圖所示:

一文搞懂 Elasticsearch 之 Mapping

字段數據類型

核心類型

從圖中可以看出核心類型可以劃分為字符串類型、數字類型、日期類型、布爾類型、基於 BASE64 的二進制類型、範圍類型。

字符串類型

其中,在 ES 7.x 有兩種字符串類型:text 和 keyword,在 ES 5.x 之後 string 類型已經不再支持了。

text 類型適用於需要被全文檢索的字段,例如新聞正文、郵件內容等比較長的文字,text 類型會被 Lucene 分詞器(Analyzer)處理為一個個詞項,並使用 Lucene 倒排索引存儲,text 字段不能被用於排序,如果需要使用該類型的字段只需要在定義映射時指定 JSON 中對應字段的 type 為 text。

keyword 適合簡短、結構化字符串,例如主機名、姓名、商品名稱等,可以用於過濾、排序、聚合檢索,也可以用於精確查詢

數字類型

數字類型分為 long、integer、short、byte、double、float、half_float、scaled_float。

數字類型的字段在滿足需求的前提下應當儘量選擇範圍較小的數據類型,字段長度越短,搜索效率越高,對於浮點數,可以優先考慮使用 scaled_float 類型,該類型可以通過縮放因子來精確浮點數,例如 12.34 可以轉換為 1234 來存儲。

日期類型

在 ES 中日期可以為以下形式:

  • 格式化的日期字符串,例如 2020-03-17 00:00、2020/03/17
  • 時間戳(和 1970-01-01 00:00:00 UTC 的差值),單位毫秒或者秒

即使是格式化的日期字符串,ES 底層依然採用的是時間戳的形式存儲。

布爾類型

JSON 文檔中同樣存在布爾類型,不過 JSON 字符串類型也可以被 ES 轉換為布爾類型存儲,前提是字符串的取值為 true 或者 false,布爾類型常用於檢索中的過濾條件。

二進制類型

二進制類型 binary 接受 BASE64 編碼的字符串,默認 store 屬性為 false,並且不可以被搜索。

範圍類型

範圍類型可以用來表達一個數據的區間,可以分為5種:integer_range、float_range、long_range、double_range 以及 date_range。

複雜類型

複合類型主要有對象類型(object)和嵌套類型(nested):

對象類型

JSON 字符串允許嵌套對象,一個文檔可以嵌套多個、多層對象。可以通過對象類型來存儲二級文檔,不過由於 Lucene 並沒有內部對象的概念,ES 會將原 JSON 文檔扁平化,例如文檔:

<code>{
	"name": {
		"first": "wu",
		"last": "px"
	}
}
/<code>

實際上 ES 會將其轉換為以下格式,並通過 Lucene 存儲,即使 name 是 object 類型:

<code>{
	"name.first": "wu",
	"name.last": "px"
}
/<code>

嵌套類型

嵌套類型可以看成是一個特殊的對象類型,可以讓對象數組獨立檢索,例如文檔:

<code>{
  "group": "users",
  "username": [
	{ "first": "wu", "last": "px"},
	{ "first": "hu", "last": "xy"},
	{ "first": "wu", "last": "mx"}
  ]
}
/<code>

username 字段是一個 JSON 數組,並且每個數組對象都是一個 JSON 對象。如果將 username 設置為對象類型,那麼 ES 會將其轉換為:

<code>{
  "group": "users",
  "username.first": ["wu", "hu", "wu"],
  "username.last": ["px", "xy", "mx"]
}
/<code>

可以看出轉換後的 JSON 文檔中 first 和 last 的關聯丟失了,如果嘗試搜索 first 為 wu,last 為 xy 的文檔,那麼成功會檢索出上述文檔,但是 wu 和 xy 在原 JSON 文檔中並不屬於同一個 JSON 對象,應當是不匹配的,即檢索不出任何結果。

嵌套類型就是為了解決這種問題的,嵌套類型將數組中的每個 JSON 對象作為獨立的隱藏文檔來存儲,每個嵌套的對象都能夠獨立地被搜索,所以上述案例中雖然表面上只有 1 個文檔,但實際上是存儲了 4 個文檔。

地理類型

地理類型字段分為兩種:經緯度類型和地理區域類型:

經緯度類型

經緯度類型字段(geo_point)可以存儲經緯度相關信息,通過地理類型的字段,可以用來實現諸如查找在指定地理區域內相關的文檔、根據距離排序、根據地理位置修改評分規則等需求。

地理區域類型

經緯度類型可以表達一個點,而 geo_shape 類型可以表達一塊地理區域,區域的形狀可以是任意多邊形,也可以是點、線、面、多點、多線、多面等幾何類型。

特殊類型

特殊類型包括 IP 類型、過濾器類型、Join 類型、別名類型等,在這裡簡單介紹下 IP 類型和 Join 類型,其他特殊類型可以查看官方文檔。

IP 類型

IP 類型的字段可以用來存儲 IPv4 或者 IPv6 地址,如果需要存儲 IP 類型的字段,需要手動定義映射:

<code>{
  "mappings": {
	"properties": {
	  "my_ip": {
	    "type": "ip"
	  }
	}
  }
}
/<code>

Join 類型

Join 類型是 ES 6.x 引入的類型,以取代淘汰的 _parent 元字段,用來實現文檔的一對一、一對多的關係,主要用來做父子查詢。

Join 類型的 Mapping 如下:

<code>PUT my_index
{
  "mappings": {
    "properties": {
      "my_join_field": { 
        "type": "join",
        "relations": {
          "question": "answer" 
        }
      }
    }
  }
}
/<code>

其中,my_join_field 為 Join 類型字段的名稱;relations 指定關係:question 是 answer 的父類。

例如定義一個 ID 為 1 的父文檔:

<code>PUT my_join_index/1?refresh
{
  "text": "This is a question",
  "my_join_field": "question" 
}
/<code>

接下來定義一個子文檔,該文檔指定了父文檔 ID 為 1:

<code>PUT my_join_index/_doc/2?routing=1&refresh 
{
  "text": "This is an answer",
  "my_join_field": {
    "name": "answer", 
    "parent": "1" 
  }
}
/<code>

再瞭解完字段數據類型後,再讓我們看下什麼是 Dynamic Mapping?

什麼是 Dynamic Mapping?

Dynamic Mapping 機制使我們不需要手動定義 Mapping,ES 會自動根據文檔信息來判斷字段合適的類型,但是有時候也會推算的不對,比如地理位置信息有可能會判斷為 Text,當類型如果設置不對時,會導致一些功能無法正常工作,比如 Range 查詢。

類型自動識別

ES 類型的自動識別是基於 JSON 的格式,如果輸入的是 JSON 是字符串且格式為日期格式,ES 會自動設置成 Date 類型;當輸入的字符串是數字的時候,ES 默認會當成字符串來處理,可以通過設置來轉換成合適的類型;如果輸入的是 Text 字段的時候,ES 會自動增加 keyword 子字段,還有一些自動識別如下圖所示:

一文搞懂 Elasticsearch 之 Mapping

類型自動識別

下面我們通過一個例子是看看是怎麼類型自動識別的,輸入如下請求,創建索引:

<code>PUT /mapping_test/_doc/1
{
  "uid": "123",
  "username": "wupx",
  "birth": "2020-03-16",
  "married": false,
  "age": 18,
  "heigh": 180,
  "tags": [
    "java",
    "boy"
  ],
  "money": 999.9
}
/<code>

然後使用 GET /mapping_test/_mapping 查看,結果如下圖所示:

一文搞懂 Elasticsearch 之 Mapping

可以從結果中看出,ES 會根據文檔信息自動推算出合適的類型。

哦豁,萬一我想修改 Mapping 的字段類型,能否更改呢?讓我們分以下兩種情況來探究下:

修改 Mapping 字段類型?

如果是新增加的字段,根據 Dynamic 的設置分為以下三種狀況:

  • 當 Dynamic 設置為 true 時,一旦有新增字段的文檔寫入,Mapping 也同時被更新。
  • 當 Dynamic 設置為 false 時,索引的 Mapping 是不會被更新的,新增字段的數據無法被索引,也就是無法被搜索,但是信息會出現在 _source 中。
  • 當 Dynamic 設置為 strict 時,文檔寫入會失敗。

另外一種是字段已經存在,這種情況下,ES 是不允許修改字段的類型的,因為 ES 是根據 Lucene 實現的倒排索引,一旦生成後就不允許修改,如果希望改變字段類型,必須使用 Reindex API 重建索引。

不能修改的原因是如果修改了字段的數據類型,會導致已被索引的無法被搜索,但是如果是增加新的字段,就不會有這樣的影響。

總結

本文主要介紹了 Mapping 和 Dynamic Mapping,同時對字段類型做了詳細介紹,也介紹了在 ES 中是如何對字段類型做推算的,瞭解了 Mapping 的相關參數設置。

在gzh【武培軒】回覆【es】獲取思維導圖以及源代碼。

參考文獻

《Elasticsearch技術解析與實戰》

Elastic Stack從入門到實踐

Elasticsearch核心技術與實戰


分享到:


相關文章: