分布式搜尋引擎elasticsearch面試總結

2018-10-17 14:13:50 分佈式系統架構

大家好，我是瓜哥：

當前公司日誌平臺中日誌相關存儲和搜索採用了Elasticsearch，Elastic 的底層是開源庫 Lucene。但是，你沒法直接用 Lucene，必須自己寫代碼去調用它的接口。Elastic 是 Lucene 的封裝，提供了 REST API 的操作接口，開箱即用。

ElasticSearch在大型互聯網公司的使用是非常廣泛的，有ElasticSearch相關項目開發經驗可以對自己的薪資提升是非常有幫助的，下面是本人總結的面試過程當中常會用問到的相關問題，麻煩各位評論點贊。

一、Elasticsearch監控的常用工具

我大概用過如下的監控插件（注意此處插件的版本，不同es的版本，監控工具的安裝方式可能不一樣）

bigdesk 統計分析和圖表化elasticsearch的集群信息狀態

http://blog.csdn.net/yangwenbo214/article/details/74000458

head 能清晰看到每個分片的信息、發送rest api請求。注意安裝版本要求

https://github.com/mobz/elasticsearch-head

marvel 5.*版本後集成到x-pack中了，是收費的

https://www.elastic.co/guide/en/x-pack/current/xpack-introduction.html

kopf 也是web形式，有點像head

https://github.com/lmenezes/elasticsearch-kopf

一般head和x-pack比較常用。head的安裝在5.*中比較繁瑣，需要注意

二、Elasticsearch是如何實現Master選舉的

Elasticsearch的選主是ZenDiscovery模塊負責的，主要包含Ping（節點之間通過這個RPC來發現彼此）和Unicast（單播模塊包含一個主機列表以控制哪些節點需要ping通）這兩部分；
對所有可以成為master的節點（node.master: true）根據nodeId字典排序，每次選舉每個節點都把自己所知道節點排一次序，然後選出第一個（第0位）節點，暫且認為它是master節點。
如果對某個節點的投票數達到一定的值（可以成為master節點數n/2+1）並且該節點自己也選舉自己，那這個節點就是master。否則重新選舉一直到滿足上述條件。

master節點的職責主要包括集群、節點和索引的管理，不負責文檔級別的管理；data節點可以關閉http功能。

三、Elasticsearch是如何避免腦裂現象的

當集群中master候選的個數不小於3個（node.master:

true）。可以通過discovery.zen.minimum_master_nodes

這個參數的設置來避免腦裂，設置為(N/2)+1。

這裡node.master : true 是說明你是有資格成為master，並不是指你就是master。是皇子，不是皇帝。假如有10個皇子，這裡應該設置為（10/2）+1=6，這6個皇子合謀做決策，選出新的皇帝。另外的4個皇子，即使他們全聚一起也才四個人，不足合謀的最低人數限制，他們不能選出新皇帝。

假如discovery.zen.minimum_master_nodes 設置的個數為5，有恰好有10個master備選節點，會出現什麼情況呢？5個皇子組成一波，選一個皇帝出來，另外5個皇子也夠了人數限制，他們也能選出一個皇帝來。此時一個天下兩個皇帝，在es中就是腦裂。

假如集群master候選節點為2的時候，這種情況是不合理的，最好把另外一個node.master改成false。如果我們不改節點設置，還是套上面的(N/2)+1公式，此時discovery.zen.minimum_master_nodes應該設置為2。這就出現一個問題，兩個master備選節點，只要有一個掛，就選不出master了。

我還是用皇子的例子來說明。假如先皇在位的時候規定，必須他的兩個皇子都在的時候，才能從中2選1 繼承皇位。萬一有個皇子出意外掛掉了，就剩下一個皇子，天下不就沒有新皇帝了麼。

三、客戶端在和集群連接時，如何選擇特定的節點執行請求的？

TransportClient利用transport模塊遠程連接一個elasticsearch集群。它並不加入到集群中，只是簡單的獲得一個或者多個初始化的transport地址，並以輪詢的方式與這些地址進行通信。

想了解該處，可以參考各個編程語言提供的es 庫

四、Elasticsearch 文檔索引過程描述

協調節點默認使用文檔ID參與計算（也支持通過routing），以便為路由提供合適的分片。

shard = hash(document_id) % (num_of_primary_shards)

當分片所在的節點接收到來自協調節點的請求後，會將請求寫入到Memory Buffer，然後定時（默認是每隔1秒）寫入到Filesystem Cache，這個從Momery Buffer到Filesystem Cache的過程就叫做refresh；
當然在某些情況下，存在Momery Buffer和Filesystem Cache的數據可能會丟失，ES是通過translog的機制來保證數據的可靠性的。其實現機制是接收到請求後，同時也會寫入到translog中，當Filesystem cache中的數據寫入到磁盤中時，才會清除掉，這個過程叫做flush。
在flush過程中，內存中的緩衝將被清除，內容被寫入一個新段，段的fsync將創建一個新的提交點，並將內容刷新到磁盤，舊的translog將被刪除並開始一個新的translog。
flush觸發的時機是定時觸發（默認30分鐘）或者translog變得太大（默認為512M）時。

關於Lucene的segement（也就是上文中所說的段）的補充：

Lucene索引是由多個段組成，段本身是一個功能齊全的倒排索引。
段是不可變的，允許Lucene將新的文檔增量地添加到索引中，而不用從頭重建索引。
對於每一個搜索請求而言，索引中的所有段都會被搜索，並且每個段會消耗CPU的時鐘周、文件句柄和內存。這意味著段的數量越多，搜索性能會越低。
為了解決這個問題，Elasticsearch會合並小段到一個較大的段，提交新的合併段到磁盤，並刪除那些舊的小段

五、Elasticsearch 文檔更新和刪除過程描述

刪除和更新也都是寫操作，但是Elasticsearch中的文檔是不可變的，因此不能被刪除或者改動以展示其變更；
磁盤上的每個段都有一個相應的.del文件。當刪除請求發送後，文檔並沒有真的被刪除，而是在.del文件中被標記為刪除。該文檔依然能匹配查詢，但是會在結果中被過濾掉。當段合併時，在.del文件中被標記為刪除的文檔將不會被寫入新段。
在新的文檔被創建時，Elasticsearch會為該文檔指定一個版本號，當執行更新時，舊版本的文檔在.del文件中被標記為刪除，新版本的文檔被索引到一個新段。舊版本的文檔依然能匹配查詢，但是會在結果中被過濾掉。

六、Elasticsearch搜索的過程描述

搜索被執行成一個兩階段過程，我們稱之為 Query Then Fetch
在初始查詢階段時，查詢會廣播到索引中每一個分片拷貝（主分片或者副本分片）。每個分片在本地執行搜索並構建一個匹配文檔的大小為 from + size 的優先隊列。PS：在搜索的時候是會查詢Filesystem Cache的，但是有部分數據還在Memory Buffer，所以搜索是近實時的。
每個分片返回各自優先隊列中所有文檔的 ID 和排序值給協調節點，它合併這些值到自己的優先隊列中來產生一個全局排序後的結果列表。
接下來就是取回階段，協調節點辨別出哪些文檔需要被取回並向相關的分片提交多個 GET 請求。每個分片加載並豐富文檔，如果有需要的話，接著返回文檔給協調節點。一旦所有的文檔都被取回了，協調節點返回結果給客戶端。

補充：Query Then Fetch的搜索類型在文檔相關性打分的時候參考的是本分片的數據，這樣在文檔數量較少的時候可能不夠準確，DFS Query Then Fetch增加了一個預查詢的處理，詢問Term和Document frequency，這個評分更準確，但是性能會變差。

七、在併發情況下，Elasticsearch如果保證讀寫一致？

可以通過版本號使用樂觀併發控制，以確保新版本不會被舊版本覆蓋，由應用層來處理具體的衝突；
另外對於寫操作，一致性級別支持quorum/one/all，默認為quorum，即只有當大多數分片可用時才允許寫操作。但即使大多數可用，也可能存在因為網絡等原因導致寫入副本失敗，這樣該副本被認為故障，分片將會在一個不同的節點上重建。
對於讀操作，可以設置replication為sync(默認)，這使得操作在主分片和副本分片都完成後才會返回；如果設置replication為async時，也可以通過設置搜索請求參數_preference為primary來查詢主分片，確保文檔是最新版本。

八、Elasticsearch在部署時，對Linux的設置有哪些優化方法？

64 GB 內存的機器是非常理想的，但是32 GB 和16 GB 機器也是很常見的。少於8 GB 會適得其反。
如果你要在更快的 CPUs 和更多的核心之間選擇，選擇更多的核心更好。多個內核提供的額外併發遠勝過稍微快一點點的時鐘頻率。
如果你負擔得起 SSD，它將遠遠超出任何旋轉介質。基於 SSD 的節點，查詢和索引性能都有提升。如果你負擔得起，SSD 是一個好的選擇。
即使數據中心們近在咫尺，也要避免集群跨越多個數據中心。絕對要避免集群跨越大的地理距離。
請確保運行你應用程序的 JVM 和服務器的 JVM 是完全一樣的。在 Elasticsearch 的幾個地方，使用 Java 的本地序列化。

通過設置gateway.recover_after_nodes、gateway.expected_nodes、gateway.recover_after_time可以在集群重啟的時候避免過多的分片交換，這可能會讓數據恢復從數個小時縮短為幾秒鐘。
Elasticsearch 默認被配置為使用單播發現，以防止節點無意中加入集群。只有在同一臺機器上運行的節點才會自動組成集群。最好使用單播代替組播。
不要隨意修改垃圾回收器（CMS）和各個線程池的大小。
把你的內存的（少於）一半給 Lucene（但不要超過 32 GB！），通過ES_HEAP_SIZE 環境變量設置。
內存交換到磁盤對服務器性能來說是致命的。如果內存交換到磁盤上，一個 100 微秒的操作可能變成 10 毫秒。再想想那麼多 10 微秒的操作時延累加起來。不難看出 swapping 對於性能是多麼可怕。
Lucene 使用了大量的文件。同時，Elasticsearch 在節點和 HTTP 客戶端之間進行通信也使用了大量的套接字。所有這一切都需要足夠的文件描述符。你應該增加你的文件描述符，設置一個很大的值，如 64,000。

補充：索引階段性能提升方法

使用批量請求並調整其大小：每次批量數據 5–15 MB 大是個不錯的起始點。
段和段合併：Elasticsearch 默認值是 20 MB/s，對機械磁盤應該是個不錯的設置。如果你用的是 SSD，可以考慮提高到 100–200 MB/s。如果你在做批量導入，完全不在意搜索，你可以徹底關掉合併限流。另外還可以增加 index.translog.flush_threshold_size 設置，從默認的 512 MB 到更大一些的值，比如 1 GB，這可以在一次清空觸發的時候在事務日誌裡積累出更大的段。
如果你的搜索結果不需要近實時的準確度，考慮把每個索引的index.refresh_interval 改到30s。
如果你在做大批量導入，考慮通過設置index.number_of_replicas: 0 關閉副本。

九、對於GC方面，在使用Elasticsearch時要注意什麼？

SEE：https://elasticsearch.cn/article/32
倒排詞典的索引需要常駐內存，無法GC，需要監控data node上segment memory增長趨勢。
各類緩存，field cache, filter cache, indexing cache, bulk queue等等，要設置合理的大小，並且要應該根據最壞的情況來看heap是否夠用，也就是各類緩存全部佔滿的時候，還有heap空間可以分配給其他任務嗎？避免採用clear cache等“自欺欺人”的方式來釋放內存。
避免返回大量結果集的搜索與聚合。確實需要大量拉取數據的場景，可以採用scan & scroll api來實現。
cluster stats駐留內存並無法水平擴展，超大規模集群可以考慮分拆成多個集群通過tribe node連接。
想知道heap夠不夠，必須結合實際應用場景，並對集群的heap使用情況做持續的監控。

十、ElasticSearch分頁方式：

在ElasticSearch中實現分頁查詢的方式有兩種，分別為深度分頁(from-size)和快照分頁(scroll)

分享到:

閱讀更多 分佈式系統架構 的文章

關鍵字: Lucene 分佈式技術

HashMap原理詳解，看不懂算我輸（附面試題）

面試題--輸出兩個字符數組中相同的字符

面試：從尾到頭打印鏈表

不能錯過的原型操作方法和實現（原型篇：下）

一道關於線程相關的面試題

面試：為什麼用limit時，offset很大會影響性能

中高級前端開發高頻面試題

高併發面試之實現一個多線程實例

面試題系列：併發編程之線程池及隊列

一道經典前端基礎面試題

前端面試不能不說 toString valueOf

面試，看這一篇就夠了

面試必備-如何實現spring aop的自定義註解呢？

java中HashMap原理？面試？你是誰，你在哪？

Android知識體系總結（全方面覆蓋Android知識結構，面試&進階）

Zookeeper實現參數的集中式管理「面試+工作」

09.18 去 BAT 面試，總結了這 55 道 MySQL 面試題！

「算法總結」13 道題搞定 BAT 面試——字符串

06.20 2018java面試進階-多線程死鎖手寫案例及解決死鎖方案

05.28 JS基礎面試題——原型和原型鏈

JS基礎面試題——作用域及閉包

05.27 複製js變量問題（面試常考）

05.26 js筆記二十二之數組排序算法-冒泡，遞歸，快速，插入

「每天一道面試題」CountDownLatch和CyclicBarrier的異同？

「每天一道面試題」CountDownLatch實現原理及適用場景？

每天一道面試題-&和&&的區別

每天一道面試題-從源碼探究HashSet的工作原理

「每天一道面試題」分布式高並發系統如何保證對外接口的冪等性？

每天一道面試題-ArrayList和Vector的區別

「每天一道面試題」wait()和sleep()區別？

socket經典之丟包粘包問題實戰

「每天一道面試題」synchronized關鍵字的底層實現原理是什麼？

面試--拼多多面試--後臺開發實習生

二叉樹實現-面試經典題

「每天一道面試題」TCP爲什麼要採用三次握手？

「每天一道面試題」說一下Spring框架中Bean的生存周期

「每天一道面試題」CyclicBarrier和CountDownLatch有什麼區別

03.23 es8之asycn函數（前端必須瞭解，同樣也是一道重要的面試題）

「每天一道面試題」談String和StringBuffer、StringBuilder區別

「每天一道面試題」Hibernate中SessionFactory是否線程安全？

「每天一道面試題」靜態變量和實例變量的區別

「每天一道面試題」TreeSet和TreeMap排序時如何比較元素？

一個經典線程面試題的解決方法

02.04 Object類中有哪些方法？同事親自碰到的面試題！想不到？往裡看

你真的學會了二分查找了嗎？

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"