面試題：es 在數據量很大時（數十億級別）如何提高查詢效率啊？

2019-05-05 07:36:00 程序員界的彭于晏

面試題

es 在數據量很大的情況下（數十億級別）如何提高查詢效率啊？

面試官心理分析

這個問題是肯定要問的，說白了，就是看你有沒有實際幹過 es，因為啥？其實 es 性能並沒有你想象中那麼好的。很多時候數據量大了，特別是有幾億條數據的時候，可能你會懵逼的發現，跑個搜索怎麼一下 5~10s，坑爹了。第一次搜索的時候，是5~10s，後面反而就快了，可能就幾百毫秒。

你就很懵，每個用戶第一次訪問都會比較慢，比較卡麼？所以你要是沒玩兒過 es，或者就是自己玩玩兒 demo，被問到這個問題容易懵逼，顯示出你對 es 確實玩兒的不怎麼樣？

面試題剖析

說實話，es 性能優化是沒有什麼銀彈的，啥意思呢？就是不要期待著隨手調一個參數，就可以萬能的應對所有的性能慢的場景。也許有的場景是你換個參數，或者調整一下語法，就可以搞定，但是絕對不是所有場景都可以這樣。

性能優化的殺手鐧——filesystem cache

你往 es 裡寫的數據，實際上都寫到磁盤文件裡去了，查詢的時候，操作系統會將磁盤文件裡的數據自動緩存到 filesystem cache 裡面去。

es 的搜索引擎嚴重依賴於底層的 filesystem cache，你如果給 filesystem cache 更多的內存，儘量讓內存可以容納所有的 idx segment file 索引數據文件，那麼你搜索的時候就基本都是走內存的，性能會非常高。

性能差距究竟可以有多大？我們之前很多的測試和壓測，如果走磁盤一般肯定上秒，搜索性能絕對是秒級別的，1秒、5秒、10秒。但如果是走 filesystem cache，是走純內存的，那麼一般來說性能比走磁盤要高一個數量級，基本上就是毫秒級的，從幾毫秒到幾百毫秒不等。

這裡有個真實的案例。某個公司 es 節點有 3 臺機器，每臺機器看起來內存很多，64G，總內存就是 64 * 3 = 192G。每臺機器給 es jvm heap 是 32G，那麼剩下來留給 filesystem cache 的就是每臺機器才 32G，總共集群裡給 filesystem cache 的就是 32 * 3 = 96G 內存。而此時，整個磁盤上索引數據文件，在 3 臺機器上一共佔用了 1T 的磁盤容量，es 數據量是 1T，那麼每臺機器的數據量是 300G。這樣性能好嗎？ filesystem cache 的內存才 100G，十分之一的數據可以放內存，其他的都在磁盤，然後你執行搜索操作，大部分操作都是走磁盤，性能肯定差。

歸根結底，你要讓 es 性能要好，最佳的情況下，就是你的機器的內存，至少可以容納你的總數據量的一半。

根據我們自己的生產環境實踐經驗，最佳的情況下，是僅僅在 es 中就存少量的數據，就是你要用來搜索的那些索引，如果內存留給 filesystem cache 的是 100G，那麼你就將索引數據控制在 100G 以內，這樣的話，你的數據幾乎全部走內存來搜索，性能非常之高，一般可以在 1 秒以內。

比如說你現在有一行數據。id,name,age .... 30 個字段。但是你現在搜索，只需要根據 id,name,age 三個字段來搜索。如果你傻乎乎往 es 裡寫入一行數據所有的字段，就會導致說 90% 的數據是不用來搜索的，結果硬是佔據了 es 機器上的 filesystem cache 的空間，單條數據的數據量越大，就會導致 filesystem cahce 能緩存的數據就越少。其實，僅僅寫入 es 中要用來檢索的少數幾個字段就可以了，比如說就寫入es id,name,age 三個字段，然後你可以把其他的字段數據存在 mysql/hbase 裡，我們一般是建議用 es + hbase 這麼一個架構。

hbase 的特點是適用於海量數據的在線存儲，就是對 hbase 可以寫入海量數據，但是不要做複雜的搜索，做很簡單的一些根據 id 或者範圍進行查詢的這麼一個操作就可以了。從 es 中根據 name 和 age 去搜索，拿到的結果可能就 20 個 doc id，然後根據 doc id 到 hbase 裡去查詢每個 doc id 對應的完整的數據，給查出來，再返回給前端。

寫入 es 的數據最好小於等於，或者是略微大於 es 的 filesystem cache 的內存容量。然後你從 es 檢索可能就花費 20ms，然後再根據 es 返回的 id 去 hbase 裡查詢，查 20 條數據，可能也就耗費個 30ms，可能你原來那麼玩兒，1T 數據都放es，會每次查詢都是 5~10s，現在可能性能就會很高，每次查詢就是 50ms。

數據預熱

假如說，哪怕是你就按照上述的方案去做了，es 集群中每個機器寫入的數據量還是超過了 filesystem cache 一倍，比如說你寫入一臺機器 60G 數據，結果 filesystem cache 就 30G，還是有 30G 數據留在了磁盤上。

其實可以做數據預熱。

舉個例子，拿微博來說，你可以把一些大V，平時看的人很多的數據，你自己提前後臺搞個系統，每隔一會兒，自己的後臺系統去搜索一下熱數據，刷到 filesystem cache 裡去，後面用戶實際上來看這個熱數據的時候，他們就是直接從內存裡搜索了，很快。

或者是電商，你可以將平時查看最多的一些商品，比如說 iphone 8，熱數據提前後臺搞個程序，每隔 1 分鐘自己主動訪問一次，刷到 filesystem cache 裡去。

對於那些你覺得比較熱的，經常會有人訪問的數據，最好做一個專門的緩存預熱子系統，就是對熱數據每隔一段時間，就提前訪問一下，讓數據進入 filesystem cache 裡面去。這樣下次別人訪問的時候，一定性能會好一些。

分頁性能優化

es 的分頁是較坑的，為啥呢？舉個例子吧，假如你每頁是 10 條數據，你現在要查詢第 100 頁，實際上是會把每個 shard 上存儲的前 1000 條數據都查到一個協調節點上，如果你有個 5 個 shard，那麼就有 5000 條數據，接著協調節點對這 5000 條數據進行一些合併、處理，再獲取到最終第 100 頁的 10 條數據。

分佈式的，你要查第 100 頁的 10 條數據，不可能說從 5 個 shard，每個 shard 就查 2 條數據？最後到協調節點合併成 10 條數據？你必須得從每個 shard 都查 1000 條數據過來，然後根據你的需求進行排序、篩選等等操作，最後再次分頁，拿到裡面第 100 頁的數據。你翻頁的時候，翻的越深，每個 shard 返回的數據就越多，而且協調節點處理的時間越長，非常坑爹。所以用 es 做分頁的時候，你會發現越翻到後面，就越是慢。

我們之前也是遇到過這個問題，用 es 作分頁，前幾頁就幾十毫秒，翻到 10 頁或者幾十頁的時候，基本上就要 5~10 秒才能查出來一頁數據了。

有什麼解決方案嗎？

不允許深度分頁（默認深度分頁性能很差）

跟產品經理說，你係統不允許翻那麼深的頁，默認翻的越深，性能就越差。

類似於 app 裡的推薦商品不斷下拉出來一頁一頁的

類似於微博中，下拉刷微博，刷出來一頁一頁的，你可以用 scroll api，關於如何使用，自行上網搜索。

scroll 會一次性給你生成所有數據的一個快照，然後每次滑動向後翻頁就是通過遊標 scroll_id 移動，獲取下一頁下一頁這樣子，性能會比上面說的那種分頁性能要高很多很多，基本上都是毫秒級的。

但是，唯一的一點就是，這個適合於那種類似微博下拉翻頁的，不能隨意跳到任何一頁的場景。也就是說，你不能先進入第 10 頁，然後去第 120 頁，然後又回到第 58 頁，不能隨意亂跳頁。所以現在很多產品，都是不允許你隨意翻頁的，app，也有一些網站，做的就是你只能往下拉，一頁一頁的翻。

初始化時必須指定 scroll 參數，告訴 es 要保存此次搜索的上下文多長時間。你需要確保用戶不會持續不斷翻頁翻幾個小時，否則可能因為超時而失敗。

除了用 scroll api，你也可以用 search_after 來做，search_after 的思想是使用前一頁的結果來幫助檢索下一頁的數據，顯然，這種方式也不允許你隨意翻頁，你只能一頁頁往後翻。初始化時，需要使用一個唯一值的字段作為 sort 字段。

分享到:

閱讀更多 程序員界的彭于晏 的文章

關鍵字: HBase 搜索引擎操作系統

陝西西安曲江新區管委會招聘公告

西安曲江新區，是陝西省、西安市確立的以文化產業和旅遊產業為主導的城市發展新區，在“文化立區、旅遊興區”的發展理念下，不斷在“標誌性、國際範、科技風、地方味”上下功夫，形成了“文化+旅遊+產業”的發展模式和文旅高品質融合的發展道路。

內蒙古自治區體育局面向退役運動員招聘教練員16人簡章

內蒙古自治區體育局面向退役運動員招聘教練員簡章。經自治區人社廳批准，內蒙古自治區體育局直屬事業單位與應聘人員簽訂聘用合同。

2020年甘肅白銀市白銀區鄉鎮衛生院招聘10人公告

白銀市白銀區2020年鄉鎮衛生院公開招聘緊缺專業人才公告　　白銀區各鄉鎮衛生院因工作需要面向社會公開招聘工作人員。現將有關事項公告如下：　　一、招聘計劃　　本次招聘醫療衛生類專業技術人員10名，具體招聘崗位及條件見附表1。

甘肅慶陽招聘政府專職消防員18名公告

根據慶陽市人民政府《關於印發慶陽市招聘合同制政府專職消防員實施意見》文件要求，決定在全縣範圍內公開招聘合同制政府專職消防員18名。

甘肅省武威市教師招聘97人公告

根據武威市教育事業發展需要，按照事業單位公開招聘有關規定，決定採取面試考核方式面向全國引進教育類人才，現將有關事項公告如下:

數據深扒：這輩子在哪些行業打工有可能年薪百萬？

近兩年很流行的FIRE運動，就倡導

這款全能圖片處理工具箱，內置將近100個圖片處理工具，非常實用

在介紹軟件之前，我想問各位一個小問題：各位平時用什麼圖片處理軟件來修圖呢？PS、美圖秀秀？還是ACDSee之類的圖片處理軟件？今天要為大家介紹的這款軟件名為電腦圖像工具箱，它是一款功能非常豐富且強大的處理處理軟件。

人社部最新發布！2020年就業新方向，這16個新職業要火

近日，中國就業培訓技術指導中心發佈《關於擬發佈新職業信息公示的通告》，經人社部同意，現場擬發佈包括人工智能訓練師、網約配送員、健康照護師等16個新職業，並明確賦予了這些職業具體的定義和主要工作任務。

文字辦公—如何在Word中內置一頁PPT

PPT與Word在操作上還是有挺大區別，在PPT中能夠繪製框圖並且多批量處理要素，一鍵框選內容，很多小夥伴習慣於使用PPT轉而使用Word就不太習慣，其實只要一個小操作就能讓Word也實現上述功能。

文字辦公—如何修改Word 的文本樣式

接下來小編跟大家講解如何修改Word

文字辦公—如何讓Word只粘貼網頁中的文字而自動去除圖形和版式

我們在網頁中看到不錯的內容或者查找資料時瀏覽到對報告有意義的內容時，會複製網頁內容至word文檔內，但如果不想整篇網頁內容都複製到文檔內，只需要文字內容時應當怎麼操作呢，今天小編就為大家演示一遍具體的步驟。

PPT演示技巧—PPT怎麼錄屏

在需要錄屏時我們第一時間想到的可能是下載軟件去錄製，但很多人不知道的是其實在PPT中就有錄屏這個功能，也省去了我們使用錄屏軟件的麻煩，接下來小編就帶大家操作一遍吧。

招聘通知（全國）丨貴州省農村信用社招聘347人公告

公示項目:2020年貴州省農村信用社招聘347人公告。輻射範圍:貴州省。

5月7日·張家口要聞快報：有編制！張家口一地招聘公告！這些地方有了移動5G網絡

為進一步提高涿鹿縣高中階段學校教師隊伍層次規格，以適應新高考改革，培養更多的優秀畢業生，確保涿鹿教育事業可持續發展。張家口:這些地方已經覆蓋移動5G網絡。

工作中出現錯誤後，不應該著眼於這2點

工作中一旦出現錯誤，考慮如何補救才是真正重要的，不應該著眼在以下2點：一

妙招！Word和Execl“聯姻”實現數據高效處理！

你是不是想到的是在Excel中將數據處理好後再粘貼到word中，這種方法在某些時候是不可取的，比如表格中時間可能隨時需要更新，我們不可能，更新一次就去複製粘貼一次，這樣會影響我們的工作效率。

重要提醒：本週六要上班！2020年還有這些假

剛過完假期的你是不是意猶未盡？今天上班第一天小編有以下幾點友情提醒小夥伴們要仔細看01

沿海大型高新科技企業南充設廠，大量招人，月薪最高15000元，免費宿舍…

點擊觀看視頻，一起走進

5月7日廣東最新事業單位招聘公告

05-06[中山]2020年中山市農業農村局招聘事業單位高層次人才公告05-06[中山]2020年中山市黃圃鎮招聘編外人員公告05-06[湛江市]2020年湛江市坡頭區財政局招聘編外人員公告05-06[深圳]2020年5月深圳市寶安區發展研究中心選聘常設崗位人員公告05-06[江

5月7日湖北最新事業單位招聘公告

05-07[湖北]2020年黃石市住房和城鄉建設局招聘專業人才公告05-07[湖北]2020年十堰市竹溪縣招聘高中階段學校教師公告05-07[湖北]2020年咸寧市政府投資項目建設管理局招聘工程專業技術人員公告05-07[湖北]2020年黃石大冶市政府總值班室選聘事業單位人員公告

5月7日河北最新事業單位招聘公告

05-07[河北]2020年石家莊辛集市事業單位選聘公告04-30[河北]2020年邯鄲市國資委選聘碩士研究生公告04-30[河北]2020年河北峰峰礦區高層次人才引進公告04-29[河北]2020年邯鄲市住房公積金管理中心引進博碩人才公告04-29[河北]2020年邯鄲市水利局

5月7日山東最新事業單位招聘公告

05-072020年棗莊臺兒莊區招聘鎮街事業編制人員到村擔任黨組織書記公告05-062020年東營廣饒縣“英才進廣饒”招聘簡章05-062020年淄博周村區行政審批服務局招聘工作人員公告05-062020年煙臺萊州市考核評價中心招聘萊州市“鄉呼縣應”話務員公告05-062020年

未籤書面勞動合同用人單位必須支付二倍工資？

可是，現實中有一些用人單位明明沒有與勞動者簽訂書面勞動合同，也未向勞動者支付二倍工資，卻贏了官司，這是為什麼?

【西青宣傳】校招衝刺季！高校畢業生雲招聘首場直播 1000+個崗位在線等你

天津衛視《天津新聞》:西青區認真貫徹落實文明條例

風水學！洞悉常人無法察覺的不確定性

生活在如今這個時代，肯定會有不少人感慨，不管你是江湖老鳥，還是職場小白，猜不透的“海底針老闆心”幾乎每家公司都是同款的。

工作幹好恰恰是你不能升職的原因

S是私企公司的技術骨幹，在公司7年裡，他每天兢兢業業，加班加點也都是司空見慣，總算熬成了部門裡資格最老的一個員工。

會計做賬中最常見的5項支出不需要發票就可以稅前扣除

估計還有很多會計不知道，會計做賬中最常見的5項支出不需要發票就可以稅前扣除！關於這方面的內容今天一次給大家總結清楚了，以後不要弄錯了。支出一工資薪金支出提醒：企業平時支付職工的工資不需要發票。

「轉發擴散」長春市招聘296名公益性崗位人員

為貫徹落實長春市“保基本就業、保基本民生”工作要求，現面向社會公開招聘296名公益性崗位人員，以加強街道、社區基層公共服務平臺力量，提升就業服務和民生服務能力。

招聘巨頭裁員，但更可怕的是招聘行業的亂象

近期有消息稱，這家招聘巨頭已經陷入了裁員風波，先後關閉了石家莊、烏魯木齊、蘭州、廈門等11座城市辦事處，裁員上百人。

代理記賬流程揭祕，學會了你也可以去記賬

代理記賬可以節約成本，提高效率。是很多小微企業財務工作的選擇。因為巨大的市場需求，所以很多財務人員選擇了代理記賬工作。代理記賬工作流程簡單，易於上手，而且如果客戶資源豐富的話，收益也是頗豐。小編曾經有過一段代理記賬公司工作的經歷，下面就來為大家揭秘下代理記賬的流程。

電腦快捷鍵彙總

Excel表格中Ctrl+字母快捷鍵彙總1、Ctrl

如何去掉word文檔行尾的換行符

在我們日常的文檔編輯當中，有時候會遇到只要一換行下面就會出現一個小箭頭，看著特別不美觀，下面我來分享一下如去掉這個換行標識，和大家共同學習一下。　　1、首先單左上角“開始”　　2、在打開的對話框裡。

甘肅省民政廳直屬事業單位公開招聘工作人員11人

怎麼在Word文檔中插入頁碼

在我們日常的文檔編輯中，由其是在需要打印當中，都希望在文檔中看是頁碼。下面來分享二個在文檔當中加入頁碼的小未能，來和大家共同學習一下。

今天，蔡甸區人社局組織 400＋崗位送到百姓家門口

5月6日上午，蔡甸區“戰疫情

單位裡高手的說話方式（看懂閱歷漲10年）

高手說話，可能簡單幾句，就能讓對話者茅塞頓開。在單位裡，高手說話，沒有華麗的詞語，卻能讓與之溝通的人如沐春風。那麼，高手說話的功夫是如何煉成的呢？說話溝通，首先要擺正心態，有正確的心態為基礎，說話的方向就不會跑偏。

什麼時候是跳槽的最佳時機？怎樣跳更有利於你身家升值？

“領導太難伺候了，我怎麼努力他就是不滿意”，“這裡的人際關係太複雜了，老子不幹了”，“這裡的工資太低了，事情又多，我還是換一家高工資的公司吧”，如果你是因為這些原因跳槽，那你就大錯特錯了。一.

用控件查詢生日信息

問題情境掌握職工的生日信息，及時送出生日祝福，是每位HR必備的技能。

【法律知識】員工離職的22個法律要點

1、經濟補償是國家要求用人單位承擔的一種社會責任，即用人單位解除或者終止勞動合同時，應當支付給勞動者一定的經濟補助，以幫助勞動者在失業階段維持基本生活，不至於生活水平急劇下降。正是由於這種社會責任是國家強加給用人單位的義務，因而，何種情況下用人單位應當擔責，需要由法律的明確規定。

終於，我還是去領了失業金

“我爸已經去領失業金了，我覺得我也快了。微博上，90後女孩默默已經辦妥了失業金領取手續，但對結果並不滿意，因為她累計繳了15個月社保，卻只能領到1個月失業金，1960元。

試用期沒提成！成交130萬訂單一分不給，半個月後老闆蒙了

現如今的大多數公司都有試用期的規定，公司通過這種方式來考察員工是否是公司想要的人才，但是我們都知道，試用期內的工資都比較低，有的公司甚至規定在試用期內只有底薪，沒有提成。這讓很多員工感到不公平，同樣是為企業帶來業績為什麼自己得不到提成？

同樣工作30年，為什麼有人養老金能領6000元，有的人只能領1500？

經常會有朋友這樣問鏡仔，為什麼同樣工作了30年，有的人退休後每個月養老金能領到6000元，自己卻只能領取1500元？影響退休後養老金數額多少的原因有很多種，那麼今天鏡仔就來詳細說一下，到底為什麼造成了養老金這樣的差異性。

招聘啦！長春市公益性崗位人員招人啦

為貫徹落實我市“保基本就業、保基本民生”工作要求，現面向社會公開招聘296名公益性崗位人員，以加強街道（鄉、鎮）、社區基層公共服務平臺力量，提升就業服務和民生服務能力。

回老家被問工資，我說2000，非要給我找月薪3000的，我說日入兩千

我弟弟辭去公職去外地發展，開了一家公司，一年百把萬收入總是有的，但是每次回家都是開個榮威350，而且是乞丐版，同村里人對他都是一臉同情，說辭職辭虧了，只有我知道，他這樣做一方面怕別人生嫉妒，另一方面也是怕招惹是非。

為“偷懶”做的Excel進項增值稅管理系統，升級版更好用！財務收

進項增值稅管理升級版——系統自帶公式，基礎數據錄入之後，會自動生成數據報表，數據也能備份，避免我們誤刪之後找不到。

勞動者履職過程中給用人單位造成損失承擔賠償責任的裁判規則

勞動者在履行職務過程中可能因為各種原因直接或者間接造成用人單位損失，在何種情形下，勞動者需要賠償用人單位的損失，又如何賠償?

懂得規劃自己的人，少吃10年苦！

在生活中，很多職場人混跡職場，處理職業問題貌似都是盲人摸象，毫無章法的，從而處於很被動的位置。這是因為我們大多數人出了大學校門，就一路裸奔邁進了職場，沒有人教我們怎麼規劃自己的發展，沒有人教我們怎麼去應對職場人際，更沒有人傳授我們工作技巧，所以我們對未來基本沒有什麼規劃，導致我們

作者可自主選擇免費或付費閱文：一個月內推新版合同

東方網記者包永婷5月6日報道:今天下午，在閱文集團新管理團隊與多位作家參加的首場作家懇談會上，閱文新任CEO程武表示，著作人身權屬於作家獨有，閱文絕不會通過任何方式分享或獲取著作權，將在1個月內推出新版合同。

學會這個方法，表格想怎麼合併都不愁！

把表裝入Power

哪些行業薪資最高？脫貧就要入對行！

上市公司對很多人都感覺高大上，在上市公司工作是不是年薪很高呢?如果想要更快更好的脫貧，那就應該選擇金融、地產、科技行業，儘可能擺脫傳統行業，當然要進入這些高科技行業，打鐵要自身硬，力爭在大學就要進入這些專業的985院校就妥妥了。