適用於大數據的開源OLAP系統的比較：ClickHouse，Druid和Pinot

2020-04-24 13:52:01 聞數起舞

在這篇文章中，我想比較ClickHouse，Druid和Pinot這三個開放源數據存儲，它們通過交互延遲對大量數據運行分析查詢。

警告：這篇文章很大，您可能只想閱讀最後的"摘要"部分。

信息來源

我從核心開發人員之一Alexey Zatelepin那裡瞭解了ClickHouse的實現細節。本文檔頁面的最後四個部分是英語提供的最好的材料，但是非常稀缺。

我是Druid的提交者，但是我對這個系統沒有既得利益（實際上，我可能很快就會停止參與它的開發），因此讀者可以期望我對Druid相當客觀。

我在這篇關於Pinot的文章中寫的所有內容都是基於Pinot Wiki中的Architecture頁面以及" Design Docs"部分中的其他Wiki頁面，這些頁面的最新更新於2017年6月，已經有半年多了。

這篇文章還評論了Alexey Zatelepin和Vitaliy Lyudvichenko（ClickHouse的開發人員），Gian Merlino（PMC成員和Druid的最活躍開發人員），Kishore Gopalakrishna（黑皮諾的建築師）和Jean-FrançoisIm（黑皮諾的開發人員）。感謝審稿人。

在選擇大數據OLAP系統時，請不要比較它們在當前用例中的最佳狀態。目前，它們都非常次優。比較您的組織可以使這些系統朝著使您的用例更優化的方向移動的速度。

由於其基本的架構相似性，ClickHouse，Druid和Pinot在效率和性能優化上具有大約相同的"極限"。沒有"魔術藥"可以使這些系統中的任何一個都比其他系統快得多。在當前狀態下，系統在某些基準測試中的性能差異很大，因此請不要為之困惑。例如目前，Druid不像ClickHouse（請參見上文）那樣很好地支持"主鍵排序"，而ClickHouse不像Druid那樣不支持倒排索引，這使得這些系統在特定工作負載方面處於優勢。如果您有意願和能力，則可以在選定的系統中實施缺少的優化，而無需花費很多精力。

· 您的組織中的任何一個都應該具有能夠閱讀，理解和修改所選系統的源代碼並具有執行此功能的工程師。請注意，ClickHouse用C ++，Druid和Pinot用Java編寫。

· 或者，您的組織應與提供所選系統支持的公司簽訂合同。 ClickHouse有Altinity，德魯伊有Imply和Hortonworks。目前沒有針對Pinot的此類公司。

其他開發注意事項：

· Yandex的ClickHouse開發人員表示，他們將50％的時間用於構建公司內部所需的功能，而50％的時間用於"社區投票"次數最多的功能。但是，要從中受益，您在ClickHouse中所需的功能應與社區中大多數其他人所需的功能匹配。

· Imply的Druid開發人員具有建立廣泛適用的功能的動機，以最大程度地發展其未來業務。

· Druid的開發過程與Apache模型非常相似，多年來，它是由幾家公司開發的，這些公司的優先級相差很大，而且沒有一家公司佔有主導地位。 ClickHouse和Pinot目前距離該州還很遙遠，它們分別是分別由Yandex和LinkedIn開發的。對德魯伊的貢獻以後被拒絕或撤銷的可能性最小，因為它們與主要開發者的目標不一致。德魯伊沒有"主要"開發商公司。

· Druid承諾支持"開發人員API"，該API允許提供自定義列類型，聚合算法，"深度存儲"選項等，並使它們與核心Druid的代碼庫保持獨立。 Druid開發人員記錄了此API，並跟蹤其與先前版本的兼容性。但是，該API尚未成熟，並且在每個Druid版本中都幾乎被破壞了。據我所知，ClickHouse和Pinot沒有維護類似的API。

· 根據Github的說法，黑皮諾從事這項工作的人最多，去年似乎至少有10個人年在黑皮諾上進行了投資。對於ClickHouse來說，這個數字可能是6；對於德魯伊，這個數字大約是7。這意味著從理論上講，黑皮諾在主題系統中的進步最快。

系統之間的相似性

耦合數據和計算

從根本上講，所有ClickHouse，Druid和Pinot都是相似的，因為它們在同一節點上存儲數據並進行查詢處理，這與去耦BigQuery體系結構不同。最近，我描述了在德魯伊（1，2）情況下耦合體系結構的一些固有問題。目前沒有與BigQuery等效的開源軟件（也許是Drill？），我在此博客中探討了構建此類開源系統的方法。

與大數據SQL系統的區別：索引和靜態數據分發

主題系統的查詢運行速度比SQL-on-Hadoop系列中的大數據處理系統Hive，Impala，Presto和Spark更快，即使後者訪問以列格式存儲的數據（如Parquet或Kudu）也是如此。這是因為ClickHouse，Druid和Pinot

· 具有自己的格式來存儲帶索引的數據，並與查詢處理引擎緊密集成。 Hadoop上的SQL系統通常與數據格式無關，因此在大數據後端的"侵入性"較小。

· 在節點之間相對"靜態"地分配數據，並且分佈式查詢執行利用了這一知識。另一方面，ClickHouse，Druid和Pinot不支持要求在節點之間移動大量數據的查詢，例如 G。在兩個大表之間聯接。

沒有點更新和刪除

從數據庫的另一端來看，與諸如Kudu，InfluxDB和Vertica（？）之類的列存儲系統相反，ClickHouse，Druid和Pinot不支持點更新和刪除。這使ClickHouse，Druid和Pinot能夠進行更有效的列壓縮和更積極的索引，這意味著更高的資源效率和更快的查詢。

Yandex的ClickHouse開發人員的目標是將來支持更新和刪除，但是我不確定這是否是真正的點查詢或數據範圍的更新和刪除。

大數據樣式提取

所有ClickHouse，Druid和Pinot都支持從Kafka接收流數據。 Druid和Pinot支持Lambda樣式的流傳輸和同一數據的批量提取。 ClickHouse直接支持批量插入，因此不需要像Druid和Pinot那樣的單獨的批量攝取系統。這篇文章下面將對此進行更詳細的討論。

大規模驗證

這三個系統都得到了大規模驗證：在Yandex.Metrica上有一個ClickHouse集群，大約有上萬個CPU內核。 Metamarkets運行著類似規模的Druid集群。 LinkedIn上的單個黑皮諾集群擁有"數千臺機器"。

不成熟

按照企業數據庫標準，所有主題系統都非常不成熟。（但是，可能不比一般的開源大數據系統還不成熟，但這是另一回事。）ClickHouse，Druid和Pinot到處都缺乏明顯的優化和功能，並且到處都是bug（這裡我不能百分百確定）關於ClickHouse和Pinot，但沒有理由認為它們比Druid更好。

這將我們帶入下一個重要部分-

性能比較與制度選擇

我經常在網上看到人們如何比較和選擇大數據系統-他們獲取數據樣本，以某種方式將其吸收到評估的系統中，然後立即嘗試衡量效率-它佔用了多少內存或磁盤空間，在不瞭解所評估系統內部的情況下，查詢完成的速度如何。然後，僅使用此類性能信息，有時還使用它們所需的功能列表以及當前比較的系統，他們會做出選擇，或者更糟糕的是，決定從頭開始編寫自己的"更好"的系統。

我認為這種方法是錯誤的，至少在開源大數據OLAP系統中是如此。設計通用的大數據OLAP系統，使其能夠在大多數用例和功能（及其組合的強大功能！）中有效地工作，這個問題確實非常巨大-我估計這至少需要100個人年。建立這樣的系統。

ClickHouse，Druid和Pinot當前僅針對開發人員關心的特定用例進行了優化，並且幾乎僅具有開發人員所需的功能。如果您要部署其中一個系統的大型集群並關心效率，那麼我保證您的用例將遇到其獨特的瓶頸，主題OLAP系統的開發人員以前從未遇到過或沒有遇到過不在乎。更不用說上述方法"將數據投入您所不瞭解的系統並衡量效率"很有可能會遇到一些主要瓶頸，而這些瓶頸可以通過更改某些配置或數據模式或以其他方式進行查詢來解決。

CloudFlare：ClickHouse與Druid

MarekVavruša的一個帖子說明了上述問題，其中一個例子是Cloudflare在ClickHouse和Druid之間的選擇。他們需要4個ClickHouse服務器（超過了9個），並估計類似的Druid部署將需要"數百個節點"。儘管Marek承認這是不公平的比較，但是由於Druid缺乏"主鍵排序"，他可能沒有意識到僅通過在"攝取規範"中設置正確的尺寸順序就可以在Druid中獲得幾乎相同的效果。簡便的數據準備：將Druid的__time列值截斷為一些粗粒度，例如e。 G。一個小時，如果某些查詢需要更細的時間範圍，則可以選擇添加另一個長型列" precise_time"。這是一種技巧，但是允許Druid在__time之前按某種維度對數據進行實際排序也很容易實現。

我不會質疑他們選擇ClickHouse的最終決定，因為在大約10個節點的規模上，對於他們的用例，我還認為ClickHouse比Druid是更好的選擇（我將在本文下面進行解釋）。但是他們得出的結論是，ClickHouse的效率（在基礎設施成本方面）至少比Druid高出一個數量級，這完全是謬論。實際上，在這裡討論的三個系統中，Druid提供了最多的功能來實現真正便宜的安裝，請參閱下面的"在Druid中分層查詢處理節點"。

ClickHouse和Druid / Pinot之間的區別

數據管理：Druid和Pinot

在Druid和Pinot中，每個"表"中的所有數據（無論這些系統用什麼術語稱呼）都被劃分為指定數量的部分。按照時間維度，通常還會將數據除以指定的時間間隔。然後，將這些數據的各個部分分別"密封"到稱為"段"的自包含實體中。每個段包括表元數據，壓縮的列數據和索引。

段被保留在"深度存儲"（例如，HDFS）中，並且可以被加載到查詢處理節點上，但是後者不負責段的持久性，因此可以相對自由地替換查詢處理節點。段並非嚴格地附加到某些節點，它們可以或多或少地加載到任何節點上。特殊的專用服務器（在Druid中稱為"協調器"，在Pinot中稱為"控制器"，但在下面我將其統稱為"主服務器"）負責將分段分配給節點，並在節點之間移動分段，如果需要的話。（這與我在本文中上面指出的觀點並不矛盾，因為包括Druid和Pinot在內的所有三個主題系統在節點之間均具有"靜態"數據分佈，因為Druid（我想是Pinot）中的段載荷和運動是昂貴的操作，而不是針對每個特定查詢執行操作，通常僅每隔幾分鐘，幾小時或幾天執行一次。）

有關段的元數據直接在Druid中以及通過Pinot中的Helix框架保存在ZooKeeper中。在Druid中，元數據也保留在SQL數據庫中，本文下面的" Druid與Pinot之間的區別"部分對此進行了詳細說明。

數據管理：ClickHouse

ClickHouse沒有"細分"，其中包含嚴格屬於特定時間範圍的數據。沒有數據的"深度存儲"，ClickHouse群集中的節點還負責查詢處理以及存儲在其上的數據的持久性/持久性。因此，不需要像Amazon S3這樣的HDFS設置或雲數據存儲。

ClickHouse具有分區表，由特定的節點集組成。沒有"中央權限"或元數據服務器。在其中對某個表進行分區的所有節點都具有表元數據的完全相同的副本，包括存儲該表分區的所有其他節點的地址。

分區表的元數據包括節點的"權重"，用於分配新寫入的數據，例如， G。 40％的數據應流向節點A，30％的數據流向節點B，30％的數據流向節點C。通常，數據在節點之間的分配應相等。如上例所示，只有在將新節點添加到分區表中時才需要"傾斜"，以便用某些數據更快地填充新節點。這些"權重"的更新應由ClickHouse群集管理員手動完成，或者應在ClickHouse之上構建一個自動化系統。

數據管理：比較

在ClickHouse中，數據管理方法比在Druid和Pinot中更簡單：不需要"深度存儲"，只需一種類型的節點，就不需要用於數據管理的專用服務器。但是，當任何數據表變得如此之大以至於需要在數十個或更多節點之間進行分區時，ClickHouse的方法就變得有些問題了：查詢放大因子變得與分區因子一樣大，即使對於查詢而言，其覆蓋範圍很小。數據：

適用於大數據的開源OLAP系統的比較：ClickHouse，Druid和Pinot

> Data distribution tradeoff in ClickHouse

在上圖中給出的示例中，表數據分佈在Druid或Pinot中的三個節點之間，但是查詢少量數據間隔通常只會命中兩個節點（除非該間隔跨越了段間隔邊界）。在ClickHouse中，如果表在三個節點之間進行分區，則任何查詢都需要命中三個節點。在此示例中，這似乎並沒有太大的區別，但是可以想象節點數為100，而分區因子仍可以是e。 G。 10德魯伊或黑皮諾。

為了緩解此問題，實際上，Yandex上最大的ClickHouse群集（數百個節點）被分成許多"子群集"，每個群集包含幾十個節點。該ClickHouse集群用於支持網站分析，並且每個數據點都有"網站ID"維度。每個網站ID都嚴格分配給特定的子集群，該網站ID的所有數據都存放在該子集群中。該ClickHouse群集之上有一些業務邏輯層，可在數據提取和查詢方面管理此類數據分離。值得慶幸的是，在用例中，很少有查詢可以跨多個網站ID來訪問數據，而且這些查詢並非來自服務客戶，因此它們沒有嚴格的實時SLA。

ClickHouse方法的另一個缺點是，當群集快速增長時，如果沒有人工手動更改分區表中的"節點權重"，數據就不會自動重新平衡。

Druid中的查詢處理節點分層

具有段的數據管理"很容易推理"。段可以相對容易地在節點之間移動。這兩個因素幫助Druid實現了查詢處理節點的"分層"：將舊數據自動移動到磁盤相對較大但內存和CPU較少的服務器上，從而可以顯著降低運行大型Druid集群的成本，減慢對舊數據的查詢。

與"扁平"集群相比，該功能可使Metamarkets每月節省數十萬美元的Druid基礎設施支出。

> Tiering of query processing nodes in Druid

據我所知，ClickHouse和Pinot還沒有類似的功能，它們群集中的所有節點都應該是相同的。

由於Pinot的體系結構與Druid的體系非常相似，因此我認為在Pinot中引入類似的功能並不難。在ClickHouse中執行此操作可能會比較困難，因為段的概念對於實現此類功能確實很有幫助，但是仍然可以實現。

數據複製：Druid和Pinot

德魯伊和黑皮諾的複製單位是單個段。段在"深層存儲"層（例如，HDFS中的三個副本，或者在雲blob存儲（例如Amazon S3）中透明完成）和查詢處理層中複製：通常在Druid和Pinot中，每個段在兩個不同的節點上加載。如果複製因子低於指定級別，則"主"服務器將監視每個段的複製級別並在某個服務器上加載一個段。 G。如果某個節點無響應。

數據複製：ClickHouse

ClickHouse中的複製單元是服務器上的表分區，即 e。來自某個表的所有數據，存儲在服務器上。與分區類似，ClickHouse中的複製是"靜態且特定的"，而不是"雲樣式"，即 e。多臺服務器知道它們是彼此的副本（對於某些特定表；對於其他表，複製配置可能不同）。複製可提供持久性和查詢可用性。當某個節點上的磁盤損壞時，數據也不會丟失，因為它也存儲在其他節點上。當某個節點暫時關閉時，查詢可以路由到副本。

在Yandex上最大的ClickHouse集群中，不同數據中心中有兩組相等的節點，並且它們是成對的。在每一對中，節點是彼此的副本（即使用兩個的複製因子）並且位於不同的數據中心中。

ClickHouse依賴ZooKeeper進行復制管理，但是不需要ZooKeeper。這意味著單節點ClickHouse部署不需要ZooKeeper。

數據提取：Druid和Pinot

在Druid和Pinot中，查詢處理節點專門用於加載段並向段中的數據提供查詢，但不累積新數據併產生新段。

當可以延遲一個小時或更長時間來更新表時，將使用批處理引擎（例如Hadoop或Spark）創建分段。 Druid和Pinot都對Hadoop提供了"一流"的現成支持。 Spark中有一個用於Druid索引的第三方插件，但目前尚不支持。據我所知，Pinot甚至沒有對Spark的這種支持。 e。您應該自己做出貢獻：瞭解Pinot接口和代碼，編寫一些Java或Scala代碼。但這並不難。（更新：Slack的Ananth PackkilDurai現在正在為黑皮諾的Spark提供支持。）

當應該實時更新表時，Druid和Pinot都引入了"實時節點"的概念，該概念可做三件事：接受來自Kafka的新數據（Druid也支持其他來源），查詢最近的數據，以及在後臺創建細分，然後將其推送到"深度存儲"。

數據提取：ClickHouse

ClickHouse無需準備嚴格包含所有數據（屬於特定時間間隔）的"段"，因此可以簡化數據提取架構。 ClickHouse不需要像Hadoop這樣的批處理引擎，也不需要"實時"節點。常規ClickHouse節點（用於存儲數據併為其提供查詢）與之相同，它們直接接受批處理數據寫入。

如果表已分區，則接受批量寫入的節點（例如1萬行）將根據分區表本身中所有節點的"權重"來分配數據（請參見上方的"數據管理：ClickHouse"部分）。

單批寫入的行形成一個小的"集合"。集立即轉換為列格式。每個ClickHouse節點上都有一個後臺進程，該進程將行集合併為較大的行集。 ClickHouse的文檔在很大程度上將此原則稱為" MergeTree"，並強調了它與日誌結構的合併樹的相似之處，儘管IMO有點令人困惑，因為數據不是以樹的形式組織的，而是採用扁平列格式。

數據提取：比較

Druid和Pinot的數據攝取"繁重"：它包含幾種不同的服務，而管理是一項負擔。

儘管有一個警告，但ClickHouse中的數據提取要簡單得多（以更復雜的歷史數據管理為代價-參見上文）：您應該能夠在ClickHouse本身前面"批量"處理數據。開箱即用的功能是自動獲取和批處理來自Kafka的數據，但是如果您有不同的實時數據源，包括從Kafka替代的排隊基礎架構，流處理引擎到簡單的HTTP端點，則需要創建中間批處理服務，或直接向ClickHouse提供代碼。

查詢執行

Druid和Pinot具有稱為"代理"的專用節點層，它們接受對系統的所有查詢。它們基於從段到加載段的節點的映射，確定應向哪些"歷史"查詢處理節點發出子查詢。代理將此映射信息保留在內存中。代理節點將下游子查詢發送到查詢處理節點，當這些子查詢的結果返回時，代理將它們合併，並將最終的合併結果返回給用戶。

我只能推測為什麼在設計Druid和Pinot時決定提取另一種類型的節點。但是現在看來，這是必不可少的，因為隨著群集中的段總數超過一千萬，段到節點的映射信息需要GB的內存。在所有查詢處理節點上分配這麼多的內存太浪費了。因此，這是Druid和Pinot的"分段"數據管理架構所帶來的另一個缺點。

在ClickHouse中，通常不需要為"查詢代理"指定單獨的節點集。 ClickHouse中有一種特殊的臨時"分佈式"表類型，可以在任何節點上進行設置，並且對該表的查詢可以完成在Druid和Pinot中負責"代理"節點的工作。通常，此類臨時表是在參與分區表的每個節點上建立的，因此，實際上，每個節點都可以作為對ClickHouse集群進行查詢的"入口點"。該節點將向其他分區發出必要的子查詢，處理該查詢本身的一部分，並將其與其他分區的部分結果合併。

當一個節點（ClickHouse中的一個處理節點，或Druid和Pinot中的"代理"節點）向其他節點發出子查詢，並且單個或幾個子查詢由於某種原因而失敗時，ClickHouse和Pinot會正確處理此情況：合併所有成功子查詢的結果，並且仍將部分結果返回給用戶。現在，德魯伊非常缺乏此功能：如果任何子查詢失敗，那麼整個查詢也會失敗。

ClickHouse與Druid或Pinot：結論

Druid和Pinot中數據管理的"分段"方法與ClickHouse中較簡單的數據管理方法定義了系統的許多其他方面。但是，重要的是，這種差異對潛在的壓縮效率（儘管目前這三個系統中的壓縮情況目前都是令人沮喪的）或查詢處理速度幾乎沒有影響。

ClickHouse與傳統的RDMBS類似。 G。 PostgreSQL。特別是，ClickHouse可以僅部署在單個服務器上。如果預計的部署規模很小，則e。 G。不超過100個用於查詢處理的CPU內核和1 TB數據的數量，我想說ClickHouse相對於Druid和Pinot具有顯著優勢，因為它簡單易用，不需要其他類型的節點，例如" master"， "實時提取節點"，"經紀人"。在此領域，ClickHouse與InfluxDB競爭而不是與Druid或Pinot競爭。

Druid和Pinot類似於大數據系統，例如HBase。不取決於它們的性能特徵，而是取決於對ZooKeeper的依賴性，對持久性複製存儲（例如HDFS）的依賴性，對單個節點故障的恢復能力的關注以及不需要常規人員關注的自主工作和數據管理。

對於廣泛的應用程序，ClickHouse或Druid或Pinot都不是明顯的贏家。首先，我建議考慮能夠理解的系統源代碼，修復錯誤，添加功能等。"性能比較和系統選擇"部分將對此進行更多討論。

其次，您可以查看下錶。該表中的每個單元格都描述了某個應用程序的屬性，這使ClickHouse或Druid / Pinot可能是更好的選擇。行沒有按其重要性排序。每行的相對重要性對於不同的應用程序是不同的，但是如果您的應用程序由表中一列的許多屬性來描述，而由另一列的無或幾個屬性來描述，則很可能應該從列標題中選擇相應的系統。

注意：以上兩個屬性都不意味著您必須使用相應的系統，或者必須避免使用其他系統。例如，如果您預測的集群很大，那並不意味著您應該只考慮Druid或Pinot，而不要考慮ClickHouse。相反，這意味著Druid或Pinot可能會成為更好的解決方案，但是在某些應用中，即使對於大型集群，ClickHouse最終也可能是更理想的選擇，即使對於大型集群也是如此。

Druid與Pinot的區別

正如我在上面多次提到的，Druid和Pinot具有非常相似的體系結構。在一個系統中存在著幾個相當大的功能，而在另一個系統中則沒有，還有一些區域，其中一個系統比另一個系統前進得遠得多。但是，我要提到的所有這些內容都可以通過合理的努力在另一個系統中複製。

Druid和Pinot之間只有一個區別，那就是太大了，無法在可預見的將來消除-這是"主"節點中的細分管理的實現。而且，這兩種系統的開發人員可能都不想這樣做，因為兩者的方法各有利弊，並不是說一個人總比別人好。

Druid中的細分管理

Druid（和Pinot中都不是）中的"主"節點不負責集群中數據段的元數據的持久性以及段與加載這些段的查詢處理節點之間的當前映射。此信息保留在ZooKeeper中。但是，Druid還將這些信息保存在SQL數據庫中，應該提供該信息以設置Druid集群。我不能說為什麼最初做出這個決定，但是目前它提供了以下好處：

· 較少的數據存儲在ZooKeeper中。 ZooKeeper中僅保留有關從段ID到加載該段的查詢處理節點列表的映射的最少信息。剩下的擴展元數據（例如細分的大小，數據中的維度和指標列表等）僅存儲在SQL數據庫中。

· 如果由於數據段太舊而將其從集群中逐出（這是時間序列數據庫的常見功能，所有ClickHouse，Druid和Pinot都具有），則將它們從查詢處理節點上卸載，並從ZooKeeper中刪除有關它們的元數據，但不是來自"深度存儲"和SQL數據庫。只要不從這些地方手動刪除它們，就可以快速"恢復"真正的舊數據，以防某些報告或調查需要該數據。

· 最初這不太可能是一個意圖，但是現在Druid中有計劃使對ZooKeeper的依賴成為可選。目前，ZooKeeper用於三種不同的事物：段管理，服務發現和屬性存儲，例如。 G。用於實時數據攝取管理。服務發現和屬性存儲功能可以由Consul提供。細分管理可以通過HTTP公告和命令來實現，而ZooKeeper的持久性功能已由SQL數據庫"備份"，則部分啟用了細分管理。

將SQL數據庫作為依賴項的弊端是更大的操作負擔，尤其是在組織中尚未建立某些SQL數據庫的情況下。 Druid支持MySQL和PostgreSQL，Microsoft SQL Server有一個社區擴展。同樣，當Druid部署在雲中時，可以使用方便的託管RDBMS服務，例如Amazon RDS。

Pinot的細分市場管理

與Druid本身實現所有段管理邏輯並僅依賴Curator與ZooKeeper進行通信不同，Pinot將大部分段和集群管理邏輯委託給Helix框架。一方面，我可以想象它為Pinot開發人員提供了一種專注於其系統其他部分的槓桿。與在Druid中實現的邏輯相比，Helix的bug可能更少，這是因為在不同的條件下對它進行了測試，並且可能將更多的時間投入到Helix開發中。

另一方面，Helix的"框架界限"可能會限制Pinot。螺旋線，進而是Pinot，可能永遠永遠依賴ZooKeeper。

現在，我將列舉Druid與黑皮諾之間更淺的區別。這裡的"淺"是指如果有人願意的話，有一條清晰的途徑可以在缺少這些功能的系統中複製這些功能。

黑皮諾的"謂詞下推"

如果在攝取期間通過某些維鍵在Kafka中對數據進行了分區，則Pinot會生成包含有關該分區的信息的段，然後在執行帶有該維謂詞的查詢時，代理節點會預先過濾段，這樣有時段會少得多因此，查詢處理節點需要命中。

此功能對於某些應用程序的性能很重要。

當前，如果在Hadoop中創建了段，但在實時攝取期間創建段時尚不支持，Druid支持基於密鑰的分區。德魯伊目前尚未對經紀人實施"謂詞下推"。

"可插拔"Druid和自以為是的Pinot

由於Druid由許多組織使用和開發，因此隨著時間的流逝，它幾乎為每個專用部件或"服務"獲得了幾個可交換選項的支持：

· HDFS或Cassandra或Amazon S3或Google Cloud Storage或Azure Blob存儲等作為"深度存儲"；

· Kafka或RabbitMQ，Samza或Flink或Spark，Storm等（通過寧靜）作為實時數據提取源；

· Druid本身，或Graphite，Ambari或StatsD或Kafka，作為Druid群集（度量標準）遙測的接收器。

由於Pinot幾乎都是在LinkedIn上專門開發的，並且要滿足LinkedIn的需求，因此，它通常不能為用戶提供太多選擇：HDFS或Amazon S3必須用作深度存儲，而只有Kafka才能進行實時數據提取。但是，如果有人需要，我可以想象不難為Pinot中的任何服務引入對多個可插拔選項的支持。自Uber和Slack開始使用黑皮諾以來，這種情況可能很快就會改變。

在Pinot中更好地優化了數據格式和查詢執行引擎

也就是說，Druid目前尚不具備Pinot分段格式的以下功能：

· 在Druid中以位粒度和字節粒度壓縮索引列。

· 每一列的倒排索引都是可選的，在Druid中這是必填項，有時不需要，並且佔用大量空間。 Uber觀察到的Druid和Pinot之間在空間消耗上的差異可能是由於這一點。

· 每段記錄數值列中的最小值和最大值。

· 開箱即用的數據排序支持。如上文" CloudFlare：ClickHouse與Druid"部分中所述，在Druid中只能通過手動方式和破解方式實現。數據排序意味著更好的壓縮，因此Pinot的這一功能是Uber觀察到的Druid和Pinot之間的空間消耗（和查詢性能！）差異的另一個可能原因。

· 與Druid相比，用於多值列的某種更優化的格式。

所有這些事情都可以在Druid中實現。而且，儘管Pinot的格式在目前比Druid的格式上有了更好的優化，但距離真正的優化還差很遠。例如，Pinot（以及Druid）僅使用通用壓縮（例如Zstd），而尚未實現Gorilla論文中的任何壓縮思想。

關於查詢執行，不幸的是，Uber主要使用計數（*）查詢來比較Druid和Pinot（1、2）的性能，因為目前這只是Druid中的啞線性掃描，儘管用a代替它真的很容易。正確的O（1）實現。這是"黑匣子"比較毫無意義的說明，本文上面的"關於性能比較和系統選擇"部分對此進行了介紹。

我認為，Uber觀察到的GROUP BY查詢性能的差異應歸因於Druid的細分市場中缺乏數據排序，如本節上文所述。

Druid擁有更智能的細分分配（平衡）算法

Pinot的算法是將段分配給當前加載的總段數最少的查詢處理節點。 Druid的算法更加複雜，它考慮了每個細分的表格和時間，並應用了一個複雜的公式來計算最終得分，通過該公式對查詢處理節點進行排名，以選擇最佳的節點來分配新的細分。該算法使Metamarkets的生產查詢速度提高了30–40％。然而，在Metamarkets，我們仍然對這種算法不滿意，請參閱本文中的"歷史節點性能的巨大差異"部分。

我不知道LinkedIn在Pinot中使用如此簡單的分段平衡算法的效果如何，但如果他們需要時間來改進其算法，可能會有巨大的收穫等待著他們。

Pinot在查詢執行路徑上更具容錯能力

正如我在上面的"查詢執行"部分中提到的那樣，當"代理"節點向其他節點進行子查詢，而某些子查詢失敗時，Pinot會合並所有成功的子查詢的結果，並且仍將部分結果返回給用戶。

德魯伊目前尚未實現此功能。

Druid中的查詢處理節點分層

請參閱本文上方的同名部分。 Druid允許為較舊和較新的數據提取查詢處理節點的"層"，並且較舊數據的節點具有較低的" CPU，RAM資源/已加載段數"比率，從而可以在訪問時以較小的基礎架構開銷換取較低的查詢性能舊數據。

據我所知，Druid目前沒有類似的功能。

摘要

ClickHouse，Druid和Pinot具有根本上相似的架構，它們在通用大數據處理框架（例如Impala，Presto，Spark和列式數據庫）之間具有獨特的優勢，並適當支持唯一主鍵，點更新和刪除（例如InfluxDB）。

由於它們的架構相似，ClickHouse，Druid和Pinot具有近似相同的"優化限制"。但是到目前為止，這三個系統都還不成熟，距離該限制還很遙遠。僅需花費幾個月的工程師工作，就可以對其中任何一個系統（當應用於特定用例時）大幅度提高效率。我不建議您完全比較主題系統的性能，不要選擇您可以理解和修改的源代碼，或者要投資的源代碼。

在這三個系統中，ClickHouse與Druid和Pinot略有不同，而後兩個幾乎相同，但它們幾乎是完全獨立於同一系統的兩個獨立開發的實現。

ClickHouse更類似於PostgreSQL之類的"傳統"數據庫。 ClickHouse的單節點安裝是可能的。在小規模（少於1 TB的內存，少於100個CPU內核）上，如果您仍然想與它們進行比較，則ClickHouse比Druid或Pinot更有趣，因為ClickHouse更簡單並且移動部件和服務更少。我要說的是，它在這種規模上與InfluxDB或Prometheus競爭，而不是與Druid或Pinot競爭。

Druid和Pinot更類似於Hadoop生態系統中的其他大數據系統。它們即使在非常大的規模（超過500個節點）中仍保留"自動駕駛"屬性，而ClickHouse需要專業SRE的大量關注。此外，與ClickHouse相比，Druid和Pinot更適合優化大型集群的基礎架構成本，並且更適合雲環境。

Druid和Pinot之間唯一的可持續區別是Pinot依賴Helix框架，並將繼續依賴ZooKeeper，而Druid可以擺脫對ZooKeeper的依賴。另一方面，Druid的安裝將繼續取決於某些SQL數據庫的存在。

目前，黑皮諾比德魯伊的優化效果更好。（但是請在上面再次閱讀-"我不建議您完全比較主題系統的性能"，以及帖子中的相應部分。）

Druid和Pinot的體系結構幾乎完全相同，而ClickHouse則與它們略有不同。我將首先將ClickHouse的架構與"通用" Druid / Pinot架構進行比較，然後討論Druid與Pinot之間的較小差異。

(本文翻譯自Roman Leventov的文章《Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid, and Pinot》，參考：https://medium.com/@leventov/comparison-of-the-open-source-olap-systems-for-big-data-clickhouse-druid-and-pinot-8e042a5ed1c7)

分享到:

閱讀更多 聞數起舞 的文章

關鍵字: 大數據 Yandex Presto

「大數據」（一百四十八）常用算法及數據結構之Stacks

「大數據」（一百三十六）常見算法及數據結構之Bitmap樹

大數據：瞭解Hadoop生態中Hive和HBase兄弟倆的區別

「大數據」（一百二十七）Python基礎之字符串：字符串方法

「大數據」（一百二十五）Python基礎之元組：tuple函數

「大數據」（一百二十三）Python基礎之列表：列表方法

「大數據」（一百二十一）Python基礎之序列：成員資格

「大數據」（一百二十）Python基礎之序列：乘法

「大數據」（一百一十九）Python基礎之序列：序列相加

「大數據」（一百一十七）Python基礎之字符串

「大數據」（一百一十六）Python基礎之註釋

大數據，Hadoop生態詳解

「大數據」（一百一十五）Python基礎之常用魔法函數

「大數據」（一百一十四）Python基礎知識之函數

「大數據」（一百一十三）Python基礎知識之獲取用戶輸入

「大數據」（一百一十二）Python基礎之數字和表達式

「大數據」（一百零一）常用分區工具

「大數據」（一百）磁盤分區類型及各自作用

「大數據」（九十七）Scala之文件操作

「大數據」（九十二）Scala之輔助構造器

「大數據」（八十八）Scala之數組

「大數據」（八十七）Scala之控制器和函數

「大數據」（八十六）Scala基礎

「大數據」（八十五）Spark之MLlib體驗

「大數據」（八十三）Spark之Streaming實時流

「大數據」（八十二）Spark之SparkSQL應用案例

「大數據」（八十一）Spark之SparkSQL運行架構

03.08 「大數據」（八十一）Spark之SparkSQL運行架構

「大數據」（八十）Spark之Shuffle機制

「大數據」（七十九）Spark之Lineage機制

「大數據」（七十八）Spark之通信模塊

03.03 「大數據」（七十六）Spark之工作機制

02.27 大數據：瞭解Hive和HBase的區別

02.26 「大數據」（七十）Spark之生態系統

大數據 Hadoop（中）筆記大全收藏加關注

大數據 Linux筆記大全

大數據：Yarn應用程序提交流程

大數據、Hadoop核心框架和MapReduce原理

大數據：清洗流程以及入門實例

大數據：數據清洗的定義以及數據清洗的方法

大數據、雲計算系統頂級架構師課程學習路線圖

大數據:Hbase的知識大全都在這裡

大數據：基於zookeeper協調的分布式日誌系統Kafka的文件存儲機制

大數據、機器學習和深度學習類命令行工具

大數據，Java丶Python丶Web前端等300G的學習資料無償分享！

大數據——MapReduce

大數據-hadoop生態系統及版本演化

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？

適用於大數據的開源OLAP系統的比較：ClickHouse，Druid和Pinot

信息來源

在選擇大數據OLAP系統時，請不要比較它們在當前用例中的最佳狀態。 目前，它們都非常次優。 比較您的組織可以使這些系統朝著使您的用例更優化的方向移動的速度。

系統之間的相似性

耦合數據和計算

與大數據SQL系統的區別：索引和靜態數據分發

沒有點更新和刪除

大數據樣式提取

大規模驗證

不成熟

性能比較與制度選擇

CloudFlare：ClickHouse與Druid

ClickHouse和Druid / Pinot之間的區別

數據管理：Druid和Pinot

數據管理：ClickHouse

數據管理：比較

Druid中的查詢處理節點分層

數據複製：Druid和Pinot

數據複製：ClickHouse

數據提取：Druid和Pinot

數據提取：ClickHouse

數據提取：比較

查詢執行

ClickHouse與Druid或Pinot：結論

Druid與Pinot的區別

Druid中的細分管理

Pinot的細分市場管理

黑皮諾的"謂詞下推"

"可插拔"Druid和自以為是的Pinot

在Pinot中更好地優化了數據格式和查詢執行引擎

Druid擁有更智能的細分分配（平衡）算法

Pinot在查詢執行路徑上更具容錯能力

Druid中的查詢處理節點分層

摘要

相關文章:

「大數據」（一百四十八）常用算法及數據結構之Stacks

「大數據」（一百三十六）常見算法及數據結構之Bitmap樹

大數據：瞭解Hadoop生態中Hive和HBase兄弟倆的區別

「大數據」（一百二十七）Python基礎之字符串：字符串方法

「大數據」（一百二十五）Python基礎之元組：tuple函數

「大數據」（一百二十三）Python基礎之列表：列表方法

「大數據」（一百二十一）Python基礎之序列：成員資格

「大數據」（一百二十）Python基礎之序列：乘法

「大數據」（一百一十九）Python基礎之序列：序列相加

「大數據」（一百一十七）Python基礎之字符串

「大數據」（一百一十六）Python基礎之註釋

大數據，Hadoop生態詳解

「大數據」（一百一十五）Python基礎之常用魔法函數

「大數據」（一百一十四）Python基礎知識之函數

「大數據」（一百一十三）Python基礎知識之獲取用戶輸入

「大數據」（一百一十二）Python基礎之數字和表達式

「大數據」（一百零一）常用分區工具

「大數據」（一百）磁盤分區類型及各自作用

「大數據」（九十七）Scala之文件操作

「大數據」（九十二）Scala之輔助構造器

「大數據」（八十八）Scala之數組

「大數據」（八十七）Scala之控制器和函數

「大數據」（八十六）Scala基礎

「大數據」（八十五）Spark之MLlib體驗

「大數據」（八十三）Spark之Streaming實時流

「大數據」（八十二）Spark之SparkSQL應用案例

「大數據」（八十一）Spark之SparkSQL運行架構

03.08 「大數據」（八十一）Spark之SparkSQL運行架構

「大數據」（八十）Spark之Shuffle機制

「大數據」（七十九）Spark之Lineage機制

「大數據」（七十八）Spark之通信模塊

03.03 「大數據」（七十六）Spark之工作機制

02.27 大數據：瞭解Hive和HBase的區別

02.26 「大數據」（七十）Spark之生態系統

大數據 Hadoop（中） 筆記大全 收藏加關注

大數據 Linux筆記大全

大數據：Yarn應用程序提交流程

大數據、Hadoop核心框架和MapReduce原理

大數據：清洗流程以及入門實例

大數據：數據清洗的定義以及數據清洗的方法

大數據、雲計算系統頂級架構師課程學習路線圖

大數據:Hbase的知識大全都在這裡

大數據：基於zookeeper協調的分布式日誌系統Kafka的文件存儲機制

大數據、機器學習和深度學習類命令行工具

大數據，Java丶Python丶Web前端等300G的學習資料無償分享！

在選擇大數據OLAP系統時，請不要比較它們在當前用例中的最佳狀態。目前，它們都非常次優。比較您的組織可以使這些系統朝著使您的用例更優化的方向移動的速度。

大數據 Hadoop（中）筆記大全收藏加關注

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

長春亞泰u23球員周大地惡意蹬踏呂文君吃到紅牌，你覺得他應該受到什麼樣的處罰？