如何在60分鐘內從源代碼構建Spark並將其部署到Kubernetes集群

佚名

2021-04-09 10:37:05

通過此Spark教程獲得有關Kubernetes中大數據的炒作培訓

> Match made in heaven? Sources: Spark Logo, k8s Logo, Emoji

動機/前奏

在上一篇文章中，我解釋了Hadoop生態系統的廣泛特徵，您可以在此處閱讀有關它的內容。這篇文章的重點是結尾，我將在我的另一篇文章中公然竊，因為它也是這篇文章的開始：

現在，如果您過去幾年一直在聆聽Hadoop的生態系統，您會發現市場上兩個最大的參與者– Cloudera和Hortonworks –大約在一年前合併了，這是由於Hadoop大數據市場的放緩。加上這樣一個事實，人們對Kubernetes的興趣似乎比對諸如資源管理和編排的YARN等較早的Hadoop特定技術更感興趣，對PyTorch等DL框架的快速採用使您對老化的Hadoop堆棧形成了完美的風暴。儘管如此，諸如Apache Spark之類的項目正在通過諸如引入Kubernetes替代YARN。生態系統的激動人心的時刻！

介紹

本文的目的是向您展示2020年大數據生態系統中一些很棒的孩子正在做什麼；試圖將東西塞進Kubernetes（這是一件好事！）。更具體地說，使用Spark的本地Spark驅動程序和執行器的實驗性實現，其中Kubernetes是資源管理器（而不是YARN）

……讓我們在60分鐘內完成此操作：

· 從GitHub克隆Spark項目

· 使用Maven構建Spark發行版

· 在本地構建Docker映像

· 使用多個執行程序副本運行Spark Pi作業

· 使用端口轉發在瀏覽器中顯示Spark UI並檢查Spark作業

如果就這麼簡單，為什麼我們需要這篇文章？請繼續閱讀，以瞭解這是如何花費我幾天時間來解決的。

免責聲明：您在60分鐘內的行駛里程可能會有所不同，但是在您通常知道如何在計算機上進行操作（包括設置本地k8s集群並運行bash腳本等）的前提下，這確實可行。此外，如果計算機速度較慢，則構建Spark可能需要一段時間；）

現在所有人都參加了，讓我們在Kubernetes上部署Spark。為此，您可以使用筆記本電腦運行的磨機minikube設置，而不是僅為此練習而在公共雲中租用服務器。除非您想全力以赴，否則您將被敬禮。

步驟1-3（克隆存儲庫，構建Spark，構建Docker映像）：

這實際上就是樂趣的開始-在"最簡單"的步驟上。好吧，戴上安全帶並檢查一下（雙關語意）：

如果您在此處克隆官方的Spark信息庫，並且無意遵循此處在k8s中運行Spark的官方Spark指南，則會遇到我幾天前在Spark的Jira待辦事項中打開的問題。

也就是說，Dockerfile中存在多個錯誤的引用，因此，僅運行Dockerfile註釋中所述的docker build命令將不起作用。

更新：好吧，事實證明，您實際上可以按照文檔中的描述運行內容，但前提是您需要特別注意。

而不是Run

./build/mvn -Pkubernetes -DskipTests clean package

你需要Run

dev/make-distribution.sh -Pkubernetes

這會創建一個Spark發行版本，而不僅僅是正常的裝配點滴，但我想我跳過了他們教程中的精簡版，因此我相應地更新了本文。

tl; dr完成步驟1-3只需執行以下操作：

<code>

git

clone git@github.com:apache/spark.git

spark

-Pkubernetes

dist

docker

build -t spark:latest -f kubernetes/dockerfiles/spark/Dockerfile .

/<code>

此時，您應該在本地Docker註冊表中有一個Spark映像！

步驟4：在Kubernetes中使用多個執行程序副本運行Spark Pi作業：

我在上面鏈接的Spark文章提到但並未作為熱門話題進行解釋，是由於Kubernetes的RBAC（基於角色的訪問控制），您不能簡單地將Spark部署到集群中，因為Spark需要對Kubernetes擁有一些附加權利集群來管理吊艙。這是由於Spark的體系結構-您部署了一個Spark驅動程序，該驅動程序可以在pod中創建Spark Executor，然後在完成工作後清理它們：

> Spark's architecture on Kubernetes from their documentation

tl; dr我們需要使用kubectl for Spark創建一個服務帳戶：

<code>kubectl create serviceaccount spark kubectl create clusterrolebinding spark-role --clusterrole=edit --serviceaccount=

default

:spark --

namespace

default

/<code>

下一步是使用我們本地構建的Docker映像運行Spark Pi：

<code>bin/spark-submit \

local

:///opt/spark/examples/jars/spark-examples_2

.12

-3.1

-SNAPSHOT.jar

10000000

/<code>

好的，但是這裡實際發生了什麼。好了，這就是將Spark驅動程序部署到Kubernetes集群中的方式！讓我們遍歷這些參數，以便您隨後可以真正開始使用它：

· 定義Kubernetes集群（使用kubectl cluster-info查找）。是的，需要有點奇怪的k8s：//前綴。

· 定義部署模式（集群，duh）

· 定義Spark驅動程序的名稱（這也是您的窗格名稱的開頭）

· 定義Spark Pi示例

· 在Kubernetes上運行帶有2個副本的Spark Executor，這些副本將由您的Spark驅動程序生成

· 使用我們的本地星火：最新圖片

· 將Kubernetes映像拉策略定義為從不，因此可以使用具有該名稱的本地映像。如果您對k8的內部運作不是很熟悉，那肯定要花一分鐘的時間來找出……

· 定義服務帳戶（還記得RBAC嗎？）

· 指向帶有參數10000000的本地jar路徑（該路徑與Dockerfile中的所有其他示例一起復制到指定路徑）（如果您不知道該數字的含義，請查看Spark Pi源代碼和文檔）。是的，local：///是正確的，不是錯字。

kubectl get pods

現在應該返回正在運行的Pod列表！並且不必擔心它們最終何時終止—這是此實現的默認設置。

步驟5：使用端口轉發顯示Spark UI

kubectl port-forward 4040:4040

然後，您應該能夠從瀏覽器上方的第一個命令使用localhost：4040訪問Spark UI，如下所示：

> This is a screenshot of my localhost:4040 with port forwarding

您還可以像這樣檢查日誌：

kubectl -n=default logs -f

結論

如果您非常瞭解Spark和Kubernetes，則使用config和Dockerfile進行此精確設置可能非常簡單，否則就可能有些噩夢。我希望這可以幫助您在幾分鐘內完成此操作！

你從這裡去哪裡？任何你想的地點都可以。本文的目標是使用適用於Spark的新式高級資源管理器快速入門並使其運行。我建議您與其他Spark應用程序一起使用此設置，作為下一步-將來我可能只寫一些更復雜的示例的文章（讓我知道是否可以）。

玩Kubernetes！

備擇方案

這是2020年4月20日的更新，您還可以使用Google的本地Kubernetes運營商，這似乎很有希望，並且可以將手動部署步驟刪除到您的集群中：

例如，目前正在使用它。 Salesforce和Microsoft已投入生產，Uber和Lyft正在對其生產進行評估。將來需要注意的事情！

(本文翻譯自Nikolay Dimolarov的文章《How to build Spark from source and deploy it to a Kubernetes cluster in 60 minutes》，參考：
https://towardsdatascience.com/how-to-build-spark-from-source-and-deploy-it-to-a-kubernetes-cluster-in-60-minutes-225829b744f9)

新手學Python需看的幾個練手小項目，輕鬆不枯燥哦！

Linux迎來29週年，我們一起看下Linux發展(第一部)

靜態網站生成器之React框架Gatsby (四）免費https自定義域名

動機/前奏

介紹

步驟1-3（克隆存儲庫，構建Spark，構建Docker映像）：

步驟4：在Kubernetes中使用多個執行程序副本運行Spark Pi作業：

結論

相關文章:

新手學Python需看的幾個練手小項目，輕鬆不枯燥哦！

Linux迎來29週年，我們一起看下Linux發展(第一部)

靜態網站生成器之React框架Gatsby (四）免費https自定義域名

你家的智能門鎖安全嗎？——解讀智能門鎖

特斯拉遭公開怒懟：過去一年一直被騷擾、霸凌！背後發生了什麼？

「源代碼」VBA按任意列拆分工作簿

學python從“娃娃”抓起，python基礎第1講

JAVA 開發人員的自我修養

英雄聯盟：官方活動免費領“源代碼.娜美”永久皮膚即將結束

超級好看的懸疑燒腦電影《源代碼》

浦東開發開放30年：科創“源代碼”築就張江創新生態“引力場”

首例王者榮耀外掛案宣判：主犯高中文化自學編程

西安知產律師 | 程序員離職盜走源代碼，企業商業祕密如何保護？

web前端工程師7天0基礎到精通（項目實踐：正邦網頁製作（二））

程序猿的工作難在哪？

特斯拉再提訴求，小鵬汽車迴應：鬧夠了沒有？

特斯拉起訴小鵬汽車員工：他盜竊30萬份機密文件

瀏覽器中F12的妙用，極大拓展功能，還能裝X防騙

c語言經典例題，想看看嗎

如何提升 Visual Studio Code 的 JavaScript 開發效率（一）

史上價格最低皮膚，源代碼炫彩妖姬只要2000精粹，真心的便宜

Valve：被洩漏的《CS:GO》源代碼影響不大

10萬起步價的小鵬汽車和特斯拉有什麼仇什麼怨？

小鵬汽車稱被特斯拉“霸凌”：從頭至尾都不是被告

操作系統沒那麼難，你也能從零開發一個五臟俱全的操作系統

開放共贏，區塊鏈私鑰安全團隊Bepal開啟共享開源計劃

利用Python爬取全國大學排名分析，安心填志願

竟然是他！獨之異神祕的背後推手異父顯露真身！《絕命響應》第二十二集更新

小鵬汽車聲明：過去一年特斯拉提出諸多不合理訴求

共享淘客返利APP,淘客返利APP共享版,你真讓人操碎了心!

想做好淘客導購返利類型APP必須先看這些！

淘客APP開發,導購返利APP開發,淘寶客,返利APP開發,深度探索08

淘寶客,淘客,你必須要知道這才是真正的淘客APP,返利APP!

程序員轉行做大數據有什麼優勢？

大疆源代碼洩露具體怎麼回事？大疆源代碼洩露背後真相曝光！

寧可不賣也不能給的戰鬥機源代碼有多重要？

英雄聯盟：IG冠軍之月慶典活動即將開始，需要注意的東西盤點

小鵬汽車向特斯拉發嚴正聲明：過去一年一直被騷擾、霸凌

你知道當年《熱血傳奇》私服是怎麼來的嗎？如果沒私服會如何發展

為何印度蘇-30MKI比俄自產蘇-30SM貴出一架JF-17梟龍？

特斯拉要求小鵬汽車提供全部源代碼，是白嫖還是霸凌？

特斯拉要求小鵬汽車披露其自動駕駛源代碼 小鵬汽車：堅決依法抗辯

華為年薪200萬趕不上，思科裁員100萬又錯過，好好學習是沒有錯的

這間農莊，是中國未來30年的“源代碼”

特斯拉訴前員工竊取代碼案升級 小鵬汽車稱遭霸凌

特斯拉再提“無理”訴求，小鵬汽車迴應：鬧夠了沒有？

手把手教你實現熱更新功能，帶你瞭解 Arthas 熱更新背後的原理

謝孟軍：開源如何影響程序員？

「一週安全資訊1003」醫療巨頭UHS遭遇勒索軟件攻擊

訊飛快讀~文字轉語音，教大家一個能免費合成語音的方法教程

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

特斯拉要求小鵬汽車披露其自動駕駛源代碼小鵬汽車：堅決依法抗辯

特斯拉訴前員工竊取代碼案升級小鵬汽車稱遭霸凌

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患