手把手教你在本機配置spark 技术頭條網

今天是spark系列的第一篇文章。

最近由於一直work from home節省了很多上下班路上的時間，加上今天的LeetCode的文章篇幅較小，所以抽出了點時間加更了一篇，和大家分享一下最近在學習的spark相關的內容。看在我這麼拼的份上，求各位老爺賞個轉發。。。

PS：本專題不保證每週更新，畢竟不是每週都能加更。。。

言歸正傳，spark鼎鼎大名，凡是搞分佈式或者是大數據的應該都聽說過它的大名。它是apache公司開發的一個開源集群計算框架，也就是分佈式計算框架。相比於Hadoop的MapReduce，它支持更多的功能，並且運算速度也更快，如今已經成了非常主流的大數據計算框架。幾乎各大公司當中都有它的身影。

spark支持像是java、scala和Python

等眾多語言，但是對於spark來說語言不太重要，不同的語言寫出來的spark代碼相差不太大。和之前的文章一樣，我會以Python為主，畢竟Python對初學者比較友好(雖然我自己在工作當中使用的是scala)。

今天這篇文章從最基礎的spark安裝開始講起，安裝spark並不需要一個龐大的集群，實際上單機也可以。這也是我們學習的基礎，這樣我們就可以在本機上做各種實驗了。和大多數環境不同，spark的安裝要簡單得多，這也是它比較友好的地方。

下載安裝

進入spark官網，點擊download

選擇Pre-built for Apache Hadoop，這樣我們就不用預先安裝Hadoop了，相信我，安裝Hadoop是一件非常痛苦的事情。。。

在跳轉的鏈接當中繼續點擊，開始下載。

壓縮包大概在230MB左右，不是特別大，很快能下好。下好了之後會得到一個tgz的壓縮包。如果是Mac的話可以直接解壓，如果是Windows的話可以用7z等解壓工具進行解壓。

也可以使用命令行進行解壓：

<code>sudo tar -zvxf spark-3.0.0-preview2-bin-hadoop2.7.tgz/<code>

解壓完了之後記住你放的位置，當然我更建議你放在專門的位置。或者可以放在/usr/local下。

使用命令進行移動：

<code>sudo mv ~/Downloads/spark-3.0.0-preview2-bin-hadoop2.7 /usr/local//<code>

基本配置

放置好了之後，我們打開配置文件修改環境配置。因為我用的是zsh的終端，如果是原生的終端的話應該是.bash_profile，由於我用的是mac，如果是windows用戶，請百度windows設置環境變量。。。

<code>vim ~/.zshrc/<code>

在末尾加上三行：

<code>export SPARK_HOME=/usr/local/spark-3.0.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_PYTHON=python3/<code>

改完了之後，別忘了source ~/.zshrc激活一下。

之後我們運行一下pyspark，看到熟悉的logo就說明我們的spark已經裝好了

目前為止常用的spark方式主要有兩種，一種是通過Python還有一種是通過Scala。這兩種都蠻常見的，所以我們可以簡單瞭解一下。

進階配置

下面介紹最基本的開啟方法，Python的開啟方法我們剛才已經介紹過了，可以直接使用pyspark命令進行喚醒。對於Scala來說也差不多，不過命令換了一下，不叫pyspark也不叫scspark，而是spark-shell。

出來的界面大同小異，只不過語言換成了Scala：

無論是pyspark還是spark-shell都只是spark提供的最基礎的工具，使用體驗並不好，已經不太適合現在的需求了。好在針對這個問題也有解決方案，一種比較好的解決方式是配置jupyter notebook。

jupyter notebook是非常常用的交互式編程的工具，廣泛使用。我們可以在jupyter notebook當中配置Scala和Pyspark。

首先介紹Scala。

Scala的配置方法很簡單，由於我們已經配置好了spark的環境變量，我們只需要安裝一下jupyter下Scala內核Toree即可。安裝的方式也非常簡單，只需要兩行命令：

<code>pip install toree
jupyter toree install --spark_home=$SPARK_HOME/<code>

運行結束之後，我們打開點擊添加，可以發現我們可以選擇的內核多了一個：

pyspark的配置也很簡單，我們只需要在.zshrc當中添加兩個環境變量：

<code>export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook/<code>

配置好了之後，我們只需要在終端輸入pyspark就會自動為我們開啟一個新的jupyter網頁。我們選擇Python3的內核新建job就可以使用pyspark了。我們執行一下sc，如果看到以下結果，就說明我們的pyspark已經可以在jupyter當中執行了。

到這裡，關於spark的安裝配置就介紹完了。由於我個人使用的是Mac電腦，所以一些配置方法可能對其他系統的電腦並不完全適用。但是配置的過程是大同小異的，一些具體的細節可以針對性地進行調整。

spark是當下非常流行的大數據處理引擎，使用非常廣泛，所以瞭解和掌握spark，也是非常重要的技能。和Hadoop比起來它的安裝和使用都要簡便許多，希望大家都能體會到它的魅力。

今天的文章就是這些，如果覺得有所收穫，請順手點個關注或者轉發吧，你們的舉手之勞對我來說很重要。

分享到:

閱讀更多 承志的算法課堂 的文章

關鍵字: 本機 A Windows

手把手教你在本機配置spark

下載安裝

基本配置

進階配置

相關文章:

centos7 安裝網絡監視器iftop

09.25 SpringCloud下微服務多個實例，調試時只調用本機提供服務的方法

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

現在的網紅直播行業怎麼樣？

我能找前女友做朋友嗎？該怎麼做呢？

天天跟電腦下棋（人機對弈）能提高棋藝嗎？

父母在一定要不遠遊嗎？

玩遊戲花錢最多的有哪些？為什麼？

買馬自達是不是不能講價？你有什麼買車經歷？

湖北籍員工因疫情無法返崗，有工資或生活費發放嗎？具體標準是什麼，有何法律依據？

群體免疫有可能成為世界各國抗疫的最後出路嗎？

農村人見不得別人好。對大衣哥朱之文家門被圍堵事件你怎麼看？

如果有新冠肺炎疫苗，能做到公平分配嗎？

一個幼兒園投資貸款三百多萬，復工遙遙無期，現金流斷了，在現在看來還有可能翻身嗎？

疫情過後，你最想吃的美食是什麼？為什麼？

有好的淡斑美白產品推薦嘛，臉部的就行？

如何看待肖戰4月27日發博“給大家添堵了，別傷害到別人”？

玉米價格部分地區漲勢強勁，你們那裡多少錢？還會怎麼變化？

小麥秸稈還田，種玉米不施肥十年了，可以嗎？

買了個翡翠鐲子，行家能否給看看真假？估個價？

剛買的nike小倫納德開膠了，心痛死了，又捨不得丟，想問用什麼膠水比較好呢？

產後恢復預防子宮下垂，消滅大肚腩，恢復馬甲線，該如何做？

特朗普是美國推出來的小丑嗎？

在一起五年的男朋友，分手後，還能和好嗎？

為什麼國內幾乎沒有汽車企業生產一臺電動快遞員汽車？

我家在西安，五一假期想到四川旅遊合適嗎？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？