01.16 都是10G的大數據計算，Python與PHP誰算的速度更快？正面PK硬剛_技术 _ 頭條網

咱們的CentOS Linux 8採用的是最小化安裝的方式，在這種方式下，系統默認是沒有安裝Python的。另外，由於咱們只是在系統上部署了Hadoop、Zookeeper等軟件，另外也部署了PHP，並沒有在系統上部署Python，所以咱們需要給它裝一個。

安裝Python

先看看都有那些Python的rpm包，運行以下命令：

dnf search python

執行安裝Python，系統會提示沒找到，也會提示系統中存在python2和python36：

dnf -y install python

我們安裝一下python36，執行以下命令：

dnf -y install python36

運行一下python，什麼？系統居然還是沒有python命令。這兩天剛看到一個CentOS Linux 8的命令alternatives，這個是用來控制一個系統裡面多個軟件版本的情況用的。我們設置python3作為我們的默認python命令，指定下列命令：

alternatives --config python

這樣就安裝Python3並設定它作為我們默認使用的Python程序成功。

寫一個測試的Python程序運行一下試試，具體如下：

vi hello.py

將以下內容粘貼進去：

我們的第一個Python程序執行成功了。

下面咱們編寫Python的MapReduce程序，網上找了一個示例，修改了一下，具體內容如下。

準備Python數據分析程序

因為咱們的服務器已經開始運行了，所以沒有辦法在一臺VMWare虛擬服務器上安裝好Python然後複製幾份過去了。這樣咱們就在另外7臺服務器上，分別執行上述的安裝命令。最後保證每臺服務器上的Python都能順利的執行那個測試程序即可。

根據咱們的集群規劃，主Rsync位於Hadoop222服務器，所以以下的程序編寫部分我們在Hadoop222（192.168.1.222）上面操作。

編寫Mapper程序

用Hadoop用戶執行以下命令：

su hadoop

mkdir -p /wwwroot/hadoop/python

cd /wwwroot/hadoop/python

我們先準備一個簡單的數據文件：

vi data.txt

把下列內容粘貼進去：

Hello world , Hello python !

Python is a programming language that lets you work more quickly and integrate your systems more effectively.

保存退出後，開始編寫mapper.py程序：

vi mapper.py

把下列內容粘貼進去：

#!/usr/bin/python

#導入sys和re庫

import sys

import re

#初始化全局字典dict

word_count = {}

#一行一行的接收輸入的文字並處理

for line in sys.stdin:

#將輸入的字符串去掉兩頭的空格，轉換成小寫字符

#並用"非字母數字及下劃線"分隔成列表

word_list = re.split('\\W', line.strip().lower())

#遍歷列表的每個單詞

for word in word_list:

#不統計空字符

if word.strip()=='' :

continue

#將獲取到的單詞標記1次

if word not in word_count.keys():

word_count[word] = 1

else:

#將獲取到的單詞標記增加1次

word_count[word] += 1

#將獲取到的字典排序(按照key排序，正序）

d = sorted(word_count.items(), key=lambda item:item[0], reverse=False)

#遍歷輸出

for k,v in d:

print(str(k) + '\\t' + str(v))

#mapper.py內容結束

給mapper.py賦予可執行權限：

chmod +x /wwwroot/hadoop/python/mapper.py

注意：代碼格式不能錯，特別是段落前的空格，因為空格也是Python必備的格式。

以上代碼會將輸入的字符串解析，並輸出如下形式內容（單詞正序排序）：

hello 1

world 5

zoo 2

解釋："world 5"的意思是world在文章中出現了5次

我們輸入以下命令測試程序執行的效果：

cat data.txt | /wwwroot/hadoop/python/mapper.py

輸出的內容與預期的結果一致。

編寫Reducer程序

用Hadoop用戶執行以下命令：

su hadoop

cd /wwwroot/hadoop/python

vi reducer.py

把下列內容粘貼進去：

#!/usr/bin/python

#導入sys和re庫

import sys

#初始化全局字典dict

word_count = {}

#一行一行的接收輸入的文字並處理

for line in sys.stdin:

#將輸入的字符串用製表符（TAB）分隔成列表

ss = line.strip().split('\\t')

#格式不對的不要（必須滿足類似"hello 1"格式）

if len(ss) < 2:

continue

k = ss[0].strip()

v = int(ss[1].strip())

#將獲取到的單詞標記v次

if k not in word_count.keys():

word_count[k] = v

else:

#將獲取到的單詞標記增加v次

word_count[k] += v

#將獲取到的字典排序(按照value排序，倒序）

d = sorted(word_count.items(), key=lambda item:item[1], reverse=True)

#遍歷輸出

for k,v in d:

print(str(k) + '\\t' + str(v))

#reducer.py內容結束

給Reducer賦予可執行權限。

chmod +x /wwwroot/hadoop/python/reducer.py

注意：代碼格式不能錯，特別是段落前的空格，因為空格也是Python必備的格式。

這段代碼的大意是彙總各Mapper的統計結果，最終得出每個單詞出現了多少次數，按照出現次數倒序排序後以：

world 5

zoo 2

hello 1

這樣的形式輸出，接受的輸入方式"hello 1"，也就是mapper.php輸出的方式。

我們輸入以下命令測試程序執行的效果：

cat data.txt | /wwwroot/hadoop/python/mapper.py| /wwwroot/hadoop/python/reducer.py

輸出符合預期，這樣咱們就能放在Hadoop上運行了。

執行10G數據計算

1、所有的服務器上都安裝好Python；

2、保證mapper.py和reducer.py同步到各服務器上了；

3、為了對比PHP的計算效率，數據文件咱們還是使用PHP用的那個10G的文件。

我們在每臺服務器上都執行以下上邊的python程序，都能出結果，說明程序同步完畢，可以進行下一步了。

為了防止計算的結果會覆蓋掉上次的，所以Hadoop不允許把計算的結果存在與上次相同的目錄裡面。咱們先把output刪掉。當然，使用另外的目錄也可以，這裡就是演示一下怎麼在HDFS裡面刪除目錄。

執行命令：

hdfs dfs -rm -r /output

這樣，咱們就可以正式開始Python計算10G文本文件的程序了，參考一下PHP的，Python執行代碼如下：

hadoop jar /home/hadoop/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.2.1.jar -mapper /wwwroot/hadoop/python/mapper.py -reducer /wwwroot/hadoop/python/reducer.py -input /input/* -output /output

我們可以看看系統資源佔用情況，CPU不用說了一直持續100%的狀態，內存佔用一直在57.4左右徘徊，硬盤依然是輪流100%的佔用。

程序執行完畢以後，下載執行的結果文件查看，結果符合預期。

最後再看看執行時間上與PHP的對比，下圖上面是Python的數據，下圖是PHP的數據。

總結

從最終的結果上看，可以得出結論如下：

1、程序的執行效率PHP更勝一籌，比Python少用了將近50%；

2、內存佔用上Python比PHP少使用了將近6G的內存，資源佔用少了10%

因為兩個都是腳本語言，學習難度和開發難度都類似。但在進行大數據計算的時候，從結論上看還是各有優勢的。

安裝Python

準備Python數據分析程序

編寫Mapper程序

編寫Reducer程序

執行10G數據計算

總結

相關文章:

PHP 實現簡單計算器

PHP curl模擬登錄帶驗證碼的網站

PHP 跳出循環的方法; continue、break、exit之間的區別

PHP 7.4.4 發佈

php socket函數原理以及使用

PHP Curl的簡單使用

菜鳥日誌——php.ini中的短標籤

PHP Snoopy網頁抓取工具（淺談）

PHP header函數的使用

PHP 基礎知識（二）

PHP 基礎知識（一）

十大排序算法-快速排序 PHP 實現

02.09 php cli控制檯腳本錯誤輸出到php

「PHP」git項目利用webhook實現自動部署

PHP Webshell下繞過disable

php 中四捨五入的方法

php 判斷字符串中是否含有大寫字母的方法

PHP-Session利用總結

php 輸出404狀態碼

PHP 獲取本月第一天、最後一天，本週第一天、最後一天時間戳

PHP 沒有真正的數組

linux查看nginx、apache、php、php-fpm、mysql及配置項所在目錄

PHP 數組函數整理

PHP 資料庫SQL優化

PHP 小冷門知識

「php」php中常用的加密解密算法的講解（代碼）

09.19 php+redis實現消息隊列

「PHP」先從一個簡單的socket伺服器開始

PHP 代碼審計之添加管理員

PHP 代碼審計之文件刪除

「php」php中圖片處理和文件操作的方法小結（附代碼）

「php」php正則表達常用函數的總結（代碼示例）

「php」php如何快速導出資料庫到csv（代碼實現）

「php」php中流程控制語句簡單介紹（附示例）

「php」教你一步一步來創建一個php擴展（基本步驟）

PHP 運行模式總結

「php」如何使用php中ftp的上傳和下載功能的實現代碼

08.07 PHP 7.3 比 PHP 7.0 快 22%，即將進入特性凍結階段

PHP 進階（一）

php firebase/php-jwt token驗證（還在用session嗎？）

php curl詳細解析和常見大坑

07.04 php 超級實用的SQLite3類

PHP 常用框架

「php」從業者不同階段必須掌握的職業技能

「php」分享PHP外包公司常見的幾道面試題

PHP快速寫一個安裝程序install.php

「php」PHP 預定義類 Mysqli 常用代碼集合

「php」關於string函數介紹與使用方法詳解

02.12 PHP 的"魔術常量"，你知道多少？

PHP 實現人民幣數字轉漢字大寫

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪