在 OSX 和 LInux 上無需使用鼠標或 GUI ,也可以完成大量的操作。極具人氣的面向各類 N X系統的命令行工具目前已經擴展至Python、Go、NodeJS 乃至各類混合型工具當中。即使您並不打算通過命令行來運行整條數據處理管道,這些工具依舊可以帶來很大的幫助。
在 OSX 和 LInux 上無需使用鼠標或 GUI ,也可以完成大量的操作。極具人氣的面向各類 N X系統的命令行工具目前已經擴展至Python、Go、NodeJS 乃至各類混合型工具當中。即使您並不打算通過命令行來運行整條數據處理管道,這些工具依舊可以帶來很大的幫助。
《 Data Science at the Command Line》一書與 GitHub 統計了大量高質量用於預處理和後處理類的工具,並且根據需要可以進行適當的轉換。在本文中,將為大家推薦一些工具。 大家可關注weixin公眾號:大數據技術工程師 有更多大數據精彩內容等你來看,還有大數據學習資料免費領取哦,回覆關鍵字即可。
CSVKit 是如此神奇!它使用逗號分隔值執行所需的一切。 您可以通過 cvs cut 剪切列,使用 cvsgrip 過濾列,通過 sql2csv 將數據從 Postgresql 提取到 CSV,使用 cols 獲取列的子集,並使用 in2cv 將 Excel 轉換為CSV。
快速工具推薦:
1、agate —— Python 數據分析庫。
agate 原名為 journalism。是針對人而不是機器優化的 Python 數據分析庫。它是 numpy 和 pandas 的一種替代方法,它用可讀的代碼解決現實中的問題。
2、ImageMagick —— 從命令行編輯,創建,轉換,翻轉和更改圖像。
ImageMagick 是一個用來創建、編輯、合成圖片的軟件。它可以讀取、轉換、寫入多種格式的圖片。圖片切割、顏色替換、各種效果的應用,圖片的旋轉、組合,文本,直線, 多邊形,橢圓,曲線,附加到圖片伸展旋轉。ImageMagick 的大多數功能的使用都來源於命令行工具。
3、json2csv——JSON 轉換成 CSV。
用json2csv我們可以輕鬆把JSON轉換成CSV。
4、 XML2JSON
xml2json 是一個 header-only 的 C++ 庫,用來將 XML 文檔轉成 JSON 格式。它是高性能的--在商業硬件上3ms可以轉換一個150KB的字幕文件。
**5、IMGKit—— 將網頁轉換成圖片的 Python 庫。 **
IMGKit 是一個 Python 2/3 的庫,使用它我們可以將網頁轉換成圖片,輸入可以是網址,HTML 文件或者字符串。
**6、wkhtmltopdf—— HTML到PDF的文檔轉。 **
wkhtmltopdf 是一個使用 WebKit 網頁渲染引擎開發的用來將 HTML 文檔轉成 PDF 文檔的工具,可以跟多種腳本語言進行集成來轉換文檔。
使用方法:wkhtmltopdf www.myhomepage.com myhomepage.pdf
**7、 wu —— 一個快速命令行天氣應用程序 **
wu 是一個小型,快速的命令行應用程序,從 Weather Underground 檢索天氣數據。
8、Gatling —— 服務器性能測試工具。
Gatling是一款基於Scala 開發的高性能服務器性能測試工具,它主要用於對服務器進行負載等測試,並分析和測量服務器的各種性能指標。Gatling主要用於測量基於HTTP的服務器,比如Web應用程序,RESTful服務等。
9、 kp - 一個 Kafka 工具
一個利用 CLI 直接生成數據到 Kafka 的工具。
10、 KT - Kafka 命令行工具
基於 JSON 的 Kafka 工具
11、 jsonify —— 快速創建 JSON 對象
根據命令行參數快速生成JSON輸出;解析字符串或任意 JSON 值的簡單語法;支持讀取文件內容,方便轉義。
12、Exiv2—— 圖像數據提取。
Exiv2 是一個用來提取圖片中的EXIF、LPTC 和 XMP 元數據信息的C++類庫。同時還提供了命令行工具。
13、osquery —— 操作系統監控工具
osquery 是 SQL 驅動的分析和監控操作系統的工具,是操作系統分析框架,支持 OS X 和 Linux 系統。osquery 能幫助監控和分析低水平的操作系統,提供更直觀的性能監控。osquery 在操作系統中就像是一個高性能的關係數據庫,允許你編寫基於 SQL 的查詢語句來洞察操作系統的數據。
14、Tesseract OCR 命令行使用方法
15、Hadoop / HDFS 命令行工具彙總
16、curl—— 字符界面下的下載工具
curl 是一款著名的字符界面下的下載工具,支持HTTP、HTTPS、FTP、FTPS、DICT、TELNET、LDAP、FILE,和 GOPHER。此外還具有cookies支持、斷點續傳、FTP上傳、密碼支持、SSL支持和代理支持等特性。curl同時還提供了一套libcurl的庫,開發者可以基於這個庫開發其他下載工具。
17、wget—— 命令行文件下載工具
wget 是一個從網絡上自動下載文件的自由工具。它支持 HTTP,HTTPS 和 FTP 協議,可以使用 HTTP 代理。wget 可以跟蹤 HTML 頁面上的鏈接依次下載來創建遠程服務器的本地版本,完全重建原始站點的目錄結構。
18、 mqtt-cli
一個通過 mqtt 代理發送 mqtt 消息的節點命令行應用程序。也可以用於訂閱和收聽有關主題的傳入郵件。
除此之外,還可以 編寫一些簡短的 Python 腳本來通過命令行實現數據處理 。
from nltk.sentiment.vader
import SentimentIntensityAnalyzer
import sys
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sys.argv[1])
print('Compound {0} Negative {1} Neutral {2} Positive {3} '.format(ss['compound'], ss['neg'], ss['neu'], ss['pos']))
只需五行 Python 腳本即可實現情緒分析。
甚至可以通過命令行調試 TensorFlow(由於目前是 beta 測試版本,執行過程中可能會出現一些問題)。
閱讀更多 大數據信息站 的文章