大數據、機器學習和深度學習類命令行工具

在 OSX 和 LInux 上無需使用鼠標或 GUI ,也可以完成大量的操作。極具人氣的面向各類 N X系統的命令行工具目前已經擴展至Python、Go、NodeJS 乃至各類混合型工具當中。即使您並不打算通過命令行來運行整條數據處理管道,這些工具依舊可以帶來很大的幫助。

在 OSX 和 LInux 上無需使用鼠標或 GUI ,也可以完成大量的操作。極具人氣的面向各類 N X系統的命令行工具目前已經擴展至Python、Go、NodeJS 乃至各類混合型工具當中。即使您並不打算通過命令行來運行整條數據處理管道,這些工具依舊可以帶來很大的幫助。

《 Data Science at the Command Line》一書與 GitHub 統計了大量高質量用於預處理和後處理類的工具,並且根據需要可以進行適當的轉換。在本文中,將為大家推薦一些工具。 大家可關注weixin公眾號:大數據技術工程師 有更多大數據精彩內容等你來看,還有大數據學習資料免費領取哦,回覆關鍵字即可。

大數據、機器學習和深度學習類命令行工具

CSVKit 是如此神奇!它使用逗號分隔值執行所需的一切。 您可以通過 cvs cut 剪切列,使用 cvsgrip 過濾列,通過 sql2csv 將數據從 Postgresql 提取到 CSV,使用 cols 獲取列的子集,並使用 in2cv 將 Excel 轉換為CSV。

快速工具推薦:

1、agate —— Python 數據分析庫。

agate 原名為 journalism。是針對人而不是機器優化的 Python 數據分析庫。它是 numpy 和 pandas 的一種替代方法,它用可讀的代碼解決現實中的問題。

2、ImageMagick —— 從命令行編輯,創建,轉換,翻轉和更改圖像。

ImageMagick 是一個用來創建、編輯、合成圖片的軟件。它可以讀取、轉換、寫入多種格式的圖片。圖片切割、顏色替換、各種效果的應用,圖片的旋轉、組合,文本,直線, 多邊形,橢圓,曲線,附加到圖片伸展旋轉。ImageMagick 的大多數功能的使用都來源於命令行工具。

3、json2csv——JSON 轉換成 CSV。

用json2csv我們可以輕鬆把JSON轉換成CSV。

4、 XML2JSON

xml2json 是一個 header-only 的 C++ 庫,用來將 XML 文檔轉成 JSON 格式。它是高性能的--在商業硬件上3ms可以轉換一個150KB的字幕文件。

**5、IMGKit—— 將網頁轉換成圖片的 Python 庫。 **

IMGKit 是一個 Python 2/3 的庫,使用它我們可以將網頁轉換成圖片,輸入可以是網址,HTML 文件或者字符串。

**6、wkhtmltopdf—— HTML到PDF的文檔轉。 **

wkhtmltopdf 是一個使用 WebKit 網頁渲染引擎開發的用來將 HTML 文檔轉成 PDF 文檔的工具,可以跟多種腳本語言進行集成來轉換文檔。

使用方法:wkhtmltopdf www.myhomepage.com myhomepage.pdf

**7、 wu —— 一個快速命令行天氣應用程序 **

wu 是一個小型,快速的命令行應用程序,從 Weather Underground 檢索天氣數據。

8、Gatling —— 服務器性能測試工具。

Gatling是一款基於Scala 開發的高性能服務器性能測試工具,它主要用於對服務器進行負載等測試,並分析和測量服務器的各種性能指標。Gatling主要用於測量基於HTTP的服務器,比如Web應用程序,RESTful服務等。

9、 kp - 一個 Kafka 工具

一個利用 CLI 直接生成數據到 Kafka 的工具。

10、 KT - Kafka 命令行工具

基於 JSON 的 Kafka 工具

11、 jsonify —— 快速創建 JSON 對象

根據命令行參數快速生成JSON輸出;解析字符串或任意 JSON 值的簡單語法;支持讀取文件內容,方便轉義。

12、Exiv2—— 圖像數據提取。

Exiv2 是一個用來提取圖片中的EXIF、LPTC 和 XMP 元數據信息的C++類庫。同時還提供了命令行工具。

13、osquery —— 操作系統監控工具

osquery 是 SQL 驅動的分析和監控操作系統的工具,是操作系統分析框架,支持 OS X 和 Linux 系統。osquery 能幫助監控和分析低水平的操作系統,提供更直觀的性能監控。osquery 在操作系統中就像是一個高性能的關係數據庫,允許你編寫基於 SQL 的查詢語句來洞察操作系統的數據。

14、Tesseract OCR 命令行使用方法

15、Hadoop / HDFS 命令行工具彙總

16、curl—— 字符界面下的下載工具

curl 是一款著名的字符界面下的下載工具,支持HTTP、HTTPS、FTP、FTPS、DICT、TELNET、LDAP、FILE,和 GOPHER。此外還具有cookies支持、斷點續傳、FTP上傳、密碼支持、SSL支持和代理支持等特性。curl同時還提供了一套libcurl的庫,開發者可以基於這個庫開發其他下載工具。

17、wget—— 命令行文件下載工具

wget 是一個從網絡上自動下載文件的自由工具。它支持 HTTP,HTTPS 和 FTP 協議,可以使用 HTTP 代理。wget 可以跟蹤 HTML 頁面上的鏈接依次下載來創建遠程服務器的本地版本,完全重建原始站點的目錄結構。

18、 mqtt-cli

一個通過 mqtt 代理發送 mqtt 消息的節點命令行應用程序。也可以用於訂閱和收聽有關主題的傳入郵件。

除此之外,還可以 編寫一些簡短的 Python 腳本來通過命令行實現數據處理 。

from nltk.sentiment.vader

import SentimentIntensityAnalyzer

import sys

sid = SentimentIntensityAnalyzer()

ss = sid.polarity_scores(sys.argv[1])

print('Compound {0} Negative {1} Neutral {2} Positive {3} '.format(ss['compound'], ss['neg'], ss['neu'], ss['pos']))

只需五行 Python 腳本即可實現情緒分析。

甚至可以通過命令行調試 TensorFlow(由於目前是 beta 測試版本,執行過程中可能會出現一些問題)。


分享到:


相關文章: