收藏起來！比 matplotlib 效率高十倍的數據可視化神器

2020-03-31 02:42:00 雯雯編程

我明知存在更高效、更具交互性和外觀更好的替代方案時，我卻仍然繼續使用一個過時的繪圖庫——matplotlib，只是因為我曾經花了數百個小時來學習 matplotlib 複雜的語法。

幸運的是，現在有許多的開源繪圖庫可供選擇，經過仔細研究，我發現 plotly 包無論從易用性、交互性還是功能性來看，都有絕對的優勢。接下來，我將帶領大家學會如何用更少的時間繪製更美觀的可視化圖表——通常只需要一行代碼。

本文所有代碼都可以在 GitHub 上找到。讀者朋友們也可以直接在瀏覽器裡打開 NBViewer 鏈接查看效果。地址獲取方式見文末。

Plotly簡要概述

plotly Python 包是一個構建在 plotly.js 上的開源庫，而後者又是構建在 d3.js 上的。我們將使用一個 plotly 的“包裝器”——cufflinks，它可以 plotly 的使用變得更加簡單。整個堆疊順序是cufflinks>plotly>plotly.js>d3.js，意味著我們同時獲得了 Python 的編程高效性和d3強大的圖形交互能力。（畢竟d3.js是全世界公認的第一可視化框架！）

本文中所有工作都是使用 plotly+cufflinks 在 Jupyter Notebook 中完成的。在開始前，我們需要使用 pip install cufflinks plotly 在 Python 環境中安裝這兩個包，然後在 jupyter notebook 中導入這兩個包：

# 導入plotly包

import plotly.plotly as py

import plotly.graph_objs as go

from plotly.offline import iplot,init_notebook_mode

# 使用離線模式的 plotly + cufflinks

import cufflinks

cufflinks.go_offline(connected=True)

單變量分佈：直方圖和箱線圖

單變量-單變量製圖是開始一個數據分析的標準方法。直方圖是繪製單變量分佈的首選方式。在這裡，我使用的數據來源是我個人在 medium 網站上所寫過文章的統計信息，讓我們先來製作一個關於文章點贊次數的交互式直方圖（df 是一個標準的 Pandas 數據結構）。

df['claps'].iplot(kind='hist', xTitle='claps', yTitle='count', title='Claps Distribution')

如果你已經習慣使用matplotlib，你所需要做的只是在你原有代碼的基礎上添加一個字母，即把 plot 改為 iplot，就可以得到一個更加好看的交互式圖標！我們可以通過鼠標的滑動獲得更多的數據幾節，還可以放大圖的各個部分。

如果我們想要繪製重疊的直方圖，這很簡單：

df[['time_started', 'time_published']].iplot( kind='hist', histnorm='percent', barmode='overlay', xTitle='Time of Day', yTitle='(%) of Articles', title='Time Started and Time Published')

通過一點 pandas 處理，我們還可以製作一個條形圖：

#重採樣獲得每月的均值 e Views and Reads')

df2 = df[['view','reads','published_date']].set_index('published_date').resample('M').mean()

df2.iplot(kind='bar', xTitle='Date', yTitle='Average', title='Monthly Average Views and Reads')

就像我們前面看到的那樣，pandas+plotly+cufflinks 這一組合的功能非常強大。如果我們要繪製一個關於每篇文章粉絲數量在不同發表渠道的分佈情況的箱線圖，我們可以先使用 pandas 中DataFrame 的 pivot(透視表) 功能，然後再繪製圖表，如下：

df.pivot(columns='publication', values='fans').iplot( kind='box', yTitle='fans',title='Fans Distribution by Publication')

交互式圖表的好處就在於，我們可以盡情地探索圖表中的數據。特別是在箱線圖中，包含的信息很多，如果不能局部放大查看，我們可能會錯過這些信息。

散點圖

散點圖是大多數分析的核心，它可以使我們看到變量隨著時間的演變情況，也可以看到兩種變量之間的關係。

時間序列

現實世界中的大部分數據都與時間相關。幸運的是，plotly + cufflinks 在設計之初就考慮到了時間序列的可視化。讓我們來創建一個關於我寫過文章情況的 dataframe，看看它的各項指標是怎麼隨著時間變化的。

#創建一個數據集，只包括髮布在Towards Data Science渠道的文章

tds = df[df['publication'] == 'Towards Data Science']. set_index('published_date')

#將閱讀時間作為時間序列

tds[['claps', 'fans', 'title']].iplot( y='claps', mode='lines+markers', secondary_y = 'fans', secondary_y_title='Fans', xTitle='Date', yTitle='Claps', text='title', title='Fans and Claps over Time')

我們在一行代碼裡完成了很多不同的事情:

- 自動獲得了格式友好的時間序列作為x軸

- 添加一個次座標軸（第二y軸），因為上圖中的兩個變量的值範圍不同。

- 添加文章的標題到每個數據點中（鼠標放上去可以顯示文章名和變量值）

如果要從圖表上了解更多的信息，我們還可以很容易地添加文本註釋：

tds_monthly_totals.iplot(mode='lines+markers+text', text=text, y='word_count', opacity=0.8, xTitle='Date', yTitle='Word Count',title='Total Word Count by Month')

對於由第三個分類變量著色的雙變量散點圖，我們使用：

#read_time代表文章所需閱讀時長，read_ratio代表閱讀比例，即閱讀文章的人數/點擊查看的人數

df.iplot( x='read_time', y='read_ratio',

# 定義類別變量

categories='publication',xTitle='Read

Time',yTitle='Reading Percent', title='Reading Percent vs Read Ratio by Publication')

如果要在圖表中體現三個數值變量，我們還可以使用氣泡圖，如下圖:橫座標、縱座標、氣泡的大小分別代表三個不同的變量——文章字數的對數、閱讀數量、閱讀比例。

tds.iplot(x='word_count',y='reads', size='read_ratio',text=text, mode='markers',

# Log xaxis

layout=dict(xaxis=dict(type='log', title='Word Count'), yaxis=dict(title='Reads'), title='Reads vs Log Word Count Sized by Read Ratio'))

再做一點工作，我們甚至可以在一個圖表中體現四個變量！

結合 pandas 對數據進行統計處理，我們可以得到很多非常有價值的圖，比如下面這張關於不同文章發表渠道的讀者點擊查看數量的變化趨勢圖，顯然名為Toward Data Science的發表渠道能給文章帶來更多的點擊量。

更高級的圖表

接下來所講述的圖表大家可能不會經常用到，但是非常酷炫，值得了解一下。同樣，我們仍然只使用一行代碼就可以完成這些超級圖表。

散點圖矩陣

當我們想要探索許多變量之間的關係時，散點圖矩陣是非常好的選擇。

import plotly.figure_factory as ff

figure = ff.create_scatterplotmatrix(df[['claps', 'publication','views','read_ratio','word_count']],diag='histogram', index='publication')

以上的散點矩陣圖仍然是可以交互的，可以自由放大縮小，查看各個數據點的詳細信息。

相關係數熱力圖

為了將數值型變量的相關性可視化，我們可以先計算相關係數，接著就可以創建一個帶註釋的熱力圖:

corrs = df.corr()

figure = ff.create_annotated_heatmap(z=corrs.values,x=list(corrs.columns),y=list(corrs.index), annotation_text=corrs.round(2).values, showscale=True)

我們還可以繪製非常酷炫的3D表面圖和3D氣泡圖：

雲製圖——Plotly Chart Studio

當你使用 plotly 在 notebook 中繪製圖表時，你可能注意到了每幅圖的右下角都有一個鏈接 “Export to plot.ly” 。如果你點擊該鏈接，就會跳轉到名為chart studio的雲製圖平臺，然後你就可以對自己的圖標進行潤色，添加註釋、改改顏色、清理一些不必要的內容等等。

你還可以在線發佈該圖表，任何人可以直接通過鏈接訪問到你的圖表。

（比如我的這個3D圖，在瀏覽器中輸入後方鏈接可直接抵達:https://plot.ly/~Allencxl/3/）

前面所述的內容還不算是這個庫的所有功能，非常鼓勵各位小夥伴們去查看 plotly 和 cufflinks 的文檔，肯定會有更多不可思議的神級可視化在等著你！

美國風力發電廠的分佈情況

總結

我已經因為固執地使用matploblib而浪費了太多時間，所以希望大家能通過這篇文章學習到一種新的方式提升自己的繪圖效率。

另外，當我們在選擇繪圖庫的時候，有幾點是永遠需要考慮的：

- 用少量的代碼進行數據探索

- 可以實時與數據交互，查看數據子集情況

- 根據自己的需要，選擇性挖掘數據中的細節

- 非常便利地潤色最終演示的圖表

而到目前為止，能夠在 Python 中實現上述需求的不二選擇便是 plotly。plotly 使我們能夠快速地進行可視化，讓我們通過與圖表的交互更好地瞭解我們的數據。日常工作中，在使用其他繪圖庫的時候，我感覺繪圖是一項單調乏味的任務，但是使用 plotly 時，我覺得繪圖是數據科學中相當有趣的工作之一！

2020年最新python丶java教程

如果你處於想學python或者正在學習python，python的教程不少了吧，但是是最新的嗎？

說不定你學了可能是兩年前人家就學過的內容，在這小編分享一波2020最新的python全套教程最後小編為大家準備了1月份新出的python自學視頻教程，共計約200G，免費分享給大家！

2020Python自學教程全新升級為《Python+數據分析+機器學習》，九大階段能力逐級提升，打造技能更全面的全棧工程師。

以上這Java和python自學教程小編已經為大家打包準備好了，希望對正在學習的你有所幫助！

獲取方式：轉發此文+關注並私信小編：“資料”，即可免費獲取哦！

分享到:

閱讀更多 雯雯編程 的文章

關鍵字: 數據結構 Python 可視化技術

數據分析&可視化——網站日誌數據分析

GeoSpark入門-可視化

PID調節器的PID 與PLC的PID異同及特點

容器雲架構實踐-03

圖表的構成元素（7）：數據標籤的使用

開源企業級數字化服務平臺Choerodon豬齒魚

Sql Server 視圖的創建和使用詳解

Ass特效是什麼？如何在人人譯視界上使用字幕特效｜譯滿天下出品

Tensorboard詳解（下篇）

SpringBoot基礎教程3-1-3 Quartz定時任務單點持久化

P3D Web Render 3D網頁展示方案

網站自助建站系統真的可以輕鬆建站

被萬眾期待的IPFS，你真正瞭解嗎？

SQL審核中的打分模塊設計

正則表達式

TensorFlow——多層 LSTM 通俗易懂版

大數據存儲、計算、應用、可視化，數據的基本概述都在這裡了

爲什麼你的MySQL性能差？死代碼牽連問題解決了嗎？

API管理的痛點是什麼？有哪些解決方案-賽合一API知識講堂

kafka可視化界面

GitHub Python數據科學聚焦：AutoML、NLP、可視化、ML工作流

windows 環境下安裝RabbitMQ

如何才能更好使用數據分析工具分析數據？

各種圖表的優劣勢和適用場景

Matlab學習總結：基礎命令、可視化、算法相關

統計學常用數據類型

2. 兩數相加（LeetCode 題解）

談談為什麼需要服務治理（Dubbo）

Matlab學習入門：需要掌握的常用命令

軟件交付持續集成jenkins pipeline全面介紹

小伙編深度學習，tensorflow用VGG19訓練，可視化每一層的輸出

Python學習之路15-下載數據

Java開發之深複製及淺複製

淺談splunk聯合sysmon對windows主機日誌進行可視化分析

AMQP實戰篇：消息中間件RabbitMQ的安裝及使用

CodeColorer插件讓WordPress代碼高亮顯示

可視化LSTM網絡：探索「記憶」的形成

Excel可視化系列（柱形圖）—專業圖表教程之不等寬柱形圖

（原創）第五章第一節、大話微服務架構之服務治理和監控？（一）

Inception V3 可視化

用PowerShell生成PowerShell幫助命令速查窗體，沒有想到吧？

認識工作流-Activiti詳細說明

老炮分享：解釋機器學習模型概述

R語言數據挖掘實踐——總理2015報告文本挖掘實戰

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"