Python之Pandas使用系列(十)：數據科學家的pandas快速參考手冊技术頭條網

Python之Pandas使用系列(十)：數據科學家的pandas快速參考手冊

介紹

我希望本指南能成為一個輕鬆的快速參考手冊，以刷新您在Pandas中的數據處理技能。

注意： 您可以隨意使用任何數據集。

Pandas常用關鍵字：

Dataframe： 類似於電子表格的數據的二維結構

Series： 固定數據類型的一維索引數組

首先，讓我們加載pandas

<code>import pandas as pd
url = “https://raw.githubusercontent.com/jokecamp/FootballData/master/Germany/Bundesliga/1964/matches.csv"/<code>

您可以從Internet加載數據而無需下載

<code>data = pd.read_csv(url)
data.head()/<code>

從url讀取數據

（注意：tail（）命令從tail中選擇行，您也可以將數字參數傳遞給head和tail命令）

您可以對pandas使用一些 exploratory data analysis(EDA) commands：

<code># print column names
data.columns# print general information about dataframedata.info()# STATISTICS of non-numerical fields (explicitely indicate data #types of interest in include parameterdata.describe(include=[‘object’, ‘bool’])#(Also don’t forget to try with only describe())# For categorical(type object) and boolean(type bool) features, we #can use value_counts method to count the number of values.data[‘home_team’].value_counts()# If you want to calculate porportions try this:data[‘home_team’].value_counts(normalize=True)# Get min and max value from columndata[‘round’].min()data[‘round’].max()# Calculate mean of a columndata[‘round’].mean()/<code>

DataFrame Indexing

可以通過列名（label），行名（index）或行的序列號對DataFrame進行索引。

loc： 按名稱索引

<code># Get 5 rows from home_score column to away_team column
data.loc[0:5, ‘home_score’:’away_team’]/<code>

iloc： 按數字索引

<code># Same thing as above but using numbers
data.iloc[0:5, 2:5]/<code>

2.更改列中的值

<code>data[‘away_score’] = data[‘away_score’].apply(lambda x: x*2)ORdata[‘away_score’] = data[‘away_score’].str.split(“ “)/<code>

將away_score列加倍

3.添加新列

<code>data[‘new_coumn’] = [i+1000 for i in range(len(data))]/<code>

（注意：使用數組添加新列不是唯一的方法，但是您也可以使用pandas的Series對象在數據框中創建列。）

4.將function應用於多列

<code>data[[‘away_score’,’new_coumn’]] = data[[‘away_score’,’new_coumn’]].apply(lambda x: x*2)/<code>

（注意：您只需要傳遞要修改的列的列表即可。）

5.用NaN計數行

看看有多少行為空

6.選擇NaN行並進行一些操作

選擇帶有Nan的註釋列的行

重要提示：填充NaN行是單獨的主題，不在本文的討論範圍之內。填充缺失值的方法有很多，例如用均值，中位數，最高頻率等填充。但是，如果要填充一些恆定值，則非常簡單：

<code>data.fillna(0)/<code>

7.選擇非NaN行並進行一些操作

<code>data[data[‘notes’].notnull()]/<code>

選擇帶有非nan值的註釋列的行

8.填充NaN行

<code>data.fillna(value = “Replace NaN”, inplace = True)/<code>

用“ Replace Nan”字符串替換nan值

9.將行追加到數據框

<code>data = data.append({ “round”: 5, “home_team”: “Some name”, “home_score”: 0, “away_score”: 50, “away_team”: “some team”, “notes”: “nothing”, “new_coumn”: “Nothing”}, ignore_index=True)data.tail(5)/<code>

將行追加到Dataframe

10.排序並重新索引數據框

<code>data = data.sort_values([‘round’], ascending=False)# If you want to sort by multiple columns, just pass list of columnsdata = data.sort_values(by=[‘round’, ‘away_score’], ascending=[1,0])data.head()/<code>

按降序排序

11.更新列

<code>data.index = range(1, len(data)+1)data.head()/<code>

排序後重新索引數據框

12.使用按位運算的鏈接條件

<code>data[(data[‘notes’] == “Replace NaN”) & (data[‘round’] > 25)]Note: Use | for OR conidtion/<code>

在數據框的列上應用和操作

13.打印列類型

（注意：對於字符串，它使用的是“對象”數據類型）

14.按列類型選擇

<code>import numpy as np
data.loc[:, (data.dtypes == np.dtype(‘O’)).values].head()# Note: ‘O’ means object type. if you want floats use ‘float64’ #instead./<code>

選擇對象數據類型

15.轉換列類型

<code>data[‘away_score’] = data[‘away_score’].astype(float)/<code>

16.條件測試

<code>mydata = [ [1,2,3], [4,5,6] ]
df = pd.DataFrame(mydata)
df < 2/<code>

如果在數據框上測試

17.迭代數據框上的行

注意：我不建議您在數據幀的行上循環並執行操作，但是如果有必要您必須進行迭代，請使用以下方法：

<code>for index, row in data.iterrows():
 name = row[‘name’]
 age = row[‘age’]
 # do some operation/<code>

18.將數據框導出為CSV

如果您想與團隊中的某人共享結果，請先做，然後以CSV格式導出結果，然後將其導入到Google表格中並共享：

<code>data.to_csv(‘result_file.csv’)/<code>

總結：

本文是快速入門，可以幫助您完善使用Pandas數據框的概念。、

如果您喜歡我的文章，請不要忘記在媒體上關注我。

分享到:

閱讀更多 數據大視界 的文章

關鍵字: 2019未來科學大獎 Python 鏡音雙子

Python之Pandas使用系列(十)：數據科學家的pandas快速參考手冊

介紹

總結：

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪