Python之Pandas使用系列(九)：DataFrame中列操作的技巧

2019-12-05 23:10:00 數據大視界

介紹

本文將討論使用iloc處理具有大量列的數據集的一些技巧和捷徑。即使您有使用iloc的經驗，也應該學習一些有用的技巧來加快自己的分析速度，並避免在代碼中鍵入很多列名。

為什麼我們關心選擇列？

在許多標準數據科學示例中，列的數量相對較少。現實生活中的數據集很雜亂，通常包括很多額外的（可能是不必要的）列。

在數據科學問題中，由於以下一個或多個原因，您可能需要選擇列的子集：

將數據過濾為僅包括相關列可以幫助減少內存佔用並加快數據處理。
限制列數可以減少將數據模型保留在頭腦中的精神開銷。
探索新數據集時，可能有必要將任務分解為可管理的塊。
在某些情況下，您可能需要遍歷各列並執行計算或清理，以便以所需的格式獲取數據以進行進一步的分析。
您的數據可能只包含不需要的額外或重複信息。

以下概述的技巧可以減少花費在整理數據列上的時間。

樣例數據

為了說明一些示例，我將使用 Central Park Squirrel Census 數據集。對這個數據集中的松鼠進行計數和分類。

該數據集包括3023行數據和31列。儘管31列並不是很多列，但是它是一個有用的示例，可以說明您可能會應用到具有更多列的數據的概念。

如果您想繼續閱讀，可以查看jupyter notebook(https://nbviewer.jupyter.org/github/chris1610/pbpython/blob/master/notebooks/Selecting_Columns_in_DataFrame.ipynb

)或直接從github上將其拉出。

地址：https://github.com/chris1610/pbpython/blob/master/notebooks/Selecting_Columns_in_DataFrame.ipynb

開始讀取數據。

import pandas as pd
import numpy as np

df = pd.read_csv(
 'https://data.cityofnewyork.us/api/views/vfnx-vebw/rows.csv?accessType=DOWNLOAD&bom=true&format=true'
)

有時記住每個列名及其在索引中的位置會很麻煩。這是一個簡單的 list comprehension，可以建立所有列及其索引的參考列表。

col_mapping = [f"{c[0]}:{c[1]}" for in cenumerate(df.columns)]

這將創建一個像這樣的列表：

['0:X',
'1:Y',
'2:Unique Squirrel ID',
'3:Hectare',
'4:Shift',
'5:Date',
 ...
'33:Borough Boundaries',
'34:City Council Districts',
'35:Police Precincts']

在某些情況下，如果您想重命名一堆列，則可以使用dictionary comprehension 來創建數據的字典視圖：

col_mapping_dict = {[0]:[1] ccfor in cenumerate(df.columns)}

創建了這個字典：

{0: 'X',
1: 'Y',
2: 'Unique Squirrel ID',
3: 'Hectare',
4: 'Shift',
5: 'Date',
...
33: 'Borough Boundaries',
34: 'City Council Districts',
35: 'Police Precincts'}

定義這些變量在您進行分析時可能會很有用。無需反覆查看原始文件，您只需在分析期間仔細檢查變量名即可。

我經常要做的另一項常見任務是重命名一堆在文件中不一致命名的列。我使用字典來輕鬆地使用df.rename（columns = col_mapping）之類的名稱來重命名所有列。鍵入所有列名稱可能是容易出錯的任務。一個簡單的技巧是複製excel中的所有列，並使用pd.read_clipboard（）構建一個小的DataFrame並將列轉換為字典。然後，如果需要，我可以手動輸入新名稱。

這是此數據集的一個簡單示例：

df_cols = pd.read_clipboard()
col_mapping = {[1]:'' cfor in cenumerate(df_cols.columns)}

這將創建一個相對容易用新名稱填充的字典：

{'X': '',
'Y': '',
'Unique': '',
'Squirrel': '',
'ID': '',
'Hectare': '',
'Shift': '',
...
'Police': '',
'Precincts': ''}

另外，您甚至可以使用Excel文件設置列重命名並自動完成整個過程。

使用iloc

我們將介紹的主要功能是Pandas的iloc，它用於基於整數位置的索引。新用戶可能會有些困惑，因為iloc和loc可以採用布爾數組，這會導致更強大的索引編制。由於兩個函數都可以將布爾數組作為輸入，因此有時這些函數會產生相同的輸出。這裡我們將只關注iloc列的選擇。

這是一個簡單的圖形，用於說明iloc的主要用法：

例如，如果您只想查看所有行的數據的Squirrel ID列：

df.iloc[:, 2]

0 37F-PM-1014-03
1 37E-PM-1006-03
2 2E-AM-1010-03
3 5D-PM-1018-05
4 39B-AM-1018-01
 ...
3018 30B-AM-1007-04
3019 19A-PM-1013-05
3020 22D-PM-1012-07
3021 29B-PM-1010-02
3022 5E-PM-1012-01
Name: Unique Squirrel ID, Length: 3023, dtype: object

如果要查看X和Y的位置以及ID，可以傳入整數[0,1,2]的列表：

df.iloc[:, [0,1,2]]

3023行×3列

鍵入所有列並不是最有效的方法，因此我們可以使用切片符號使它更容易理解：

df.iloc[:, 0:3]

它將產生與上述相同的輸出。

如果您有一些使用python list的經驗，並且曾經使用過pandas；所有這些用法都應該有意義。這些是panas基礎的概念，但我們將從這裡開始。

雖然這兩種方法都很簡單，但是如果要將整數列表與切片符號結合起來怎麼辦？您可以嘗試如下操作：

df.iloc[:, [0:3,15:19]]

或者，您可以嘗試執行以下操作：

df.iloc[:, 0:3,15:19]

IndexingError: Too many indexers

嗯這顯然不起作用，但似乎對於選擇範圍以及單個列很有用。

幸運的是，有一個numpy對象可以幫助我們。r_ 對象將“沿第一個軸將切片對象轉換為串聯對象。”由於從文檔中獲取的內容可能並不多，但它確實滿足了我們的需求。

這是一個稍微複雜的示例，以顯示它如何在單個列表項和切片範圍的組合上工作：

np.r_[0:3,15:19,24,25]

array([ 0, 1, 2, 15, 16, 17, 18, 24, 25])

ok，該對象已將整數列表和切片符號的組合轉換為單個列表，我們可以將其傳遞給iloc：

df.iloc[:, np.r_[0:3,15:19,24,25]]

3023行×20列

這是另一個提示。在使用read_csv讀取數據時，您也可以使用此表示法：

df_2 = pd.read_csv(
 'https://data.cityofnewyork.us/api/views/vfnx-vebw/rows.csv?accessType=DOWNLOAD&bom=true&format=true',
 usecols=np.r_[1,2,5:8,15:30],
)

當您有一個要保留非連續列並且不想鍵入所有列的全名的數據集時，我覺得此符號很有用。

我要警告的一點是，在使用分片符號時您需要小心，並請記住，範圍中的最後一個數字將不包含在生成的數字列表中。

例如，如果我們指定範圍2：4，我們只會得到2和3的列表：

np.r_[2:4]

array([2, 3])

如果要包括列索引4，請使用np.r_ [2：5]。

關於np.r_的最後一條評論是，有一個可選的step參數。在此示例中，我們可以指定此列表將增加2：

np.r_[2:10:2]

array([2, 4, 6, 8])

這是一個更高級的選項，對於新的Pandas用戶來說在直觀上不會是顯而易見的。但是，如果您發現自己通過索引解析了很多列，這回事一個有用的工具。

iloc和布爾數組

過濾列的最強大方法之一是將布爾數組傳遞給iloc以選擇列的子集。這聽起來有些複雜，但是有幾個示例應該可以使此理解。

最重要的概念是我們不會手動生成布爾數組，而是使用另一個pandas函數的輸出來生成數組並將其提供給iloc。

在這種情況下，我們可以在列索引上使用str訪問器，就像其他任何pandas數據列一樣。這將生成iloc期望的必要布爾數組。一個例子應該有助於使這一點變得清楚。

如果我們想查看哪些列包含單詞“ run”：

run_cols = df.columns.str.contains('run', case=False)
print(run_cols)

array([False, False, False, False, False, False, False, False, False,
 False, False, False, False, False, False, True, False, False,
 False, False, False, False, False, False, False, False, False,
 False, True, False, False, False, False, False, False, False])

然後，我們可以傳遞此新的布爾值數組以僅選擇兩列：

df.iloc[:, run_cols].head()

在實踐中，許多人將使用lambda函數來一行執行此操作：

df.iloc[:, lambda df:df.columns.str.contains('run', case=False)]

使用str函數的好處是，您可以使用潛在的過濾器選項來使其變得複雜。例如，如果我們希望所有名稱中帶有“ district”，“ precinct”或“ boundaries”的列：

df.iloc[:, lambda df: df.columns.str.contains('district|precinct|boundaries',
 case=False)].head()

我們甚至可以通過使用布爾數組的結果來獲取索引，然後使用np.r_將這些列表組合在一起，從而將所有這些概念組合在一起。

這是一個示例，我們希望將所有與位置相關的列以及ID都放入DataFrame中：

location_cols = df.columns.str.contains('district|precinct|boundaries',
 case=False)
location_indices = [ ifor , icol in enumerate(location_cols) if col]
df.iloc[:, np.r_[0:3,location_indices]].head()

這段代碼有點複雜，因為我們使用的是條件列表理解功能，對於選擇7列可能會顯得過分殺傷力。

注意事項

處理列的數字索引時要記住的一項內容是，您需要了解數據的來源。如果您希望ID列始終位於特定位置，並且它會更改數據的順序，則可能會在後續數據處理中遇到問題。在這種情況下，您的領域知識和專業技能將發揮作用，以確保解決方案在給定情況下足夠強大。

總結

大部分的數據分析工作都涉及在行級別過濾和選擇數據。但是，有時以列方式處理數據會有所幫助。Pandas iloc是快速有效地處理包含多列數據的數據集的有用工具。我希望本文提供了一些技巧，可以幫助您進行自己的分析。

譯自：https://pbpython.com/selecting-columns.html

分享到:

閱讀更多 數據大視界 的文章

關鍵字: Excel 技巧大量列

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"