數據處理必看：如何讓你的 pandas 循環加快 71803 倍技术頭條網

2019-08-27 17:18:57 雷鋒網

雷鋒網 AI 開發者按，如果你使用 python 和 pandas 進行數據分析，那麼不久你就會第一次使用循環了。然而，即使是對小型數據集，使用標準循環也很費時，你很快就會意識到大型數據幀可能需要很長的時間。當我第一次等了半個多小時來執行代碼時，我找到了接下來想與你共享的替代方案。

標準循環

數據幀是具有行和列的 pandas 對象。如果使用循環，則將遍歷整個對象。python 不能用任何內置函數，而且速度非常慢。在我們的示例中，我們得到了一個具有 65 列和 1140 行的數據幀，它包含 2016-2019 賽季的足球比賽結果。我們要創建一個新的列來指示某個特定的隊是否打過平局。我們可以這樣開始：

leaguedf['Draws'] = 99999

for row in range(0, len(leaguedf)):

if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) | \\

((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')):

leaguedf['Draws'].iloc[row] = 'Draw'

elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) | \\

((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')):

leaguedf['Draws'].iloc[row] = 'No_Draw'

else:

leaguedf['Draws'].iloc[row] = 'No_Game'

def soc_loop(leaguedf,TEAM,):

因為我們的數據框架中包含了英超的每一場比賽，所以我們必須檢查我們感興趣的球隊（阿森納）是否參加過比賽，是否適用，他們是主隊還是客隊。如你所見，這個循環非常慢，需要 207 秒才能執行。讓我們看看如何提高效率。

pandas 內置函數：iterrow——快 321 倍

在第一個示例中，我們循環訪問了整個數據幀。iterrows為每行返回一個序列，因此它以一對索引的形式在數據幀上迭代，而感興趣的列以序列的形式迭代。這使得它比標準循環更快：

def soc_iter(TEAM,home,away,ftr):

#team, row['HomeTeam'], row['AwayTeam'], row['FTR']

if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]:

result = 'Draw'

elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]:

result = 'No_Draw'

else:

result = 'No_Game'

return result

代碼運行需要 68 毫秒，比標準循環快 321 倍。但是，許多人建議不要使用它，因為仍然有更快的方法，並且 iterrows 不保留跨行的數據類型。這意味著，如果在數據幀上使用 iterrow，則可以更改數據類型，這會導致很多問題。要保留數據類型，還可以使用 itertuples。我們不會在這裡詳細討論，因為我們要關注效率。你可以在這裡找到官方文件：