數據！數據！數據！沒有黏土我無法造出磚來！pandas數據分析

2020-04-28 14:35:35 程序員書屋

數據！數據！數據！沒有黏土我無法造出磚來！——夏洛克•福爾摩斯

本章介紹pandas，這是一個聚焦於表格數據的數據分析程序庫。pandas是一個強大的工具，它不僅提供了許多實用類和函數，而且很好地封裝了來自其他軟件包的功能。該工具提供了一個用戶接口，能夠讓用戶方便且高效地實現數據分析，特別是金融分析。

本章介紹如下基本數據結構：

本章的組織如下。

DataFrame類

本節首先用簡單的小數據集來探索pandas中DataFrame類的基本特性和功能；然後說明如何將NumPy中的ndarray對象轉換為DataFrame對象。

基本分析與基本可視化

這兩節介紹基本分析與可視化功能（後續的章節將深入介紹這些主題）。

Series類

本節短小精悍，介紹了pandas的Series類。從某種意義上講，它是DataFrame的一種特例，只有一列數據。

GroupBy操作

DataFrame的優勢之一是根據一列或者多列來分組數據。這一節探索pandas的分組能力。

複雜選擇

這一節介紹如何使用（複雜）條件，輕鬆地從DataFrame對象中選擇數據。

聯接、連接和合並

將不同數據集合而為一是數據分析中的重要操作。pandas提供了實現這一任務的不同選項，本節將對此進行介紹。

性能特徵

pandas往往提供實現相同目標的多個選項，這符合Python的常規。本節簡單介紹潛在的性能差異。

5.1　DataFrame類

pandas（以及本章）的核心是DataFrame，它是設計用於高效處理表格數據（也就是以列進行組織的數據）的類。為此，DataFrame提供了列標籤以及數據集中各行（記錄）的索引功能，這與關係數據庫的一個表或者Excel電子表格類似。

本節介紹pandas中 DataFrame類的一些根本特性。該類非常複雜且強大，這裡只能介紹其中的一小部分功能。後續章節將提供更多示例，揭示其不同方面的特徵。

5.1.1　使用DataFrame類的第一步

從最根本的層面上看，DataFrame類設計用來管理具有索引和標籤的數據，這些數據與來自SQL數據庫表或者電子表格應用中工作表的數據沒有太多的不同。考慮如下代碼創建的DataFrame對象：

<code>In [1]: import pandas as pd ❶In [2]: df = pd.DataFrame([10, 20, 30, 40], ❷                          columns=['numbers'], ❸                          index=['a', 'b', 'c', 'd']) ❹In [3]: df ❺Out[3]:   numbers        A      10        b      20        c      30        d      40/<code>

❶ 導入pandas。

❷ 定義列表對象形式的數據。

❸ 指定列標籤。

❹ 指定索引值/標籤。

❺ 顯示DataFrame對象的數據以及列和索引標籤。

這個簡單的例子已經說明了DataFrame在存儲數據上的主要特性，具體如下。

數據本身可以用不同組成及類型（列表、元組、ndarray和字典對象都是候選者）展現。
數據以列的方式被組織，可以自定義列名（標籤）。
索引可以採用不同的格式（如數值、字符串、時間信息）。

使用這種DataFrame對象總體上相當方便和高效，例如，當您想要進行擴大現有對象等工作時，我推薦你使用DataFrame對象。相比之下，常規的ndarray對象更專門化，也更受限制。與此同時，DataFrame對象往往在計算上和ndarray對象一樣高效。下面是簡單的例子，說明了DataFrame對象的典型操作：

<code>In [4]: df.index ❶Out[4]: Index(['a', 'b', 'c', 'd'], dtype='object')In [5]: df.columns ❷Out[5]: Index(['numbers'], dtype='object')In [6]: df.loc['c']❸Out[6]: numbers 30        Name: c, dtype: int64In [7]: df.loc[['a', 'd']] ❹Out[7]:    numbers        a       10        d       40In [8]: df.iloc[1:3] ❺Out[8]:    numbers        b 20        c 30In [9]: df.sum() ❻Out[9]: numbers 100        dtype: int64In [10]: df.apply(lambda x: x ** 2) ❼Out[10]:    numbers         a      100         b      400         c      900         d      1600In [11]: df ** 2 ❽Out[11]:    numbers         a      100         b      400         c      900         d     1600/<code>

❶ index屬性和Index對象。

❷ columns屬性和Index對象。

❸ 選擇對應於索引c的值。

❹ 選擇對應於索引a和b的兩個值。

❺ 通過索引位置選擇第二行和第三行。

❻ 計算單列總和。

❼ 使用apply方法，以向量化的方式計算平方值。

❽ 和ndarray對象一樣，直接應用向量化。

與NumPy的ndarray對象不同，可以在兩個維度上同時擴增DataFrame對象：

<code>In [12]: df['floats'] = (1.5, 2.5, 3.5, 4.5) ❶In [13]: dfOut[13]:    numbers floats         a       10    1.5         b       20    2.5         c       30    3.5         d       40    4.5In [14]: df['floats'] ❷Out[14]: a 1.5         b 2.5         c 3.5         d 4.5         Name: floats, dtype: float64/<code>

❶ 添加一個新列，該包含以元組形式提供的浮點數對象。

❷ 選擇該列並顯示其數據和索引標籤。

也可以使用整個DataFrame對象來定義一個新列。在這種情況下，索引自動對齊：

<code>In [15]: df['names'] = pd.DataFrame(['Yves', 'Sandra', 'Lilli', 'Henry'],                                   index=['d', 'a', 'b', 'c']) ❶In [16]: dfOut[16]:   numbers floats    names         A      10   1.5     Sandra         b      20   2.5     Lilli         c      30   3.5     Henry         d      40   4.5     Yves/<code>

❶ 根據一個DataFrame對象創建另一個新列。

附加數據的方法也類似。但是，在下面的例子中，我們會看到在操作過程中必須避免的一個副作用——索引被簡單的編號索引代替：

<code>In [17]: df.append({'numbers': 100, 'floats': 5.75, 'names': 'Jil'},                        ignore_index=True) ❶Out[17]:    numbers  floats   names         0       10    1.50  Sandra         1       20    2.50   Lilli         2       30    3.50   Henry         3       40    4.50    Yves         4       100    5.75    JilIn [18]: df = df.append(pd.DataFrame({'numbers': 100, 'floats': 5.75,                                      'names': 'Jil'}, index=['y',])) ❷In [19]: dfOut[19]:    numbers floats    names         a       10   1.50   Sandra         b       20   2.50    Lilli         c       30   3.50    Henry         d       40   4.50     Yves         y       100  5.75      JilIn [20]: df = df.append(pd.DataFrame({'names': 'Liz'}, index=['z',]),                        sort=False) ❸In [21]: dfOut[21]:    numbers floats    names         A     10.0   1.50   Sandra         b     20.0   2.50    Lilli         c     30.0   3.50    Henry         d     40.0   4.50     Yves         y     100.0  5.75      Jil         z     NaN     NaN      LizIn [22]: df.dtypes ❹Out[22]: numbers float64         floats float64         names object         dtype: object/<code>

❶ 通過一個字典對象附加新行；這是一個臨時操作，操作期間索引信息丟失。

❷ 根據帶索引信息的DataFrame對象附加行；原始索引信息保留。

❸ 向DataFrame對象附加不完整的數據行，生成NaN值。

❹ 返回各列的不同dtype，這與結構化ndarray對象類似。

儘管此時有遺漏的值，但大部的分方法調用仍然可以正常工作：

<code>In [23]: df[['numbers', 'floats']].mean() ❶Out[23]: numbers    40.00         Floats      3.55         dtype: float64In [24]: df[['numbers', 'floats']].std() ❷Out[24]: numbers    35.355339         Floats      1.662077         dtype: float64/<code>

❶ 計算指定兩列的均值（忽略帶NaN值的行）。

❷ 計算指定兩列的標準差（忽略帶NaN值的行）。

5.1.2　使用DataFrame類的第二步

本節的例子基於一個包含標準正態分佈隨機數的ndarray對象。該例探索管理時間序列數據的更多功能，如DatetimeIndex：

<code>In [25]: import numpy as npIn [26]: np.random.seed(100)In [27]: a = np.random.standard_normal((9, 4))In [28]: aOut[28]: array([[-1.74976547, 0.3426804 ,  1.1530358 , -0.25243604],                [ 0.98132079, 0.51421884,  0.22117967, -1.07004333],                [-0.18949583, 0.25500144, -0.45802699,  0.43516349],                [-0.58359505, 0.81684707,  0.67272081, -0.10441114],                [-0.53128038, 1.02973269, -0.43813562, -1.11831825],                [ 1.61898166, 1.54160517, -0.25187914, -0.84243574],                [ 0.18451869, 0.9370822 ,  0.73100034,  1.36155613],                [-0.32623806, 0.05567601,  0.22239961, -1.443217 ],                [-0.75635231, 0.81645401,  0.75044476, -0.45594693]])/<code>

您可以更直接地構造DataFrame對象（正如前面所見），但是使用ndarray對象通常是一個更好的選擇，因為pandas將保留基本結構，“只”添加元信息（例如索引值）。這也代表了金融應用和科學研究的一種典型用例。例如：

<code>In [29]: df = pd.DataFrame(a) ❶In [30]: dfOut[30]:           0        1         2         3         0 -1.749765 0.342680  1.153036 -0.252436         1  0.981321 0.514219  0.221180 -1.070043         2 -0.189496 0.255001 -0.458027  0.435163         3 -0.583595 0.816847  0.672721 -0.104411         4 -0.531280 1.029733 -0.438136 -1.118318         5  1.618982 1.541605 -0.251879 -0.842436         6  0.184519 0.937082  0.731000  1.361556         7 -0.326238 0.055676  0.222400 -1.443217         8 -0.756352 0.816454  0.750445 -0.455947/<code>

❶ 由ndarray對象創建一個DataFrame對象。

表5-1列出了DataFrame函數使用的參數。表中，“類似數組”意味著和ndarray對象類似的數據結構——如列表對象。“索引”是pandas的Index類的一個實例。

表5-1　DataFrame函數參數

和結構數組一樣，我們已經瞭解，DataFrame對象可以通過指定一個具有合適數量元素的列表來直接定義列名。下面的例子說明，我們可以隨時定義/更改DataFrame對象的屬性：

<code>In [31]: df.columns = ['No1', 'No2', 'No3', 'No4'] ❶In [32]: dfOut[32]:         No1      No2       No3       No4         0 -1.749765 0.342680  1.153036 -0.252436         1  0.981321 0.514219  0.221180 -1.070043         2 -0.189496 0.255001 -0.458027  0.435163         3 -0.583595 0.816847  0.672721 -0.104411         4 -0.531280 1.029733 -0.438136 -1.118318         5  1.618982 1.541605 -0.251879 -0.842436         6  0.184519 0.937082  0.731000  1.361556         7 -0.326238 0.055676  0.222400 -1.443217         8 -0.756352 0.816454  0.750445 -0.455947In [33]: df['No2'].mean() ❷Out[33]: 0.7010330941456459/<code>

❶ 通過列表對象指定列標籤。

❷ 選擇一列很容易。

為了高效處理金融事件序列數據，我們還必須很好地處理時間索引。這也可以視為pandas的一個重要優勢。例如，假定分為4列的9個數據項對應於2019年1月開始的月底數據。然後，用date_range生成一個DatetimeIndex對象：

<code>In [34]: dates = pd.date_range('2019-1-1', periods=9, freq='M') ❶In [35]: datesOut[35]: DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30',                     '2019-05-31', '2019-06-30', '2019-07-31', '2019-08-31',                    '2019-09-30'],                     dtype='datetime64[ns]', freq='M')/<code>

❶ 創建一個DatetimeIndex對象。

表5-2列出了date_range函數的參數。

表5-2　date_range函數參數

下列代碼將剛剛創建的DatetimeIndex對象定義為相關的索引對象，並建立原始數據集的一個時間序列：

<code>In [36]: df.index = datesIn [37]: dfOut[37]:                  No1      No2       No3       No4         2019-01-31 -1.749765 0.342680  1.153036 -0.252436         2019-02-28  0.981321 0.514219  0.221180 -1.070043         2019-03-31 -0.189496 0.255001 -0.458027  0.435163         2019-04-30 -0.583595 0.816847  0.672721 -0.104411         2019-05-31 -0.531280 1.029733 -0.438136 -1.118318         2019-06-30  1.618982 1.541605 -0.251879 -0.842436         2019-07-31  0.184519 0.937082  0.731000  1.361556         2019-08-31 -0.326238 0.055676  0.222400 -1.443217         2019-09-30 -0.756352 0.816454  0.750445 -0.455947/<code>

至於在date_range函數幫助下生成的DatetimeIndex對象，頻率參數freq有多種選擇。表6-3列出了其所有選項。

表5-3　date_range函數的頻率參數值(略)

在某些情況下，以ndarray對象的形式訪問原始數據是有好處的。values屬性提供直接訪問的方式：

<code>In [38]: df.valuesOut[38]: array([[-1.74976547, 0.3426804 , 1.1530358 , -0.25243604],                [ 0.98132079, 0.51421884, 0.22117967, -1.07004333],                [-0.18949583, 0.25500144, -0.45802699, 0.43516349],                [-0.58359505, 0.81684707, 0.67272081, -0.10441114],                [-0.53128038, 1.02973269, -0.43813562, -1.11831825],                [ 1.61898166, 1.54160517, -0.25187914, -0.84243574],                [ 0.18451869, 0.9370822 , 0.73100034, 1.36155613],                [-0.32623806, 0.05567601, 0.22239961, -1.443217 ],                [-0.75635231, 0.81645401, 0.75044476, -0.45594693]])In [39]: np.array(df)Out[39]: array([[-1.74976547, 0.3426804 , 1.1530358 , -0.25243604],                [ 0.98132079, 0.51421884, 0.22117967, -1.07004333],                [-0.18949583, 0.25500144, -0.45802699, 0.43516349],                [-0.58359505, 0.81684707, 0.67272081, -0.10441114],                [-0.53128038, 1.02973269, -0.43813562, -1.11831825],                [ 1.61898166, 1.54160517, -0.25187914, -0.84243574],                [ 0.18451869, 0.9370822 , 0.73100034, 1.36155613],                [-0.32623806, 0.05567601, 0.22239961, -1.443217 ],                [-0.75635231, 0.81645401, 0.75044476, -0.45594693]])/<code>

數組和DataFrame

通常可以從一個ndarray對象生成DataFrame對象。也可以通過NumPy的np.array函數或DataFrame類的values屬性，來從DataFrame對象生成ndarray對象。

5.2　基本分析

和NumPy的ndarray類一樣，pandas的DataFrame類有多個便利的內建方法。首先考慮info和describe方法：

<code>In [40]: df.info() ❶         <class>         DatetimeIndex: 9 entries, 2019-01-31 to 2019-09-30         Freq: M         Data columns (total 4 columns):         No1    9 non-null float64         No2    9 non-null float64         No3    9 non-null float64         No4    9 non-null float64         dtypes: float64(4)         memory usage: 360.0 bytesIn [41]: df.describe() ❷Out[41]:             No1      No2       No3       No4         Count  9.000000 9.000000  9.000000  9.000000         Mean  -0.150212 0.701033  0.289193 -0.387788         Std    0.988306 0.457685  0.579920  0.877532         Min   -1.749765 0.055676 -0.458027 -1.443217         25%   -0.583595 0.342680 -0.251879 -1.070043         50%   -0.326238 0.816454  0.222400 -0.455947         75%    0.184519 0.937082  0.731000 -0.104411         max    1.618982 1.541605  1.153036  1.361556/<class>/<code>

❶ 提供關於數據、列和索引的元信息。

❷ 提供有用的每列彙總統計（對於數值數據）信息。

此外，你可以輕鬆地求得按列/行計算的總和、平均值和累計總和：

<code>In [43]: df.sum() ❶Out[43]: No1   -1.351906         No2    6.309298         No3    2.602739         No4   -3.490089         dtype: float64In [44]: df.mean()Out[44]: No1   -0.150212         No2    0.701033         No3    0.289193         No4   -0.387788         dtype: float64In [45]: df.mean(axis=0) ❷Out[45]: No1   -0.150212         No2    0.701033         No3    0.289193         No4   -0.387788         dtype: float64In [46]: df.mean(axis=1) ❸Out[46]: 2019-01-31   -0.126621         2019-02-28    0.161669         2019-03-31    0.010661         2019-04-30    0.200390         2019-05-31   -0.264500         2019-06-30    0.516568         2019-07-31    0.803539         2019-08-31   -0.372845         2019-09-30    0.088650         Freq: M, dtype: float64In [47]: df.cumsum() ❹Out[47]:                  No1      No2      No3       No4         2019-01-31 -1.749765 0.342680 1.153036 -0.252436         2019-02-28 -0.768445 0.856899 1.374215 -1.322479         2019-03-31 -0.957941 1.111901 0.916188 -0.887316         2019-04-30 -1.541536 1.928748 1.588909 -0.991727         2019-05-31 -2.072816 2.958480 1.150774 -2.110045         2019-06-30 -0.453834 4.500086 0.898895 -2.952481         2019-07-31 -0.269316 5.437168 1.629895 -1.590925         2019-08-31 -0.595554 5.492844 1.852294 -3.034142         2019-09-30 -1.351906 6.309298 2.602739 -3.490089/<code>

❶ 列總和。

❷ 列均值。

❸ 行均值。

❹ 列累計總和（從第一個索引位置起）。

DataFrame對象也能理解為NumPy通用函數，這與預期相符：

<code>In [48]: np.mean(df) ❶Out[48]: No1   -0.150212         No2    0.701033         No3    0.289193         No4   -0.387788         dtype: float64In [49]: np.log(df) ❷Out[49]: No1 No2 No3 No4         2019-01-31       NaN -1.070957  0.142398       NaN         2019-02-28 -0.018856 -0.665106 -1.508780       NaN         2019-03-31       NaN -1.366486       NaN -0.832033         2019-04-30       NaN -0.202303 -0.396425       NaN         2019-05-31       NaN  0.029299       NaN       NaN         2019-06-30  0.481797  0.432824       NaN       NaN         2019-07-31 -1.690005 -0.064984 -0.313341  0.308628         2019-08-31       NaN -2.888206 -1.503279       NaN         2019-09-30       NaN -0.202785 -0.287089       NaNIn [50]: np.sqrt(abs(df)) ❸Out[50]:                  No1       No2       No3       No4         2019-01-31  1.322787  0.585389  1.073795  0.502430         2019-02-28  0.990616  0.717091  0.470297  1.034429         2019-03-31  0.435311  0.504977  0.676777  0.659669         2019-04-30  0.763934  0.903796  0.820196  0.323127         2019-05-31  0.728890  1.014757  0.661918  1.057506         2019-06-30  1.272392  1.241614  0.501876  0.917843         2019-07-31  0.429556  0.968030  0.854986  1.166857         2019-08-31  0.571173  0.235958  0.471593  1.201340         2019-09-30  0.869685  0.903578  0.866282  0.675238In [51]: np.sqrt(abs(df)).sum() ❹Out[51]: No1    7.384345         No2    7.075190         No3    6.397719         No4    7.538440         dtype: float64In [52]: 100 * df + 100 ❺Out[52]:                   No1        No2        No3       No4         2019-01-31 -74.976547 134.268040 215.303580 74.756396         2019-02-28 198.132079 151.421884 122.117967 -7.004333         2019-03-31  81.050417 125.500144  54.197301 143.516349         2019-04-30  41.640495 181.684707 167.272081  89.558886         2019-05-31  46.871962 202.973269  56.186438 -11.831825         2019-06-30 261.898166 254.160517  74.812086  15.756426         2019-07-31 118.451869 193.708220 173.100034 236.155613         2019-08-31  67.376194 105.567601 122.239961 -44.321700         2019-09-30  24.364769 181.645401 175.044476  54.405307/<code>

❶ 列均值。

❷ 每個元素的自然對數；顯示警告信息，但計算繼續進行，得到多個NaN值。

❸ 每個元素絕對值的平方根。

❹ 按列均值。

❺ 數值數據的線性變換。

NumPy通用函數

一般來說，在NumPy通用函數適用於ndarray對象的所有情況下，都可以將這些函數應用到包含相同數據的pandas的DataFrame對象。

pandas有相當強的容錯能力，它可以捕捉錯誤，在對應數學運算失敗時放入NaN值。不僅如此，正如前面已經展示的，在許多情況下，它還可以將這些不完整的數據集當成完整數據集來使用。這種做法很方便，因為現實中不完整數據集往往比人們預想的要多。

5.3　基本可視化

如果數據存儲在DataFrame對象中，那麼數據圖表的繪製通常只需要一行代碼（見圖5-1）。

圖5-1　DataFrame對象的折線圖

<code>In [53]: from pylab import plt, mpl ❶         plt.style.use('seaborn') ❶         mpl.rcParams['font.family'] = 'serif' ❶         %matplotlib inlineIn [54]: df.cumsum().plot(lw=2.0, figsize=(10, 6)); ❷/<code>

❶ 定製繪圖樣式。

❷ 繪製4列累計總和的折線圖。

基本上，pandas提供了專為DataFrame對象設計的matplotplib（參見第7章）包裝器。plot()方法的參數如表5-4所示。

表5-4　plot方法參數(略)

再舉個例子，考慮相同數據的柱狀圖（見圖5-2）：

圖5-2　DataFrame對象的柱狀圖

<code>In [55]: df.plot.bar(figsize=(10, 6), rot=15); ❶# df.plot(kind='bar', figsize=(10, 6)) ❷/<code>

❶ plot.bar()繪製柱狀圖。

❷ 替代語法：使用kind參數改變繪圖類型。

5.4　Series類

迄今為止，本章主要介紹了pandas的DataFrame類。Series是pandas自帶的另一個重要的類。它的特點是隻有一列數據。從這個意義上講，它是DataFrame類的特例，兩者之間有許多共同特性和功能，但不完全相同。從多列的DataFrame對象上選取一列，可以得到Series對象：

<code>In [56]: type(df)Out[56]: pandas.core.frame.DataFrameIn [57]: S = pd.Series(np.linspace(0, 15, 7), name='series')In [58]: SOut[58]: 0     0.0         1     2.5         2     5.0         3     7.5         4     10.0         5     12.5         6     15.0         Name: series, dtype: float64In [59]: type(S)Out[59]: pandas.core.series.SeriesIn [60]: s = df['No1']In [61]: sOut[61]: 2019-01-31 -1.749765         2019-02-28  0.981321         2019-03-31 -0.189496         2019-04-30 -0.583595         2019-05-31 -0.531280         2019-06-30  1.618982         2019-07-31  0.184519         2019-08-31 -0.326238         2019-09-30 -0.756352         Freq: M, Name: No1, dtype: float64In [62]: type(s)Out[62]: pandas.core.series.Series/<code>

DataFrame的主要方法也可用於Series對象，我們以mean和plot方法為例（見圖5-3）：

<code>In [63]: s.mean()Out[63]: -0.15021177307319458In [64]: s.plot(lw=2.0, figsize=(10, 6));/<code>

圖5-3　Series對象的折線圖

5.5　GroupBy操作

pandas具備強大而靈活的分組功能，工作方式類似於SQL中的分組和Microsoft Excel中的透視表。為了進行分組，我們添加一列，表示對應索引數據所屬的季度：

<code>In [65]: df['Quarter'] = ['Q1', 'Q1', 'Q1', 'Q2', 'Q2',                          'Q2', 'Q3', 'Q3', 'Q3']         dfOut[65]:                  No1       No2       No3       No4 Quarter         2019-01-31 -1.749765  0.342680  1.153036 -0.252436      Q1         2019-02-28  0.981321  0.514219  0.221180 -1.070043      Q1         2019-03-31 -0.189496  0.255001 -0.458027  0.435163      Q1         2019-04-30 -0.583595  0.816847  0.672721 -0.104411      Q2         2019-05-31 -0.531280  1.029733 -0.438136 -1.118318      Q2         2019-06-30  1.618982  1.541605 -0.251879 -0.842436      Q2         2019-07-31  0.184519  0.937082  0.731000  1.361556      Q3         2019-08-31 -0.326238  0.055676  0.222400 -1.443217      Q3         2019-09-30 -0.756352  0.816454  0.750445 -0.455947      Q3/<code>

現在，我們可以根據Quarter列分組，並輸出單獨組的統計量：

<code>In [66]: groups = df.groupby('Quarter') ❶In [67]: groups.size() ❷Out[67]: Quarter         Q1    3         Q2    3         Q3    3         dtype: int64In [68]: groups.mean() ❸Out[68]:               No1      No2       No3       No4Quarter         Q1      -0.319314 0.370634  0.305396 -0.295772         Q2       0.168035 1.129395 -0.005765 -0.688388         Q3      -0.299357 0.603071  0.567948 -0.179203In [69]: groups.max() ❹Out[69]:               No1      No2      No3       No4         Quarter         Q1       0.981321 0.514219 1.153036  0.435163         Q2       1.618982 1.541605 0.672721 -0.104411         Q3       0.184519 0.937082 0.750445  1.361556In [70]: groups.aggregate([min, max]).round(2) ❺Out[70]:           No1       No2        No3        No4                   Min  max  min  max   min  max   min   max         Quarter         Q1      -1.75 0.98 0.26 0.51 -0.46 1.15 -1.07  0.44         Q2      -0.58 1.62 0.82 1.54 -0.44 0.67 -1.12 -0.10         Q3      -0.76 0.18 0.06 0.94  0.22 0.75 -1.44  1.36/<code>

❶ 根據Quarter列分組。

❷ 給出每個分組的行數。

❸ 給出每的列均值。

❹ 給出每列的最大值。

❺ 給出每列的最小值和最大值。

分組也可以在多列上進行。為此，我們添加另一列，表示索引日期的月份是奇數還是偶數：

<code>In [71]: df['Odd_Even'] = ['Odd', 'Even', 'Odd', 'Even', 'Odd', 'Even',                          'Odd', 'Even', 'Odd']In [72]: groups = df.groupby(['Quarter', 'Odd_Even'])In [73]: groups.size()Out[73]: Quarter  Odd_Even         Q1       Even        1                  Odd         2         Q2       Even        2                  Odd         1         Q3       Even        1                  Odd         2         dtype: int64In [74]: groups[['No1', 'No4']].aggregate([sum, np.mean])Out[74]:                        No1                 No4                                Sum      mean       sum mean         Quarter Odd_Even         Q1      Even      0.981321  0.981321 -1.070043 -1.070043                 Odd      -1.939261 -0.969631  0.182727  0.091364         Q2      Even      1.035387  0.517693 -0.946847 -0.473423                 Odd      -0.531280 -0.531280 -1.118318 -1.118318         Q3      Even     -0.326238 -0.326238 -1.443217 -1.443217                 Odd      -0.571834 -0.285917  0.905609  0.452805/<code>

對pandas和DataFrame對象使用的介紹到此結束，下面將這組工具應用到現實世界的金融數據中。

5.6　複雜選擇

數據選擇往往是通過列值上的條件公式實現的，也可以通過符合邏輯的方式來組合多個條件。考慮如下數據集。

<code>In [75]: data = np.random.standard_normal((10, 2)) ❶In [76]: df = pd.DataFrame(data, columns=['x', 'y']) ❷In [77]: df.info() ❷         <class>         RangeIndex: 10 entries, 0 to 9         Data columns (total 2 columns):         X    10 non-null float64         Y    10 non-null float64         dtypes: float64(2)         memory usage: 240.0 bytesIn [78]: df.head() ❸Out[78]:           x         y         0  1.189622 -1.690617         1 -1.356399 -1.232435         2 -0.544439 -0.668172         3  0.007315 -0.612939         4  1.299748 -1.733096In [79]: df.tail() ❹Out[79]:           x         y         5 -0.983310  0.357508         6 -1.613579  1.470714         7 -1.188018 -0.549746         8 -0.940046 -0.827932         9  0.108863  0.507810/<class>/<code>

❶ 包含標準正態分佈隨機數的ndarray對象。

❷ 包含相同隨機數的DataFrame對象。

❸ 通過head方法取得前5行。

❹ 通過tail方法取得最後5行。

下面的代碼說明了Python比較運算符和邏輯運算符在兩列值上的應用：

<code>In [80]: df['x'] > 0.5 ❶Out[80]: 0     True         1    False         2    False         3    False         4     True         5    False         6    False         7    False         8    False         9    False         Name: x, dtype: boolIn [81]: (df['x'] > 0) & (df['y'] < 0) ❷Out[81]: 0     True         1    False         2    False         3     True         4     True         5    False         6    False         7    False         8    False         9    False         dtype: boolIn [82]: (df['x'] > 0) | (df['y'] < 0) ❸Out[82]: 0     True         1     True         2     True         3     True         4     True         5    False         6    False         7     True         8     True         9     True         dtype: bool/<code>

❶ 檢查x列的值是否大於0.5。

❷ 檢查是否x列的值為正且y列的值為負。

❸ 檢查是否x列的值為正或y列的值為負。

利用得到的布爾型Series對象，就可以很容易地實現複雜數據（行）的選擇。另外，也可以使用query方法並以字符串對象的形式來傳遞條件：

<code>In [83]: df[df['x'] > 0] ❶Out[83]:           x         y         0  1.189622 -1.690617         3  0.007315 -0.612939         4  1.299748 -1.733096         9  0.108863  0.507810In [84]: df.query('x > 0') ❶Out[84]:           x         y         0  1.189622 -1.690617         3  0.007315 -0.612939         4  1.299748 -1.733096         9  0.108863  0.507810In [85]: df[(df['x'] > 0) & (df['y'] < 0)] ❷Out[85]:           x         y         0  1.189622 -1.690617         3  0.007315 -0.612939         4  1.299748 -1.733096In [86]: df.query('x > 0 & y < 0') ❷Out[86]:           x         y         0  1.189622 -1.690617         3  0.007315 -0.612939         4  1.299748 -1.733096In [87]: df[(df.x > 0) | (df.y < 0)] ❸Out[87]:           x         y         0  1.189622 -1.690617         1 -1.356399 -1.232435         2 -0.544439 -0.668172         3  0.007315 -0.612939         4  1.299748 -1.733096         7 -1.188018 -0.549746         8 -0.940046 -0.827932         9  0.108863  0.507810/<code>

❶ 所有第x列的值大於0.5的行。

❷ 所有第x列的值為正且y的列值為負的行。

❸ 所有第x列的值為正或y的列值為負的行（各列通過對應屬性訪問）。

比較運算符也可以一次性應用到整個DataFrame對象上：

<code>In [88]: df > 0 ❶Out[88]:        x     y         0   True False         1  False False         2  False False         3   True False         4   True False         5  False  True         6  False  True         7  False False         8  False False         9   True  TrueIn [89]: df[df > 0] ❷Out[89]:           x        y         0  1.189622      NaN         1       NaN      NaN         2       NaN      NaN         3  0.007315      NaN         4  1.299748      NaN         5       NaN 0.357508         6       NaN 1.470714         7       NaN      NaN         8       NaN      NaN         9  0.108863 0.507810/<code>

❶ DataFrame對象中的哪些值為正？

❷ 選擇所有滿足要求的值，並將其他值設為NaN。

5.7　聯接、連接和合並

本節簡單介紹連接DataFrame對象形式的兩個簡單數據集的不同方法。這兩個簡單數據集如下所示：

<code>In [90]: df1 = pd.DataFrame(['100', '200', '300', '400'],                             index=['a', 'b', 'c', 'd'],                             columns=['A',])In [91]: df1Out[91]:       A         a   100         b   200         c   300         d   400In [92]: df2 = pd.DataFrame(['200', '150', '50'],                             index=['f', 'b', 'd'],                             columns=['B',])In [93]: df2Out[93]:       B         f 200         b 150         d 50/<code>

5.7.1　聯接

聯接（Concatenation）或者附加（Appending）本質上指的是將一個DataFrame對象中的行添加到另一個DataFrame對象上，這可通過append方法或者pd.concat函數完成。需要認真考慮的是索引值的處理方法：

<code>In [94]: df1.append(df2, sort=False) ❶Out[94]:      A    B         a  100  NaN         b  200  NaN         c  300  NaN         d  400  NaN         f  NaN  200         b  NaN  150         d  NaN   50In [95]: df1.append(df2, ignore_index=True, sort=False) ❷Out[95]:      A    B         0  100  NaN         1  200  NaN         2  300  NaN         3  400  NaN         4  NaN  200         5  NaN  150         6  NaN   50In [96]: pd.concat((df1, df2), sort=False) ❸Out[96]:      A    B         a  100  NaN         b  200  NaN         c  300  NaN         d  400  NaN         f  NaN  200         b  NaN  150         d  NaN   50In [97]: pd.concat((df1, df2), ignore_index=True, sort=False) ❹Out[97]:      A    B         0  100  NaN         1  200  NaN         2  300  NaN         3  400  NaN         4  NaN  200         5  NaN  150         6  NaN   50/<code>

❶ 將df2的數據附加到df1中作為新行。

❷ 完成同樣的工作，但忽略索引。

❸ 與第一個附加操作效果相同。

❹ 與第二個附加操作效果相同。

5.7.2　連接

連接兩個數據集時，DataFrame對象的順序很重要。只有第一個DataFrame對象的索引值被使用，這種默認行為稱為左連接（left join）：

<code>In [98]: df1.join(df2) ❶Out[98]:      A    B         a  100  NaN         b  200  150         c  300  NaN         d  400   50In [99]: df2.join(df1) ❷Out[99]:      B    A         f  200  NaN         b  150  200         d   50  400/<code>

❶ df1的索引值有意義。

❷ df2的索引值有意義。

共有4種不同的連接方法，每種方法都導致索引值和對應數據行的不同處理行為：

<code>In [100]: df1.join(df2, how='left') ❶Out[100]:      A    B          a  100  NaN          b  200  150          c  300  NaN          d  400   50In [101]: df1.join(df2, how='right') ❷Out[101]:      A    B          f  NaN  200          b  200  150          d  400   50In [102]: df1.join(df2, how='inner') ❸Out[102]:      A    B          b  200  150          d  400   50In [103]: df1.join(df2, how='outer') ❹Out[103]:      A    B          a  100  NaN          b  200  150          c  300  NaN          d  400   50          f  NaN  200/<code>

❶ 左連接是默認操作。

❷ 右連接相當於顛倒了DataFrame對象的順序。

❸ 內連接只保留在兩個索引中都存在的索引值。

❹ 外連接保留兩個索引中的所有索引值。

連接也可以基於空的DataFrame對象。在這種情況下，列按順序被創建，這與左連接類似：

<code>In [104]: df = pd.DataFrame()In [105]: df['A'] = df1['A'] ❶In [106]: dfOut[106]:      A          a  100          b  200          c  300          d  400In [107]: df['B'] = df2 ❷In [108]: dfOut[108]:      A    B          a  100  NaN          b  200  150          c  300  NaN          d  400   50/<code>

❶ df1為第一列A。

❷ df2為第二列B。

使用字典來組合數據集可以得到類似於外連接的結果，因為列是同時創建的：

<code>In [109]: df = pd.DataFrame({'A': df1['A'], 'B': df2['B']})In [110]: dfOut[110]:      A    B          a  100  NaN          b  200  150          c  300  NaN          d  400   50          f  NaN  200/<code>

❶ DataFrame對象的各列用作字典對象的值

5.7.3　合併

連接操作根據待連接的DataFrame對象的索引進行，而合併操作通常在兩個數據集共享的某列上進行。為此，在兩個原始的DataFrame對象上添加一個新列C：

<code>In [111]: c = pd.Series([250, 150, 50], index=['b', 'd', 'c'])          df1['C'] = c          df2['C'] = cIn [112]: df1Out[112]:      A      C          a  100    NaN          b  200  250.0          c  300   50.0          d  400  150.0In [113]: df2Out[113]:      B      C          f  200    NaN          b  150  250.0          d   50  150.0/<code>

默認情況下，這種合併操作根據單一共享列C進行。但也存在其他可能，例如外合併：

<code>In [114]: pd.merge(df1, df2) ❶Out[114]:      A      C    B          0  100    NaN  200          1  200  250.0  150          2  400  150.0   50In [115]: pd.merge(df1, df2, on='C') ❶Out[115]:      A      C    B          0  100    NaN  200          1  200  250.0  150          2  400  150.0   50In [116]: pd.merge(df1, df2, how='outer')Out[116]:      A      C    B          0  100    NaN  200          1  200  250.0  150          2  300   50.0  NaN          3  400  150.0   50/<code>

❶ 默認合併根據C列進行。

❷ 也可以進行外合併，保留所有數據行。

可用的合併操作類型還有很多，下面的代碼演示了其中的幾種：

<code>In [117]: pd.merge(df1, df2, left_on='A', right_on='B')Out[117]:      A    C_x    B  C_y          0  200  250.0  200  NaNIn [118]: pd.merge(df1, df2, left_on='A', right_on='B', how='outer')Out[118]:      A    C_x    B    C_y          0  100    NaN  NaN    NaN          1  200  250.0  200    NaN          2  300   50.0  NaN    NaN          3  400  150.0  NaN    NaN          4  NaN    NaN  150  250.0          5  NaN    NaN   50  150.0In [119]: pd.merge(df1, df2, left_index=True, right_index=True)Out[119]:      A    C_x    B    C_y          b  200  250.0  150  250.0          d  400  150.0   50  150.0In [120]: pd.merge(df1, df2, on='C', left_index=True)Out[120]:      A      C    B          f  100    NaN  200          b  200  250.0  150          d  400  150.0   50In [121]: pd.merge(df1, df2, on='C', right_index=True)Out[121]:      A      C    B          a  100    NaN  200          b  200  250.0  150          d  400  150.0   50In [122]: pd.merge(df1, df2, on='C', left_index=True, right_index=True)Out[122]:      A    C      B          b  200  250.0  150          d  400  150.0   50/<code>

5.8　性能特徵

本章的許多例子說明，用pandas實現同一個目標往往有多種選擇。本節以按元素加總兩列數值為例來這些選擇進行對比。首先用NumPy生成數據集：

<code>In [123]: data = np.random.standard_normal((1000000, 2)) ❶In [124]: data.nbytes ❶Out[124]: 16000000In [125]: df = pd.DataFrame(data, columns=['x', 'y']) ❷In [126]: df.info() ❷          <class>          RangeIndex: 1000000 entries, 0 to 999999          Data columns (total 2 columns):          X    1000000 non-null float64          Y    1000000 non-null float64          dtypes: float64(2)          memory usage: 15.3 MB/<class>/<code>

❶ 包含隨機數的ndarray對象。

❷ 包含隨機數的DataFrame對象。

其次，實現手邊任務的某選擇性能還不錯：

<code>In [127]: %time res = df['x'] + df['y'] ❶          CPU times: user 7.35 ms, sys: 7.43 ms, total: 14.8 ms          Wall time: 7.48 msIn [128]: res[:3]Out[128]: 0    0.387242          1   -0.969343          2   -0.863159          dtype: float64In [129]: %time res = df.sum(axis=1) ❷          CPU times: user 130 ms, sys: 30.6 ms, total: 161 ms          Wall time: 101 msIn [130]: res[:3]Out[130]: 0    0.387242          1   -0.969343          2   -0.863159          dtype: float64In [131]: %time res = df.values.sum(axis=1) ❸          CPU times: user 50.3 ms, sys: 2.75 ms, total: 53.1 ms          Wall time: 27.9 msIn [132]: res[:3]Out[132]: array([ 0.3872424 , -0.96934273, -0.86315944])In [133]: %time res = np.sum(df, axis=1) ❹          CPU times: user 127 ms, sys: 15.1 ms, total: 142 ms          Wall time: 73.7 msIn [134]: res[:3]Out[134]: 0    0.387242          1   -0.969343          2   -0.863159          dtype: float64In [135]: %time res = np.sum(df.values, axis=1) ❺          CPU times: user 49.3 ms, sys: 2.36 ms, total: 51.7 ms          Wall time: 26.9 msIn [136]: res[:3]Out[136]: array([ 0.3872424 , -0.96934273, -0.86315944])/<code>

❶ 直接使用列（Series對象）是最快的方法。

❷ 調用DataFrame對象的sum方法來計算總和。

❸ 調用ndarray對象的sum方法來計算總和。

❹ 調用DataFrame對象的np.sum方法來計算總和。

❺ 調用ndarray對象的np.sum方法來計算總和。

最後，還有兩種選擇可以計算元素和，它們分別基於eval和apply方法[1]：

<code>The application of the eval() method requires the numexpr package to   be installed.In [137]: %time res = df.eval('x + y') ❶          CPU times: user 25.5 ms, sys: 17.7 ms, total: 43.2 ms          Wall time: 22.5 msIn [138]: res[:3]Out[138]: 0    0.387242          1   -0.969343          2   -0.863159          dtype: float64In [139]: %time res = df.apply(lambda row: row['x'] + row['y'], axis=1)          CPU times: user 19.6 s, sys: 83.3 ms, total: 19.7 s          Wall time: 19.9 sIn [140]: res[:3]Out[140]: 0    0.387242          1   -0.969343          2   -0.863159          dtype: float64/<code>

❶ eval是專門用於計算（複雜）數值表達式的方法，可以直接處理數據列。

❷ 最慢的選擇是逐行使用apply方法，這就像在Python級別上循環訪問所有行。

明智的選擇

pandas常常為實現統一目標提供多個選擇。如果不確定使用哪一個，那麼在時間是關鍵因素的情況下，比較各種選擇，選擇性能最好的一種。在上面這個簡單的例子裡，不同選擇的執行時間相差好幾個數量級。

5.9　結語

pandas是強大的數據分析工具，已經成為所謂的PyData棧的核心軟件包。它的DataFrame類特別適合於處理任何類型的表格數據。這些對象上的大部分操作是向量化的，這不僅可以得到和NumPy類似的簡潔代碼，而且還可以得到高性能。此外，pandas能夠很方便地處理不完整數據集（NumPy做不到這一點）。pandas和DataFrame類將是本書後續多個章節的核心，在必要時將使用並介紹它們的更多特性。

5.10　延伸閱讀

pandas是一個開源項目，你既可以閱讀在線文檔，也可以下載其PDF版本[2]。官網上還提供了一些附加資源。

至於NumPy，我們建議的pandas參考書如下。

McKinney, Wes (2017). Python for Data Analysis. Sebastopol, CA: O’Reilly.
VanderPlas, Jake (2016). Python Data Science Handbook. Sebastopol, CA: O’Reilly.

[1]　要想使用eval方法需要安裝numexpr軟件包。——原注

[2]　在本書編寫期間，PDF文檔共有2500頁。——原注

本文摘自《Python金融大數據分析第2版》[德] 伊夫·希爾皮斯科（Yves Hilpisch）著，姚軍譯

金融科技算法交易量化金融教程書籍
詳細講解使用Python分析處理金融大數據的專業圖書
將人工智能應用於金融開發的實戰指南，金融應用開發領域從業人員的常備讀物

Python已成為數據驅動AI、金融優先選擇的編程語言。現在，一些大型的投資銀行和對沖資金均使用Python及其生態系統來構建核心交易與風險管理系統。在本書中，作者向開發人員和量化分析人員介紹了使用Python程序庫與工具，完成金融數據科學、算法交易和計算金融任務的方法。

Python與金融：Python交互式金融分析與程序開發入門。基本知識：學習Python數據類型與結構、NumPy、pandas及其DataFrame類、面向對象編程。金融數據科學：探索用於金融時間序列數據、I/O操作、推斷統計學和機器學習的Python技術與程序庫。算法交易：使用Python來驗證和部署自動算法交易策略。

衍生品分析：開發靈活、強大的Python期權、衍生品定價和風險管理程序庫。

分享到:

閱讀更多 程序員書屋 的文章

關鍵字: 磚來可視化技術 SQL

從零開始學Python【四】--pandas(序列部分)

pandas 數據類型轉換

開源教程《Joyful-Pandas》發佈（數據分析必讀）

Pandas Groupby —解釋

【數據】自然語言推理數據集

【數據】新聞分類數據集

【數據】情感分析數據集

大數據Join指南-Python，SQL，Pandas，Spark，Dask

串口通訊的起始、數據、停止位都是怎麼分配的？

一文給你講清楚串口通訊起始、數據、停止位都是怎麼分配的

一文給你講清楚串口通訊的起始、數據、停止位都是怎麼分配的！

NumPy、pandas、Matplotlib…8個Python庫從安裝到應用（附代碼）

pandas 之 groupby

Pandas分組聚合

Pandas數據整合

Pandas索引+增刪改查

03.05 價值500的zblog技術導航網v2.3全站源碼+數據

02.29 一文給你講清楚串口通訊的起始、數據、停止位都是怎麼分配的

02.28 智聯Python相關職位的數據分析及可視化-Pandas&Matplotlib篇

使用Python「秒開」100GB+數據

01.18 Pandas 數據處理三板斧，你會幾板？

Pandas 1.0.0rc發佈：增加markdown格式的輸出

一文給你講清楚串口通訊的起始、數據、停止位都是怎麼分配的

12.18 一文給你講清楚串口通訊的起始、數據、停止位都是怎麼分配的

還在手動導入 pandas？你太 out 了

12.08 秒開 100GB 數據！甩了 Pandas 幾條街啊

別找了，這是 Pandas 最詳細教程了

簡直了，竟然只需十分鐘就能完全掌握Python pandas

python基礎知識：Pandas DataFrame中的tuple元素遍歷的實現

Thinkphp5更新(修改)數據

數據處理必看：如何讓你的 pandas 循環加快 71803 倍

Pandas 基本介紹

用Python做數據處理需要知道的：6個使效率倍增的 Pandas 技巧

用 Python Pandas 處理億級數據

python pandas 數據分組計數統計

教你如何爬取高德地圖 POI 數據

每日一博｜教你如何爬取高德地圖 POI 數據

09.18 使用scikit-learn和PySpark Pandas UDF進行大規模預測

python數據分析實用技能：Pandas 透視表(pivot

數據、計算機硬體和資料庫應用推動著資料庫技術與系統的發展

Pandas 初學者代碼優化指南

自然語言處理全家福：縱覽當前NLP中的任務、數據、模型與論文

06.24 自然語言處理全家福：縱覽當前NLP中的任務、數據、模型與論文

pip install pandas

python數據分析工具——Pandas、StatsModels、Scikit-Learn

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"