Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

標準安裝的Python中用列表(list)保存一組值,可以用來當作數組使用,不過由於列表的元素可以是任何對象,因此列表中所保存的是對象的指 針。這樣為了保存一個簡單的[1,2,3],需要有3個指針和三個整數對象。對於數值運算來說這種結構顯然比較浪費內存和CPU計算時間。

此外Python還提供了一個array模塊,array對象和列表不同,它直接保存數值,和C語言的一維數組比較類似。但是由於它不支持多維,也沒有各種運算函數,因此也不適合做數值運算。

NumPy的誕生彌補了這些不足,NumPy提供了兩種基本的對象:ndarray(N-dimensional array object)和 ufunc(universal function object)。ndarray(下文統一稱之為數組)是存儲單一數據類型的多維數組,而ufunc則是能夠對數組進行處理的函數。喜歡的話關注收藏評論轉發比心麼麼噠!Python學習交流企鵝群526929231內有大量的項目開發和新手教學視頻PDF書籍的五千人大群等著你來加入

2.1 ndarray對象

函數庫的導入

本書的示例程序假設用以下推薦的方式導入NumPy函數庫:

import numpy as np

2.1.1 創建

首先需要創建數組才能對其進行其它操作。

我們可以通過給array函數傳遞Python的序列對象創建數組,如果傳遞的是多層嵌套的序列,將創建多維數組(下例中的變量c):

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

數組a的shape只有一個元素,因此它是一維數組。而數組c的shape有兩個元素,因此它是二維數組,其中第0軸的長度為3,第1軸的長度為 4。還可以通過修改數組的shape屬性,在保持數組元素個數不變的情況下,改變數組每個軸的長度。下面的例子將數組c的shape改為(4,3),注意 從(3,4)改為(4,3)並不是對數組進行轉置,而只是改變每個軸的大小,數組元素在內存中的位置並沒有改變:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

當某個軸的元素為-1時,將根據數組元素的個數自動計算此軸的長度,因此下面的程序將數組c的shape改為了(2,6):

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

使用數組的reshape方法,可以創建一個改變了尺寸的新數組,原數組的shape保持不變:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

數組a和d其實共享數據存儲內存區域,因此修改其中任意一個數組的元素都會同時修改另外一個數組的內容:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

數組的元素類型可以通過dtype屬性獲得。上面例子中的參數序列的元素都是整數,因此所創建的數組的元素類型也是整數,並且是32bit的長整型。可以通過dtype參數在創建時指定元素類型:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

上面的例子都是先創建一個Python序列,然後通過array函數將其轉換為數組,這樣做顯然效率不高。因此NumPy提供了很多專門用來創建數組的函數。下面的每個函數都有一些關鍵字參數,具體用法請查看函數說明。

  • arange函數類似於python的range函數,通過指定開始值、終值和步長來創建一維數組,注意數組不包括終值:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

linspace函數通過指定開始值、終值和元素個數來創建一維數組,可以通過endpoint關鍵字指定是否包括終值,缺省設置是包括終值:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

logspace函數和linspace類似,不過它創建等比數列,下面的例子產生1(10^0)到100(10^2)、有20個元素的等比數列:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

此外,使用frombuffer, fromstring, fromfile等函數可以從字節序列創建數組,下面以fromstring為例:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

Python的字符串實際上是字節序列,每個字符佔一個字節,因此如果從字符串s創建一個8bit的整數數組的話,所得到的數組正好就是字符串中每個字符的ASCII編碼:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

如果從字符串s創建16bit的整數數組,那麼兩個相鄰的字節就表示一個整數,把字節98和字節97當作一個16位的整數,它的值就是98*256+97 = 25185。可以看出內存中是以little endian(低位字節在前)方式保存數據的。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

如果把整個字符串轉換為一個64位的雙精度浮點數數組,那麼它的值是:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

顯然這個例子沒有什麼意義,但是可以想象如果我們用C語言的二進制方式寫了一組double類型的數值到某個文件中,那們可以從此文件讀取相應的數據,並通過fromstring函數將其轉換為float64類型的數組。

我們可以寫一個Python的函數,它將數組下標轉換為數組中對應的值,然後使用此函數創建數組:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

fromfunction函數的第一個參數為計算每個數組元素的函數,第二個參數為數組的大小(shape),因為它支持多維數組,所以第二個參數必須是一個序列,本例中用(10,)創建一個10元素的一維數組。

下面的例子創建一個二維數組表示九九乘法表,輸出的數組a中的每個元素a[i, j]都等於func2(i, j):

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

2.1.2 存取元素

數組元素的存取方法和Python的標準方法相同:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

和Python的列表序列不同,通過下標範圍獲取的新的數組是原始數組的一個視圖。它與原始數組共享同一塊數據空間:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

除了使用下標範圍存取元素之外,NumPy還提供了兩種存取元素的高級方法。

使用整數序列

當使用整數序列對數組元素進行存取時,將使用整數序列中的每個元素作為下標,整數序列可以是列表或者數組。使用整數序列作為下標獲得的數組不和原始數組共享數據空間。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

使用布爾數組

當使用布爾數組b作為下標存取數組x中的元素時,將收集數組x中所有在數組b中對應下標為True的元素。使用布爾數組作為下標獲得的數組不和原始數組共享數據空間,注意這種方式只對應於布爾數組,不能使用布爾列表。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

布爾數組一般不是手工產生,而是使用布爾運算的ufunc函數產生,關於ufunc函數請參照 ufunc運算 一節。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

2.1.3 多維數組

多維數組的存取和一維數組類似,因為多維數組有多個軸,因此它的下標需要用多個值來表示,NumPy採用組元(tuple)作為數組的下標。如圖2.1所示,a為一個6x6的數組,圖中用顏色區分了各個下標以及其對應的選擇區域。

組元不需要圓括號

雖然我們經常在Python中用圓括號將組元括起來,但是其實組元的語法定義只需要用逗號隔開即可,例如 x,y=y,x 就是用組元交換變量值的一個例子。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

如何創建這個數組

你也許會對如何創建a這樣的數組感到好奇,數組a實際上是一個加法表,縱軸的值為0, 10, 20, 30, 40, 50;橫軸的值為0, 1, 2, 3, 4, 5。縱軸的每個元素都和橫軸的每個元素求和,就得到圖中所示的數組a。你可以用下面的語句創建它,至於其原理我們將在後面的章節進行討論:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

多維數組同樣也可以使用整數序列和布爾數組進行存取。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

  • a[(0,1,2,3,4),(1,2,3,4,5)] : 用於存取數組的下標和仍然是一個有兩個元素的組元,組元中的每個元素都是整數序列,分別對應數組的第0軸和第1軸。從兩個序列的對應位置取出兩個整數組成 下標: a[0,1], a[1,2], ..., a[4,5]。

  • a[3:, [0, 2, 5]] : 下標中的第0軸是一個範圍,它選取第3行之後的所有行;第1軸是整數序列,它選取第0, 2, 5三列。

  • a[mask, 2] : 下標的第0軸是一個布爾數組,它選取第0,2,5行;第1軸是一個整數,選取第2列。

2.1.4 結構數組

在C語言中我們可以通過struct關鍵字定義結構類型,結構中的字段佔據連續的內存空間,每個結構體佔用的內存大小都相同,因此可以很容易地定義 結構數組。和C語言一樣,在NumPy中也很容易對這種結構數組進行操作。只要NumPy中的結構定義和C語言中的定義相同,NumPy就可以很方便地讀 取C語言的結構數組的二進制數據,轉換為NumPy的結構數組。

假設我們需要定義一個結構數組,它的每個元素都有name, age和weight字段。在NumPy中可以如下定義:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

我們先創建一個dtype對象persontype,通過其字典參數描述結構類型的各個字段。字典有兩個關鍵字:names,formats。每個關鍵字對應的值都是一個列表。names定義結構中的每個字段名,而formats則定義每個字段的類型:

  • S32 : 32個字節的字符串類型,由於結構中的每個元素的大小必須固定,因此需要指定字符串的長度

  • i : 32bit的整數類型,相當於np.int32

  • f : 32bit的單精度浮點數類型,相當於np.float32

然後我們調用array函數創建數組,通過關鍵字參數 dtype=persontype, 指定所創建的數組的元素類型為結構persontype。運行上面程序之後,我們可以在IPython中執行如下的語句查看數組a的元素類型

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

這裡我們看到了另外一種描述結構類型的方法: 一個包含多個組元的列表,其中形如 (字段名, 類型描述) 的組元描述了結構中的每個字段。類型描述前面為我們添加了 '|', '

  • | : 忽視字節順序

  • < : 低位字節在前

  • > : 高位字節在前

結構數組的存取方式和一般數組相同,通過下標能夠取得其中的元素,注意元素的值看上去像是組元,實際上它是一個結構:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

2.1.5 內存結構

下面讓我們來看看ndarray數組對象是如何在內存中儲存的。如圖2.3所示,關於數組的描述信息保存在一個數據結構中,這個結構引用兩個對象:一塊用於保存數據的存儲區域和一個用於描述元素類型的dtype對象。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

圖2.3 ndarray數組對象在內存中的儲存方式

數據存儲區域保存著數組中所有元素的二進制數據,dtype對象則知道如何將元素的二進制數據轉換為可用的值。數組的維數、大小等信息都保存在ndarray數組對象的數據結構中。圖中顯示的是如下數組的內存結構:

>>> a = np.array([[0,1,2],[3,4,5],[6,7,8]], dtype=np.float32)

strides中保存的是當每個軸的下標增加1時,數據存儲區中的指針所增加的字節數。例如圖中的strides為12,4,即第0軸的下標增加1 時,數據的地址增加12個字節:即a[1,0]的地址比a[0,0]的地址要高12個字節,正好是3個單精度浮點數的總字節數;第1軸下標增加1時,數據 的地址增加4個字節,正好是單精度浮點數的字節數。

如果strides中的數值正好和對應軸所佔據的字節數相同的話,那麼數據在內存中是連續存儲的。然而數據並不一定都是連續儲存的,前面介紹過通過下標範圍得到新的數組是原始數組的視圖,即它和原始視圖共享數據存儲區域:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

由於數組b和數組a共享數據存儲區,而b中的第0軸和第1軸都是數組a中隔一個元素取一個,因此數組b的strides變成了24,8,正好都是數組a的兩倍。 對照前面的圖很容易看出數據0和2的地址相差8個字節,而0和6的地址相差24個字節。

元素在數據存儲區中的排列格式有兩種:C語言格式和Fortan語言格式。在C語言中,多維數組的第0軸是最上位的,即第0軸的下標增加1時,元素 的地址增加的字節數最多;而Fortan語言的多維數組的第0軸是最下位的,即第0軸的下標增加1時,地址只增加一個元素的字節數。在NumPy中,元素 在內存中的排列缺省是以C語言格式存儲的,如果你希望改為Fortan格式的話,只需要給數組傳遞order="F"參數:

>>> c = np.array([[0,1,2],[3,4,5],[6,7,8]], dtype=np.float32, order="F")
>>> c.strides
(4, 12)

2.2 ufunc運算

ufunc是universal function的縮寫,它是一種能對數組的每個元素進行操作的函數。NumPy內置的許多ufunc函數都是在C語言級別實現的,因此它們的計算速度非常快。讓我們來看一個例子:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

先用linspace產生一個從0到2*PI的等距離的10個數,然後將其傳遞給sin函數,由於np.sin是一個ufunc函數,因此它對x中 的每個元素求正弦值,然後將結果返回,並且賦值給y。計算之後x中的值並沒有改變,而是新創建了一個數組保存結果。如果我們希望將sin函數所計算的結果 直接覆蓋到數組x上去的話,可以將要被覆蓋的數組作為第二個參數傳遞給ufunc函數。例如::

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

sin函數的第二個參數也是x,那麼它所做的事情就是對x中的每給值求正弦值,並且把結果保存到x中的對應的位置中。此時函數的返回值仍然是整個計算的結果,只不過它就是x,因此兩個變量的id是相同的(變量t和變量x指向同一塊內存區域)。

我用下面這個小程序,比較了一下numpy.math和Python標準庫的math.sin的計算速度::

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

在我的電腦上計算100萬次正弦值,numpy.sin比math.sin快10倍多。這得利於numpy.sin在C語言級別的循環計算。 numpy.sin同樣也支持對單個數值求正弦,例如:numpy.sin(0.5)。不過值得注意的是,對單個數的計算math.sin則比 numpy.sin快得多了,讓我們看下面這個測試程序:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

請注意numpy.sin的計算速度只有math.sin的1/5。這是因為numpy.sin為了同時支持數組和單個值的計算,其C語言的內部實 現要比math.sin複雜很多,如果我們同樣在Python級別進行循環的話,就會看出其中的差別了。此外,numpy.sin返回的數的類型和 math.sin返回的類型有所不同,math.sin返回的是Python的標準float類型,而numpy.sin則返回一個 numpy.float64類型:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

通過上面的例子我們瞭解瞭如何最有效率地使用math庫和numpy庫中的數學函數。因為它們各有長短,因此在導入時不建議使用*號全部載入,而是應該使用import numpy as np的方式載入,這樣我們可以根據需要選擇合適的函數調用。

NumPy中有眾多的ufunc函數為我們提供各式各樣的計算。除了sin這種單輸入函數之外,還有許多多個輸入的函數,add函數就是一個最常用的例子。先來看一個例子:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

add函數返回一個新的數組,此數組的每個元素都為兩個參數數組的對應元素之和。它接受第3個參數指定計算結果所要寫入的數組,如果指定的話,add函數就不再產生新的數組。

由於Python的操作符重載功能,計算兩個數組相加可以簡單地寫為a+b,而np.add(a,b,a)則可以用a+=b來表示。下面是數組的運 算符和其對應的ufunc函數的一個列表,注意除號"/"的意義根據是否激活__future__.division有所不同。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

數組對象支持這些操作符,極大地簡化了算式的編寫,不過要注意如果你的算式很複雜,並且要運算的數組很大的話,會因為產生大量的中間結果而降低程序的運算效率。例如:假設a b c三個數組採用算式x=a*b+c計算,那麼它相當於:

t = a * b
x = t + c
del t

也就是說需要產生一個數組t保存乘法的計算結果,然後再產生最後的結果數組x。我們可以通過手工將一個算式分解為x = a*b; x += c,以減少一次內存分配。

通過組合標準的ufunc函數的調用,可以實現各種算式的數組計算。不過有些時候這種算式不易編寫,而針對每個元素的計算函數卻很容易用 Python實現,這時可以用frompyfunc函數將一個計算單個元素的函數轉換成ufunc函數。這樣就可以方便地用所產生的ufunc函數對數組 進行計算了。讓我們來看一個例子。

我們想用一個分段函數描述三角波,三角波的樣子如圖2.4所示:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

圖2.4 三角波可以用分段函數進行計算

我們很容易根據上圖所示寫出如下的計算三角波某點y座標的函數:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

顯然triangle_wave函數只能計算單個數值,不能對數組直接進行處理。我們可以用下面的方法先使用列表包容(List comprehension),計算出一個list,然後用array函數將列表轉換為數組:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

這種做法每次都需要使用列表包容語法調用函數,對於多維數組是很麻煩的。讓我們來看看如何用frompyfunc函數來解決這個問題:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

frompyfunc的調用格式為frompyfunc(func, nin, nout),其中func是計算單個元素的函數,nin是此函數的輸入參數的個數,nout是此函數的返回值的個數。雖然triangle_wave函數 有4個參數,但是由於後三個c, c0, hc在整個計算中值都是固定的,因此所產生的ufunc函數其實只有一個參數。為了滿足這個條件,我們用一個lambda函數對 triangle_wave的參數進行一次包裝。這樣傳入frompyfunc的函數就只有一個參數了。這樣子做,效率並不是太高,另外還有一種方法:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

我們通過函數triangle_func包裝三角波的三個參數,在其內部定義一個計算三角波的函數trifunc,trifunc函數在調用時會採用triangle_func的參數進行計算。最後triangle_func返回用frompyfunc轉換結果。

值得注意的是用frompyfunc得到的函數計算出的數組元素的類型為object,因為frompyfunc函數無法保證Python函數返回的數據類型都完全一致。因此還需要再次 y2.astype(np.float64)將其轉換為雙精度浮點數組。

2.2.1 廣播

當我們使用ufunc函數對兩個數組進行計算時,ufunc函數會對這兩個數組的對應元素進行計算,因此它要求這兩個數組有相同的大小(shape相同)。如果兩個數組的shape不同的話,會進行如下的廣播(broadcasting)處理:

  1. 讓所有輸入數組都向其中shape最長的數組看齊,shape中不足的部分都通過在前面加1補齊

  2. 輸出數組的shape是輸入數組shape的各個軸上的最大值

  3. 如果輸入數組的某個軸和輸出數組的對應軸的長度相同或者其長度為1時,這個數組能夠用來計算,否則出錯

  4. 當輸入數組的某個軸的長度為1時,沿著此軸運算時都用此軸上的第一組值

上述4條規則理解起來可能比較費勁,讓我們來看一個實際的例子。

先創建一個二維數組a,其shape為(6,1):

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

計算a和b的和,得到一個加法表,它相當於計算a,b中所有元素組的和,得到一個shape為(6,5)的數組:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

由於a和b的shape長度(也就是ndim屬性)不同,根據規則1,需要讓b的shape向a對齊,於是將b的shape前面加1,補齊為(1,5)。相當於做了如下計算:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

這樣加法運算的兩個輸入數組的shape分別為(6,1)和(1,5),根據規則2,輸出數組的各個軸的長度為輸入數組各個軸上的長度的最大值,可知輸出數組的shape為(6,5)。

由於b的第0軸上的長度為1,而a的第0軸上的長度為6,因此為了讓它們在第0軸上能夠相加,需要將b在第0軸上的長度擴展為6,這相當於:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

由於a的第1軸的長度為1,而b的第一軸長度為5,因此為了讓它們在第1軸上能夠相加,需要將a在第1軸上的長度擴展為5,這相當於:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

當然,numpy在執行a+b運算時,其內部並不會真正將長度為1的軸用repeat函數進行擴展,如果這樣做的話就太浪費空間了。

由於這種廣播計算很常用,因此numpy提供了一個快速產生如上面a,b數組的方法: ogrid對象:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

ogrid是一個很有趣的對象,它像一個多維數組一樣,用切片組元作為下標進行存取,返回的是一組可以用來廣播計算的數組。其切片下標有兩種形式:

  • 開始值:結束值:步長,和np.arange(開始值, 結束值, 步長)類似

  • 開始值:結束值:長度j,當第三個參數為虛數時,它表示返回的數組的長度,和np.linspace(開始值, 結束值, 長度)類似:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

ogrid為什麼不是函數

根據Python的語法,只有在中括號中才能使用用冒號隔開的切片語法,如果ogrid是函數的話,那麼這些切片必須使用slice函數創建,這顯然會增加代碼的長度。

利用ogrid的返回值,我能很容易計算x, y網格面上各點的值,或者x, y, z網格體上各點的值。下面是繪製三維曲面 x * exp(x**2 - y**2) 的程序:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

此程序使用mayavi的mlab庫快速繪製如圖2.5所示的3D曲面,關於mlab的相關內容將在今後的章節進行介紹。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

圖2.5 使用ogrid創建的三維曲面

2.2.2 ufunc的方法

ufunc函數本身還有些方法,這些方法只對兩個輸入一個輸出的ufunc函數有效,其它的ufunc對象調用這些方法時會拋出ValueError異常。

reduce 方法和Python的reduce函數類似,它沿著axis軸對array進行操作,相當於將運算符插入到沿axis軸的所有子數組或者元素當中。

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

accumulate 方法和reduce方法類似,只是它返回的數組和輸入的數組的shape相同,保存所有的中間計算結果:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

reduceat 方法計算多組reduce的結果,通過indices參數指定一系列reduce的起始和終了位置。reduceat的計算有些特別,讓我們通過一個例子來解釋一下:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

對於indices中的每個元素都會調用reduce函數計算出一個值來,因此最終計算結果的長度和indices的長度相同。結果result數組中除最後一個元素之外,都按照如下計算得出:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

可以看出result[::2]和a相等,而result[1::2]和np.add.accumulate(a)相等。

outer 方法,.outer(a,b)方法的計算等同於如下程序:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

其中squeeze的功能是剔除數組a中長度為1的軸。如果你看不太明白這個等同程序的話,讓我們來看一個例子:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

可以看出通過outer方法計算的結果是如下的乘法表:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

2.3 矩陣運算

NumPy和Matlab不一樣,對於多維數組的運算,缺省情況下並不使用矩陣運算,如果你希望對數組進行矩陣運算的話,可以調用相應的函數。

matrix對象

numpy庫提供了matrix類,使用matrix類創建的是矩陣對象,它們的加減乘除運算缺省採用矩陣方式計算,因此用法和matlab十分類 似。但是由於NumPy中同時存在ndarray和matrix對象,因此用戶很容易將兩者弄混。這有違Python的“顯式優於隱式”的原則,因此並不 推薦在較複雜的程序中使用matrix。下面是使用matrix的一個例子:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

因為a是用matrix創建的矩陣對象,因此乘法和冪運算符都變成了矩陣運算,於是上面計算的是矩陣a和其逆矩陣的乘積,結果是一個單位矩陣。

矩陣的乘積可以使用dot函數進行計算。對於二維數組,它計算的是矩陣乘積,對於一維數組,它計算的是其點積。當需要將一維數組當作列矢量或者行矢量進行矩陣運算時,推薦先使用reshape函數將一維數組轉換為二維數組:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

除了dot計算乘積之外,NumPy還提供了inner和outer等多種計算乘積的函數。這些函數計算乘積的方式不同,尤其是當對於多維數組的時候,更容易搞混。

  • dot : 對於兩個一維的數組,計算的是這兩個數組對應下標元素的乘積和(數學上稱之為內積);對於二維數組,計算的是兩個數組的矩陣乘積;對於多維數組,它的通用 計算公式如下,即結果數組中的每個元素都是:數組a的最後一維上的所有元素與數組b的倒數第二位上的所有元素的乘積和:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

inner : 和dot乘積一樣,對於兩個一維數組,計算的是這兩個數組對應下標元素的乘積和;對於多維數組,它計算的結果數組中的每個元素都是:數組a和b的最後一維的內積,因此數組a和b的最後一維的長度必須相同:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

outer : 只按照一維數組進行計算,如果傳入參數是多維數組,則先將此數組展平為一維數組之後再進行運算。outer乘積計算的列向量和行向量的矩陣乘積:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

矩陣中更高級的一些運算可以在NumPy的線性代數子庫linalg中找到。例如inv函數計算逆矩陣,solve函數可以求解多元一次方程組。下面是solve函數的一個例子:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

solve函數有兩個參數a和b。a是一個N*N的二維數組,而b是一個長度為N的一維數組,solve函數找到一個長度為N的一維數組x,使得a和x的矩陣乘積正好等於b,數組x就是多元一次方程組的解。

有關線性代數方面的內容將在今後的章節中詳細介紹。

2.4 文件存取

NumPy提供了多種文件操作函數方便我們存取數組內容。文件存取的格式分為兩類:二進制和文本。而二進制格式的文件又分為NumPy專用的格式化二進制類型和無格式類型。

使用數組的方法函數tofile可以方便地將數組中數據以二進制的格式寫進文件。tofile輸出的數據沒有格式,因此用numpy.fromfile讀回來的時候需要自己格式化數據:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

從上面的例子可以看出,需要在讀入的時候設置正確的dtype和shape才能保證數據一致。並且tofile函數不管數組的排列順序是C語言格式的還是Fortran語言格式的,統一使用C語言格式輸出。

此外如果fromfile和tofile函數調用時指定了sep關鍵字參數的話,數組將以文本格式輸入輸出。

numpy.load和numpy.save函數以NumPy專用的二進制類型保存數據,這兩個函數會自動處理元素類型和shape等信息,使用它們讀寫數組就方便多了,但是numpy.save輸出的文件很難和其它語言編寫的程序讀入:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

如果你想將多個數組保存到一個文件中的話,可以使用numpy.savez函數。savez函數的第一個參數是文件名,其後的參數都是需要保存的數 組,也可以使用關鍵字參數為數組起一個名字,非關鍵字參數傳遞的數組會自動起名為arr_0, arr_1, ...。savez函數輸出的是一個壓縮文件(擴展名為npz),其中每個文件都是一個save函數保存的npy文件,文件名對應於數組名。load函數 自動識別npz文件,並且返回一個類似於字典的對象,可以通過數組名作為關鍵字獲取數組的內容:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

如果你用解壓軟件打開result.npz文件的話,會發現其中有三個文件:arr_0.npy, arr_1.npy, sin_array.npy,其中分別保存著數組a, b, c的內容。

使用numpy.savetxt和numpy.loadtxt可以讀寫1維和2維的數組:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

文件名和文件對象

本節介紹所舉的例子都是傳遞的文件名,也可以傳遞已經打開的文件對象,例如對於load和save函數來說,如果使用文件對象的話,可以將多個數組儲存到一個npy文件中:

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

一、數組方法

創建數組:arange()創建一維數組;array()創建一維或多維數組,其參數是類似於數組的對象,如列表等

創建數組:np.zeros((2,3)),或者np.ones((2,3)),參數是一個元組分別表示行數和列數

對應元素相乘,a * b,得到一個新的矩陣,形狀要一致;但是允許a是向量而b是矩陣,a的列數必須等於b的列數,a與每個行向量點乘

+ - / 與 * 的運算規則相同。

數學上定義的矩陣乘法 np.dot(a, b)。如果形狀不匹配會報錯;但是允許允許a和b都是向量,返回兩個向量的內積。只要有一個參數不是向量,就應用矩陣乘法。

(PS:總之就是,向量很特殊,在運算中可以自由轉置而不會出錯,運算的返回值如果維度為1,也一律用行向量[]表示)

讀取數組元素:如a[0],a[0,0]

數組變形:如b=a.reshape(2,3,4)將得到原數組變為2*3*4的三維數組後的數組;或是a.shape=(2,3,4)或a.resize(2,3,4)直接改變數組a的形狀

數組組合:水平組合hstack((a,b))或concatenate((a,b),axis=1);垂直組合vstack((a,b))或concatenate((a,b),axis=0);深度組合dstack((a,b))

數組分割(與數組組合相反):分別有hsplit,vsplit,dsplit,split(split與concatenate相對應)

將np數組變為py列表:a.tolist()

數組排序(小到大):列排列np.msort(a),行排列np.sort(a),np.argsort(a)排序後返回下標

複數排序:np.sort_complex(a)按先實部後虛部排序

數組的插入:np.searchsorted(a,b)將b插入原有序數組a,並返回插入元素的索引值

類型轉換:如a.astype(int),np的數據類型比py豐富,且每種類型都有轉換方法

條件查找,返回滿足條件的數組元素的索引值:np.where(條件)

條件查找,返回下標:np.argwhere(條件)

條件查找,返回滿足條件的數組元素:np.extract([條件],a)

根據b中元素作為索引,查找a中對應元素:np.take(a,b)一維

數組中最小最大元素的索引:np.argmin(a),np.argmax(a)

多個數組的對應位置上元素大小的比較:np.maximum(a,b,c,…..)返回每個索引位置上的最大值,np.minimum(…….)相反

將a中元素都置為b:a.fill(b)

每個數組元素的指數:np.exp(a)

生成等差行向量:如np.linspace(1,6,10)則得到1到6之間的均勻分佈,總共返回10個數

求餘:np.mod(a,n)相當於a%n,np.fmod(a,n)仍為求餘且餘數的正負由a決定

計算平均值:np.mean(a)

計算最大值:amax(a, axis=None, out=None, keepdims=False) 。Return the maximum of an array or maximum along an axis.

計算加權平均值:np.average(a,b),其中b是權重

計算數組的極差:np.pth(a)=max(a)-min(a)

計算方差(總體方差):np.var(a)

標準差:np.std(a)

算術平方根,a為浮點數類型:np.sqrt(a)

對數:np.log(a)

修剪數組,將數組中小於x的數均換為x,大於y的數均換為y:a.clip(x,y)

所有數組元素乘積:a.prod()

數組元素的累積乘積:a.cumprod()

數組元素的符號:np.sign(a),返回數組中各元素的正負符號,用1和-1表示

數組元素分類:np.piecewise(a,[條件],[返回值]),分段給定取值,根據判斷條件給元素分類,並返回設定的返回值。

判斷兩數組是否相等: np.array_equal(a,b)

判斷數組元素是否為實數: np.isreal(a)

去除數組中首尾為0的元素:np.trim_zeros(a)

對浮點數取整,但不改變浮點數類型:np.rint(a)

二、數組屬性

1.獲取數組每一維度的大小:a.shape

2.獲取數組維度:a.ndim

3.元素個數:a.size

4.數組元素在內存中的字節數:a.itemsize

5.數組字節數:a.nbytes==a.size*a.itemsize

6.數組元素覆蓋:a.flat=1,則a中數組元素都被1覆蓋

7.數組轉置:a.T

不能求逆、求協方差、跡等,不適用於複雜科學計算,可以將array轉換成matrix。

三、矩陣方法

創建矩陣:np.mat(‘…’)通過字符串格式創建,np.mat(a)通過array數組創建,也可用matrix或bmat函數創建

創建複合矩陣:np.bmat(‘A B’,’AB’),用A和B創建複合矩陣AB(字符串格式)

創建n*n維單位矩陣:np.eye(n)

矩陣的轉置:A.T

矩陣的逆矩陣:A.I

計算協方差矩陣:np.cov(x),np.cov(x,y)

計算矩陣的跡(對角線元素和):a.trace()

相關係數:np.corrcoef(x,y)

給出對角線元素:a.diagonal()

四、線性代數

估計線性模型中的係數:a=np.linalg.lstsq(x,b),有b=a*x

求方陣的逆矩陣:np.linalg.inv(A)

求廣義逆矩陣:np.linalg.pinv(A)

求矩陣的行列式:np.linalg.det(A)

解形如AX=b的線性方程組:np.linalg.solve(A,b)

求矩陣的特徵值:np.linalg.eigvals(A)

求特徵值和特徵向量:np.linalg.eig(A)

Svd分解:np.linalg.svd(A)

五、概率分佈

產生二項分佈的隨機數:np.random.binomial(n,p,size=…),其中n,p,size分別是每輪試驗次數、概率、輪數

產生超幾何分佈隨機數:np.random.hypergeometric(n1,n2,n,size=…),其中參數意義分別是物件1總量、物件2總量、每次採樣數、試驗次數

產生N個正態分佈的隨機數:np.random.normal(均值,標準差,N)

產生N個對數正態分佈的隨機數:np.random.lognormal(mean,sigma,N)

六、多項式

多項式擬合:poly= np.polyfit(x,a,n),擬合點集a得到n級多項式,其中x為橫軸長度,返回多項式的係數

多項式求導函數:np.polyder(poly),返回導函數的係數

得到多項式的n階導函數:多項式.deriv(m = n)

多項式求根:np.roots(poly)

多項式在某點上的值:np.polyval(poly,x[n]),返回poly多項式在橫軸點上x[n]上的值

兩個多項式做差運算: np.polysub(a,b)

Matpoltlib簡單繪圖方法

引入簡單繪圖的包import matplotlib.pyplot as plt,最後用plt.show()顯示圖像

基本畫圖方法:plt.plot(x,y),plt.xlabel(‘x’),plt.ylabel(‘y’),plt.title(‘…’)

子圖:plt.subplot(abc),其中abc分別表示子圖行數、列數、序號

創建繪圖組件的頂層容器:fig = plt.figure()

添加子圖:ax = fig.add_subplot(abc)

設置橫軸上的主定位器:ax.xaxis.set_major_locator(…)

繪製方圖:plt.hist(a,b),a為長方形的左橫座標值,b為柱高

繪製散點圖:plt.scatter(x,y,c = ‘..’,s = ..),c表示顏色,s表示大小

添加網格線:plt.grid(True)

添加註釋:如ax.annotate('x', xy=xpoint, textcoords='offsetpoints',xytext=(-50, 30), arrowprops=dict(arrowstyle="->"))

增加圖例:如plt.legend(loc='best', fancybox=True)

對座標取對數:橫座標plt.semilogx(),縱座標plt.semilogy(),橫縱同時plt.loglog()

Python Numpy全世界最長基礎教程最適合小白比全球的還長 還詳細

在此所寫文章做成筆記記錄的形式,書寫代碼過程中難免取之互聯網,有的是本人書寫,推崇自己一些見解想法,在看文章之前呢,小編推薦一個群,群裡分子非常踴躍交流經驗遇坑問題,也有初學者交流討論,群內整理了也整理了大量的PDF書籍和學習資料,程序員也很熱心的幫助解決問題,還有討論工作上的解決方案,非常好的學習交流地方!群內大概有好幾千人了,喜歡python的朋友可以加入python群:526929231歡迎大家交流討論各種奇技淫巧,一起快速成長


分享到:


相關文章: