今天我們來學習數據導入,需要使用到Pandas模塊。
模塊相當於是一個文件夾,它能夠用於存放同個主題相關的Python代碼段,包括定義函數、類和變量。
例如將數據處理相關的函數都存放在一個模塊裡,將數據分析相關的函數都存放在一個模塊裡,將數據可視化相關的函數都存放在一個模塊裡。這樣就可以在其他有需要的地方進行調用,在編寫程序的時候,經常需要引用其它模塊。
你可以將Excel菜單中的每個選項卡 看成是一個模塊,例如數據選項卡下就包含了數據獲取和轉換、連接、排序和篩選、數據工具等功能。只是它以圖形界面的方式供我們選擇使用。
而Python中的模塊一般看不見摸不著,需要在使用的時候進行導入使用,所以對初學者來說不算太友好,這也是大家認為Python難學的原因之一。
另外Python中模塊的概念,在 Java 中稱之為包(package),而在 C\\C++中則稱之為庫(library),Java和C\\C++都是程序員常用的編程語言,所以有些程序員就會把Python 中的模塊混淆稱之為包和庫,你只要明白它們說的是一回事即可。
原來是這麼回事,那Pandas模塊又是什麼?
Pandas模塊是Python的一個數據分析模塊,它最初被用作金融數據分析工具而開發出來,所以Pandas為時間序列分析提供了很好的支持。為了提供高效操作大型數據集的工具,Pandas提出了一套類似Excel的標準數據應用框架,包含了類似Excel表格的數據框DataFrame,以及快速便捷地處理數據的函數和方法,讓數據分析整個過程變得快速、簡單。可以毫不誇張地說,Pandas是Python中進行數據分析的最好工具。
Pandas模塊怎麼使用呢?它在哪呢?
在安裝Anaconda的時候,都已經一起安裝好了,我們只需把它導入就可以使用了,主要有兩種使用方法:
第一種是使用import語句進行導入。
import 模塊名
這是模塊導入最常使用的方法,模塊導入後,就可以通過使用 模塊名.變量名調用模塊中的變量,使用 模塊名.函數名 調用模塊中的函數。
第二種是使用 from import 語句進行導入。
from 模塊名 import 函數名
這種情況就是明 確知道要導入哪個模塊哪個函數或變量的時候使用。使用這種導入的方式,在使用函 數或變量的時候,就不用在前面加上對應的模塊名了。
那我們是不是可以導入Pandas模塊了?
可以,不過不用那麼急,我們先來看我們要導入的數據data.csv,先使用Notepad++打開查看數據是什麼樣子的:
這份數據是一份用戶數據,記錄了用戶的id,註冊日期reg_date,用戶的身份證號id_num,性別gender,生日birthday,年齡age六個字段數據,每個字段使用英文逗號分隔。
還有一個很重要的信息,就是這份數據採用UTF-8的編碼格式記錄數據。
UTF-8是互聯網上使用最廣的一種unicode的實現方式,為傳輸而設計的編碼,最大的特點是統一無國界,可以顯示全世界上所有文化的字符。
現在我們可以來導入數據了,打開spyder,輸入以下代碼
我給代碼加上對應的註釋,使用#來添加註釋,這樣解析器就不會執行註釋所在的行的內容。你再看看。
在變量瀏覽窗口中就可以看到剛導入的data變量了,雙擊打開data變量,就可以得到下面這張表。
導入TXT與EXCEL數據文件
首先是導入TXT數據文件,使用的是Pandas模塊中的read_table函數,數據還是與昨天一樣,只是存為了TXT文件。有了昨天CSV數據文件的導入經驗,導入TXT數據文件就輕車熟路了,打開spyder,輸入以下代碼
這個比導入CSV文件多了個參數SEP,是設置列分隔符的意思吧?
同樣我給代碼加上對應的註釋,使用#來添加註釋,這樣解析器就不會執行註釋所在的行的內容。
在變量瀏覽窗口中就可以看到剛導入的data變量了,雙擊打開data變量,就可以得到下面這張表。
接下來是導入EXCEL數據文件,使用的是Pandas模塊中的read_excel函數,輸入以下代碼
在變量瀏覽窗口中就可以看到剛導入的data變量了,雙擊打開data變量,就可以得到下面這張表。
你發現沒有,id、age這兩列都有不同顏色標識。
因為這兩列數據類型為整數型,你看打開的這個數據框最下面有一個 Background color選項被勾選上,這個功能相當於Excel條件格式中的色階功能,它僅對整數型、浮點型有效,對其他數據類型無效。
我們可以使用下列命令查看下每列的數據類型
可以看到只有id、age是int64型,其他都是object類型
今天就到這,下次我們繼續學習其他操作,回去要多多練習,多敲代碼。
最後多說一句,小編是一名python開發工程師,這裡有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。想要這些資料的可以關注小編,並在後臺私信小編:“01”即可領取。
閱讀更多 小劉程序員 的文章