如何在Visual Studio中運行Jupyter Notebook?

如何在Visual Studio中運行Jupyter Notebook?

在Visual Studio中引用.py文件的JupyterNote book中的虛擬數據示例

目錄

1. 什麼是 Visual Studio ?

2. 什麼是 Jupyter Notebook ?

3. 為什麼對數據科學家有好處?

4. 關於數據集

5. 如何開始(教程)?

6. 導入類

7. 結論

8. 引用

什麼是 Visual Studio ?

Visual Studio ( VS )是一個免費的簡單平臺,由開發人員用於保存,編輯和執行他們的代碼。但到目前為止,越來越多的數據科學家已經利用這個文件和代碼管理平臺來處理它們.py 和.ipynb 文件。

什麼是 Jupyter Notebook ?

Jupyter Notebook是數據科學測試Python代碼、模型和結果的研究環境和平臺。它以擴展名“.ipynb”保存,可以執行,其中包含執行代碼的單獨單元格。

為什麼對數據科學有好處?

筆者擁有數據科學的理科碩士學位,以及體驗各種數據科學和機器學習課程。根據我的經驗,Visual Studio已經成為一個提高我編程Python和實現機器學習模型效率的工具。以下是數據科學家應該使用Visual Studio的主要原因:

  • 越來越擅長面向對象的程序設計
  • 僅在一個地方管理文件夾、文件和數據
  • 同時查看 Jupyter Notebook 和.py 文件
  • 從數據科學家過渡到機器學習工程師
  • 將研究的.ipynb文件轉換為生產就緒的.py文件

關於數據集

數據集是在Google工作表中創建的虛擬數據。它是為了模擬2020年冠狀病毒大流行數據集的類似領域而開發的。字段包括日期、區域、記錄計數和虛擬類別。在學習本教程時,一個不同的數據集,例如真正的冠狀病毒數據集,只能用於教育和學術研究目的。此數據包含可以更好地表示的日期功能,這是本教程中實現的代碼的目標。

數據集地址:https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

如何開始?

啟動Visual Studio代碼的第一步是從這裡下載必要的包。它將是計算機上的一個應用程序,是可視化和執行代碼的平臺。從那裡,如果你選擇使用Python作為主要編程語言,請自行搜索安裝該擴展,如下所示。您還可以從這裡複製GitHub存儲庫,並開始發出pull請求和終端命令。在我的示例中,我選擇創建一個新文件夾,其中包含三個Python文件的子文件夾和該子文件夾之外的獨立Jupyter Notebook文件,我寫出來的文件系統是:

visual-studio -> example ->(__ pycache __)->__ init __.py , introduction _ class.py 和 read _ df.py

visual-studio -> visual _ studio.ipynb

如何在Visual Studio中運行Jupyter Notebook?

選擇Python擴展VS在Visual Studio上


導入類

在我的示例中,我有一些類可以幫助描述和顯示如何設置數據科學算法。這些類的目標只是返回一個pandas數據幀和一個轉換的datetime特性,以及一個可以在算法中接收的數據幀。雖然我的init.py文件是空的,但正如預期的那樣,我的introduction.py包含一個類“IntroductionClass”:

<code>#!/usr/bin/env python
# coding: utf-8

# In[ ]:

class IntroductionClass:

def __init__(self, data):

self.data = data/<code>

下面是 read _ df.py 。如你所見,我使用 pandas 讀取.csv 文件。我也從 pandas 執行簡單的日期時間轉換。“年-月”列轉換為“日期”,其中包括月份、月份和年度的日期。然後我從 head 函數返回數據幀的前5行。這個類是可以導入到 Jupyter Notebook 中的簡單示例。

<code>#!/usr/bin/env python
# coding: utf-8

# In[ ]:

from example.introduction_class import IntroductionClass
import pandas as pd


class testClass(IntroductionClass):

def read_data(self):
df = pd.read_csv('/Users/data.csv')
df['Date'] = pd.to_datetime(df['Year Month'])
self.data = df
return self.data.head()

# %%/<code>

導入的最後一部分包含在Jupyter Notebook本身“visual studio.ipynb”中。此文件導入兩個python class.py文件,其中包括'IntroductionClass'和'testClass'。下面,類在導入後被調用。它們返回預期的數據幀,第一個新的 Jupyter Notebook 代碼由 pandas 函數操作,該函數描述了具有通用統計信息的 dataframe列,在本例中為“確認恢復”字段。

當你開始使用第一個示例,然後練習從.py文件導入類後,你就可以為可伸縮和高效的生產創建更好的代碼。同時,你可以跨功能使用面向對象的代碼實現算法,這樣可以更好地以 Jupyter Notebook 的形式(這是兩個領域中最好的形式)測試和可視化數據幀。

如何在Visual Studio中運行Jupyter Notebook?

從.py文件繼承的visual_studio.ipynb文件

結論

或許你很難成為數據科學中的佼佼者,但我相信,有了新的和熟悉的工具,你就可以提高你的技能,變得更擅長機器學習,而Visual Studio就是最好用的工具之一。

它能幫助我們導入 Python 類和函數,這些類和函數用於為可能的機器學習模型塑造數據框架。它可以作為一個平臺,將GitHub存儲庫的代碼與研究Jupyter Notebook連接在一起,是連接數據科學、數據工程和機器學習的極好橋樑。

參考文獻

我的Visual Studio代碼設置是使用虛擬數據集創建的。features/fields/columns也是虛擬屬性。這些圖片是我自己對VS主文件管理平臺的截圖。在我的VS屏幕截圖中顯示的數據和指標不會用於任何醫療原因。它是靜態的,非真實的,不依賴於準確性,純粹是為了教程的目的而開發的。

[1] M.Przybyla , Visual Studio (2020):https://code.visualstudio.com/?wt.mc_id=DX_841432

[2] M.Przybyla , GitHub (2020):https://github.com/mprzybyla123/visual-studio

[3] pandas -dev , pandas (2020):https://pandas.pydata.org/


--END--

歡迎大家關注我們的公眾號:為AI吶喊(weainahan)

找工作一定少不了項目實戰經驗,為了幫助更多缺少項目實戰的同學入門Python,我們在頭條上創建了一個專欄:,通過一個項目,快速掌握Python,歡迎大家點擊鏈接或者閱讀原文進行試看~


分享到:


相關文章: