如何在Visual Studio中运行Jupyter Notebook?

如何在Visual Studio中运行Jupyter Notebook?

在Visual Studio中引用.py文件的JupyterNote book中的虚拟数据示例

目录

1. 什么是 Visual Studio ?

2. 什么是 Jupyter Notebook ?

3. 为什么对数据科学家有好处?

4. 关于数据集

5. 如何开始(教程)?

6. 导入类

7. 结论

8. 引用

什么是 Visual Studio ?

Visual Studio ( VS )是一个免费的简单平台,由开发人员用于保存,编辑和执行他们的代码。但到目前为止,越来越多的数据科学家已经利用这个文件和代码管理平台来处理它们.py 和.ipynb 文件。

什么是 Jupyter Notebook ?

Jupyter Notebook是数据科学测试Python代码、模型和结果的研究环境和平台。它以扩展名“.ipynb”保存,可以执行,其中包含执行代码的单独单元格。

为什么对数据科学有好处?

笔者拥有数据科学的理科硕士学位,以及体验各种数据科学和机器学习课程。根据我的经验,Visual Studio已经成为一个提高我编程Python和实现机器学习模型效率的工具。以下是数据科学家应该使用Visual Studio的主要原因:

  • 越来越擅长面向对象的程序设计
  • 仅在一个地方管理文件夹、文件和数据
  • 同时查看 Jupyter Notebook 和.py 文件
  • 从数据科学家过渡到机器学习工程师
  • 将研究的.ipynb文件转换为生产就绪的.py文件

关于数据集

数据集是在Google工作表中创建的虚拟数据。它是为了模拟2020年冠状病毒大流行数据集的类似领域而开发的。字段包括日期、区域、记录计数和虚拟类别。在学习本教程时,一个不同的数据集,例如真正的冠状病毒数据集,只能用于教育和学术研究目的。此数据包含可以更好地表示的日期功能,这是本教程中实现的代码的目标。

数据集地址:https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

如何开始?

启动Visual Studio代码的第一步是从这里下载必要的包。它将是计算机上的一个应用程序,是可视化和执行代码的平台。从那里,如果你选择使用Python作为主要编程语言,请自行搜索安装该扩展,如下所示。您还可以从这里复制GitHub存储库,并开始发出pull请求和终端命令。在我的示例中,我选择创建一个新文件夹,其中包含三个Python文件的子文件夹和该子文件夹之外的独立Jupyter Notebook文件,我写出来的文件系统是:

visual-studio -> example ->(__ pycache __)->__ init __.py , introduction _ class.py 和 read _ df.py

visual-studio -> visual _ studio.ipynb

如何在Visual Studio中运行Jupyter Notebook?

选择Python扩展VS在Visual Studio上


导入类

在我的示例中,我有一些类可以帮助描述和显示如何设置数据科学算法。这些类的目标只是返回一个pandas数据帧和一个转换的datetime特性,以及一个可以在算法中接收的数据帧。虽然我的init.py文件是空的,但正如预期的那样,我的introduction.py包含一个类“IntroductionClass”:

<code>#!/usr/bin/env python
# coding: utf-8

# In[ ]:

class IntroductionClass:

def __init__(self, data):

self.data = data/<code>

下面是 read _ df.py 。如你所见,我使用 pandas 读取.csv 文件。我也从 pandas 执行简单的日期时间转换。“年-月”列转换为“日期”,其中包括月份、月份和年度的日期。然后我从 head 函数返回数据帧的前5行。这个类是可以导入到 Jupyter Notebook 中的简单示例。

<code>#!/usr/bin/env python
# coding: utf-8

# In[ ]:

from example.introduction_class import IntroductionClass
import pandas as pd


class testClass(IntroductionClass):

def read_data(self):
df = pd.read_csv('/Users/data.csv')
df['Date'] = pd.to_datetime(df['Year Month'])
self.data = df
return self.data.head()

# %%/<code>

导入的最后一部分包含在Jupyter Notebook本身“visual studio.ipynb”中。此文件导入两个python class.py文件,其中包括'IntroductionClass'和'testClass'。下面,类在导入后被调用。它们返回预期的数据帧,第一个新的 Jupyter Notebook 代码由 pandas 函数操作,该函数描述了具有通用统计信息的 dataframe列,在本例中为“确认恢复”字段。

当你开始使用第一个示例,然后练习从.py文件导入类后,你就可以为可伸缩和高效的生产创建更好的代码。同时,你可以跨功能使用面向对象的代码实现算法,这样可以更好地以 Jupyter Notebook 的形式(这是两个领域中最好的形式)测试和可视化数据帧。

如何在Visual Studio中运行Jupyter Notebook?

从.py文件继承的visual_studio.ipynb文件

结论

或许你很难成为数据科学中的佼佼者,但我相信,有了新的和熟悉的工具,你就可以提高你的技能,变得更擅长机器学习,而Visual Studio就是最好用的工具之一。

它能帮助我们导入 Python 类和函数,这些类和函数用于为可能的机器学习模型塑造数据框架。它可以作为一个平台,将GitHub存储库的代码与研究Jupyter Notebook连接在一起,是连接数据科学、数据工程和机器学习的极好桥梁。

参考文献

我的Visual Studio代码设置是使用虚拟数据集创建的。features/fields/columns也是虚拟属性。这些图片是我自己对VS主文件管理平台的截图。在我的VS屏幕截图中显示的数据和指标不会用于任何医疗原因。它是静态的,非真实的,不依赖于准确性,纯粹是为了教程的目的而开发的。

[1] M.Przybyla , Visual Studio (2020):https://code.visualstudio.com/?wt.mc_id=DX_841432

[2] M.Przybyla , GitHub (2020):https://github.com/mprzybyla123/visual-studio

[3] pandas -dev , pandas (2020):https://pandas.pydata.org/


--END--

欢迎大家关注我们的公众号:为AI呐喊(weainahan)

找工作一定少不了项目实战经验,为了帮助更多缺少项目实战的同学入门Python,我们在头条上创建了一个专栏:,通过一个项目,快速掌握Python,欢迎大家点击链接或者阅读原文进行试看~


分享到:


相關文章: