每日一发小视频
python要装多少包,这个要取决于你用python做什么工作了,基本上,在每一个应用方向都有专业的包。
python自带了许多功能强大的包,比如:爬虫包urllib,正则表达式包re,计算包collections,还有图形包tkinter等等,这些包在你安装python的时候就已经自动安装了,当然,这都是基础的包,我们日常用到的更多的是第三方包,因为第三方包功能更为强大。
作为数据挖掘人员,我先说一下日常用到的框架或者说模块。
python本来自身是没有很好的数据处理能力的,因为的他的基本数据结构就是那几种,列表,字典,集合,元组等,无法使用到高维数组,更没有提供矩阵运算的能力,但是!第三方库numpy的出现,使python具备了处理数据和矩阵的能力,然后在此基础上,出现更友好的处理数据的库,scipy,pandas,这些都是基于numpy库而来的,当然还有机器学习库scikit-learn,这个模块提供了强大的全面的机器学习算法,而且接口相对十分简单,让数学或者统计学工作者能很快上手。
所以,一个数据挖掘人员,日常使用就是这些:numpy,scipy,pandas,scikit-learn,还有数据可视化包matplotlib,这些日常处理数据,构建模型,结果可视化必备的工具。
但是这么多包,他们之间又有相互依赖,一个个的安装是个大问题,这里推荐安装anaconda,python的科学计算版本,自带了上述的库,十分方便,免除安装的苦恼。
爬虫是学习python有趣途径,同样有强大的框架
python自带的urllib其实使用起来有点麻烦,推荐你使用requests库,这是一个非常强大,使用方便的库,而且有全面的中文文档,网上爬数据爬图片都不在话下。
还有更高级的库-scrapy库。
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。
Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下
爬取网站数据,当然少不了正则模块re,还有beautiful soup模块
re模块具有强大的处理字符串的能力,但是使用起来并不简单,因为当你觉得可以使用正则表达式的时候,这本身就是一个问题,因为写出一个正则表达式就是一个大问题。不过不用怕,在处理网站结构的数据时,有更强大的库-beautiful soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,拥有完善的中文文档,提供了种类繁多的属性和方法供你选择,让你解析网站数据更加的得心应手!
web后端框架django,flask
python在web开发方面也是多面手,既有大而全的框架django,又有小而精的框架flask。
虽说在web开发方面有许多框架,但是最常用的还是这两种,如果你想做中方面的工作,学好这两个框架就够用了,而且,目前的python后端开发的招聘需求多半是要求会这两个框架。
python后端开发目前有不少公司在使用,比如,我们常见的知乎,豆瓣等都是
度学习和人工智能
说起深度学习,人工智能,当然少不了提到tensorflow,keras等流行的框架,而这都可以使用python进行友好的操作,如果你有志于人工智能,那么你一定不能错过python
分布式计算框架spark
python无法进行分布式计算,这是一个很大的缺陷,不过现在已经不是问题了,因为spark为python提供了极为友好的接口pyspark
有效的桌面gui库-pyqt5
安装很容易
PyQt5是一套绑定Qt5的应用程序框架。他在Python 2.x和3.x中都是可用的。PyQt5是作为一套Python模块实现的。他已经超过620个类和6000个函数与方法。
除了以上模块,python还有好多有用的模块
比如:
中文分词模块jieba
图片处理模块PIL模块
操作数据库模块pymysql、pymongo等
操作excel模块xlrd,xlwt;
处理json数据的模块json
基本上你需要的功能,python都有对应的模块提供实现功能
爱数据的小司机
这么说吧,缺啥补啥,用到什么了你就安装什么,缺少什么安装包,你就安装就行,不用非得把成千上万个安装包都安装上,不科学也不现实。
就好像R语言一样,安装包超级多,你用什么包的时候就去安装即可,一下子在安装R语言的时候,将包全部进行下载,系统盘都装不下呢。总之,Python大部分的安装包都是很好安装的。