聊聊python爬虫开发入门的必备技能

  1. 分析接口、网页的技能,这项技能源自“社会行为学”。这个怎么说呢?你要快速定位到你要的数据是同步的还是异步的,同步的在拿到数据后可以直接解析,异步的就麻烦了,我们要通过经验和积累来找到异步的数据源。然后通过假设-验证找到我们想要的数据。
  2. 数据存储。 爬到了数据,我们还要存储下来,这里我们需要掌握一些数据库相关的知识,包括关系型数据库和非关系型数据。像常见的mysql、redis、mongodb等等。

要掌握这些技能,我们改怎么学呢?根据我个人的经验,可以按照如下步骤进行学习入门:

  1. python3 基础语法。这个就不用多说了。
  2. python操作常见的数据结构。字符串的操作,xml数据与python对象的相互转换及操作,json数据与Python对象的相互转换和操作。
  3. python网络库的使用。urllib,requests等库的使用。
  4. python正则表达式。用于解析字符串,找到我们想要的数据。
  5. xpath, bs4的使用,用户解析html,查找我们想要的数据。
  6. html/js基础知识。这个属于前端开发的领域了,不求精通,但要看得懂。
  7. mysql数据库知识、sql语法知识。redis\mongodb数据库知识等。
  8. ...

看起来很多也很杂,如果自己看书找资料的话,可能就没那么顺利了。如果能有一套视频教程就好了,传送门《最火Python3 玩转实用小工具》 只要你有python3的基础,学完第一章即可轻松入门python爬虫。


分享到:


相關文章: