在学python,可是都是基础的东西,学完想做个爬虫都做不好,哪里出了问题呢?

你是我的星辰


问题就是“最基础的东西”。

1、python和其他编程语言一样,该有的变量,语法,循环等都有,不同的是可能"名字"不一样,比如字典,集合等。也是“五脏俱全”的,重要的是数据结构和算法。

2、python的"简单",不要误认为是好学,应理解为在处理同样问题的时候,python所需要的代码要比其他的编程语言要少,同样的面向对象编程,python解释型的语法更容易理解,这也是“好学”的原因之一。

3、楼主所说的做爬虫是很需要“基础”的,要知道python是模块化编程,就象堆积木一样,虽然模块不用自己去做,但要知道如何去用。另外,做爬虫还需要HTML,CSS,JavaScript等WEB前端多方面的知识。

4、最主要的,学习任何一门编程语言,没学会“走”,就想跑,甚至要飞,这是编程大忌,根据例程,用手敲而不是复制粘帖录入几万行代码,然后回头再看看,python还是很容易的。


雁过无声song


Python做爬虫来说,其实非常容易,零基础也完全可以,有大量第三方包和框架可以直接使用(像urllib、requests、BeautifulSoup、scrapy等),轻松易学,非常容易掌握,下面我简单介绍一下,感兴趣的朋友可以尝试一下:

网页基础

这个是最为基础的,爬虫爬取的数据大都嵌套在网页标签中(以静态网页为主,动态网页则需要抓包分析),首先,你得会基本的网页知识,包括html、css、js等,不要求多么的精通,最起码能看懂网页结构,知道我们爬取的数据在哪里,哪个标签哪个属性,如果你从来没有这方面基础的话,建议学习一下网页知识(未来也一定会用得着),两三天时间足矣入门:

爬虫入门

网页基础掌握差不多后,就是Python爬虫入门(假设你已熟悉Python基础),这里可以从基础、非常容易学习的爬虫库开始,像urllib、requests、bs4、lxml、re等,对于爬取日常大部分网页来说,完全够用了,基本思想先根据url获取网页源码(字符串),然后再匹配解析出你需要的数据(基于正则表达式或BeautifulSoup),注意,动态网页的数据一般不会嵌套在网页源码中,一般是一个json文件,需要抓包分析:

爬虫框架

爬虫入门后,为了提高开发效率、避免反复造轮子,也为了后期易于维护和扩展,建议学习一下爬虫框架(推荐使用),Python来说,比较著名的就是scrapy,一个快速、高层次的爬虫框架,免费、开源、跨平台,在业界非常受欢迎,可定制化程度高,易于扩展,只需简单几行代码即可开启一个爬虫程序,入门学习来说,也非常容易,官方和网上资料非常多:

目前,就分享这么多吧,爬虫入门来说,其实非常容易,只要你有一定的网页和Python基础,熟悉一下相关爬虫库的使用,很快就能掌握的,对于日常大部分网页爬取来说足矣,后期建议多做项目,熟悉一下scrapy框架的使用,以积累经验为主,网上也有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。


小小猿爱嘻嘻


爬虫只是为了练手,让你熟练语法,背一些基本概念。熟了基本都是github找轮子,很少自己造了。odoo12做erp,嵌入式开发写写自动化脚本还是挺好玩的。做网页我都是用golang了。django太重了。flask也可以。





任T堂达人


爬虫最难的是正则表达式,你把正则搞清楚了,你想获取什么就通过正则匹配标签获取什么!

其次就是爬取网站时自动登录问题了,这里涉及到加密解密算法,不管服务端用了什么算法,我们只要找到其加密规则就可以一步步破解了。

慢慢来,学完还有框架多线程爬虫等等一系列的问题等着你呢!

其实自己爬爬图片、段子、种子什么的还好啦,难就难于爬取商业信息,这个需要去公司上手体验学习的!祝你好运!加油^0^~ 奥利给!!!



RONE


编程语言有很多的,你不会是因为基础没有打好,任何语言都是相通的,不要认为某种语言是容易的或者认为某种语言是特别难。

一、计算机基础知识一定要学好。

二、入门语言c语言一定要学好。

三、数据结构一定学,不说学的非常好,但是一定要懂。

四、在这基础上才能学好别的语言如python、java等,基础知识不牢固想学好编程语言很难,反之你的基础知识很扎实学习任何一种编程语言都是很容易的。

希望能帮助你!



石头大V


我学了好几年,才会自己写爬虫[泪奔]

你以为你是葫芦娃还是孙悟空,一出生就能大妖怪了?


陪孩子玩的码农


爬虫其实问题问题不少,首先需要理解http协议,接着需要掌握正则表达式,线程,数据库存储,拦截器...等等。循序渐进吧。


黄敏67007964


多多学习,多多操练,多多总结


分享到:


相關文章: