Python实现猫眼电影网站视频爬取，附代码_ _ 頭條網

学习Python是否感到过度劳累，四肢乏力，腰腿酸痛？这是没找到学习方法的表现！都知道编程是环环相扣的吧如果基础没学好的话那么代码你是肯定看不懂的~每个技术大牛都是从基础慢慢的提升上去的，基础知识越深以后的发展越牛！

这里还要注意：不管你是刚学Python还是想找python高薪工作，记住：项目实战永远是核心，如果你没有python入门到高级实战视频教程，可以关注我，后台私信我 ‘py’ 自动获取最新python教程资料！还有老司机解答哦！
思路：1.利用requests去过去网站上的前端源代码在源代码中存在我们想要获取的数据2.在源代码中筛选出我们想要的数据数据筛选 bs43.把筛选出来的数据存放到文件中保存数据爬虫的原理：模拟浏览器向服务器发送一个get()请求，服务器接收到请求之后返回相应的数据给爬虫代码get() 单纯的拿数据post() 在拿数据的过程中还能修改数据

对于初学者在学习Python过程中有不懂的或是缺少这方面学习教程的可以加一下我建的Python技术的学习裙；九三七六六七五零九，一起学习。群里有相关开发工具，学习教程，每天还有专业的老司机在线直播分享知识与技术答疑解惑！

项目源码

<code> 1 # pip install bs4 2 from bs4 import BeautifulSoup 3 4 # 网络请求包它能获取到网站上的前端源代码 5 6 # pip install requests 7 import requests 8 9 # json 在文件处理中 python没有办法把一个对象写入文件中字典就是python中的一个对象 10 import json 11 12 ''' 13 在python中的表现形式 14 基本数据类型 15 列表 16 字典 17 集合 18 元组 19 20 字典 {'name': '未衬'} 运用在后端 21 json {"name": "未衬"} 运用在前端 22 ''' 23 24 ''' 25 思路： 26 1.利用requests去过去网站上的前端源代码在源代码中存在我们想要获取的数据 27 2.在源代码中筛选出我们想要的数据数据筛选 bs4 28 3.把筛选出来的数据存放到文件中保存数据 29 30 爬虫的原理： 31 模拟浏览器向服务器发送一个get()请求，服务器接收到请求之后返回相应的数据给爬虫代码 32 33 get() 单纯的拿数据 34 post() 在拿数据的过程中还能修改数据 35 ''' 36 # 这种数据结构是一种典型的字典格式 37 # 作用定义浏览器 38 headers = { 39 'User-Agent': 40 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36' 41 } 42 43 44 # 获取请求页面 45 ''' 46 url 是一种形式参数 47 我们去调用getPage()这个函数的时候要去给这个url做赋值 48 ''' 49 50 51 def getPage(url): 52 # 异常处理保证我们的程序不会因为网络原因导致程序崩溃 53 try: 54 response = requests.get(url, headers=headers) 55 if response.status_code == 200: 56 return response.text 57 else: 58 return None 59 except Exception: 60 return None 61 62 63 # 获取电影信息 pip install lxml 64 def getInfo(html): 65 # 使用BeautifulSoup匹配电影的索引海报电影名主演评分 66 soup = BeautifulSoup(html, 'lxml') 67 items = soup.select('dd') 68 69 for item in items: 70 index = item.find(name='i', class_='board-index').get_text() 71 name = item.find(name='p', class_='name').get_text() 72 start = item.find(name='p', class_='star').get_text().strip() 73 time = item.find(name='p', class_='releasetime').get_text() 74 score = item.find(name='p', class_='score').get_text() 75 76 # 生成器 77 78 ''' 79 迭代器 80 生成器 81 装饰器 82 ''' 83 84 # 可以把yield看成return 就是专门返回数据的 yield有一种特性惰性机制 85 # 它因为这种机制可以实现节约内存的效果 86 yield { 87 'index': index, 88 'name': name, 89 'start': start, 90 'time': time, 91 'score': score 92 } 93 94 # 写入文件 95 def writeData(field): 96 # 文件处理 97 with open('maoyan_info.txt', 'a', encoding='utf-8') as f: 98 f.write(json.dumps(field, ensure_ascii=False) + '\n') 99 100 101 # 入口函数 102 if __name__ == "__main__": 103 for num in [i * 10 for i in range(11)]: 104 url = 'https://maoyan.com/board/4?offset=' + str(num) 105 html = getPage(url) 106 107 for item in getInfo(html): 108 print(item) 109 writeData(item) 110 111 112 '''/<code>

代码不要直接复制，要自己动手敲，学习Python一定要多动手的，最后送福利，如果你没有python入门到高级实战视频教程，可以关注我，后台私信我 ‘py’ 自动获取最新python教程资料！还有老司机解答哦！

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

相關文章:

Python入门高级教程--Python 字典(Dictionary)

Python 条件语句

Python 炫技操作：海象运算符的三种用法

如果不懂 numpy，请别说自己是 python 程序员

Python 2最后一个版本Python 2.7.18发布！Python 2即将落幕！

Java vs Python，谁能胜出？

用 Python 写一个计算肥胖指数的工具，原来开发就是这么简单

这几个超级实用的 Python 技巧

Python 3.9 最新内幕，这些内置类型将迎来性能提升

Java、Python、C++小白选哪个入门？

Python 2.7 辛苦了，Python 3.7，你好

python《青春有你2》练习生照片爬取

Python 之父为什么嫌弃 lambda 匿名函数？

太赞了，微软正式推出 Python 零基础教程！

如何使用 pdb 来性感 debug 你的 Python 代码？

Python 约瑟夫生者死者小游戏

Python generator，初学者最容易忽视的神器

Python 实现生命游戏

python 现在值不值得我们去学？情景应用是那些？

Python 3.9 性能优化：更快的list()、dict()和range()等内置类型

教小朋友学 Python -- 字典与集合

教小朋友学 Python -- 函数与Lambda表达式

技术图文：教小朋友学 Python -- 列表与元组

技术图文：教小朋友学 Python -- 字符串与序列

教小朋友学 Python -- 变量、运算符与数据类型

教小朋友学 Python -- 条件与循环

一行 Python 代码能实现什么丧心病狂的功能？

Python 3 学习笔记：序列（二）

Python 3 学习笔记：面向对象编程（一）

Python 3 学习笔记：异常代码调试

Python 3 学习笔记：目录&文件处理（二）

Python 3 学习笔记：流程控制

Python、Java的区别

干货 | Python 常见的17个错误分析

如何为 Linux 打包 Python 应用 | Linux 中国

福利！你想要的Android、Java、Python、QT等等视频资源

【每日学习】Python

Python 成功上位，正在赶超JAVA成为最火编程语音（文末干货分享）

Python Logging 模块完全解读

Python 中那些令人拍案叫绝的功能

python-snakebite操作Hadoop

用 Python 自动化办公能做到哪些有趣或有用的事情？

Golang VS Python，谁将是下一代编程语言王者？

教你C语言、Python、Scratch语言比较三个数大小的方法

一千万次的自动评阅——Python 教育的新变革

Python 对象持久化简介

Python 运行慢？

小白学 Python 爬虫（17）：Requests 基础使用

十大热门编程语言：不死 Java、不朽 C/C ++、新贵 Python

Python：3分钟看懂，基于 Psycopg2 的 PostgreSQL 操作指南！

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

应急科普丨“五一” 期间气温回升谨防森林火灾隐患