01.05 Scrapy + Selenium模拟登录CSDN_技术 _ 頭條網

废话

本文旨在记录selenium的一些操作实例，没啥技术含量，也没有太多概念的内容。

安装selenium

<code>pipinstallselenium
/<code>

下载驱动(chromedriver)

下载前需要确认适配自己的浏览器版本

<code>https://chromedriver.storage.googleapis.com/index.html
/<code>

selenium的基本用法

基本用法看官方文档，讲述的很清楚了，推荐

<code>https://selenium-python.readthedocs.io/installation.html
/<code>

常用的实例

设置浏览器不加载图片

<code>fromseleniumimportwebdriver
#设置不加载图片
chrome_opt=webdriver.ChromeOptions()
prefs={
"profile.managed_default_content_settings.images":2
}

chrome_opt.add_experimental_option("prefs",prefs)

driver=webdriver.Chrome(chrome_options=chrome_opt)

driver.get("https://www.taobao.com")
/<code>

点击弹窗与点击下拉列表

<code>fromseleniumimportwebdriver
fromselenium.webdriver.support.selectimportSelect
driver=webdriver.Chrome()
#点击接受弹窗
driver.switch_to.alert.accept()

#点击下拉列表
sel=driver.find_element_by_id("nr")
Select(sel).select_by_index(2)
/<code>

切换窗口

<code>fromseleniumimportwebdriver
driver=webdriver.Chrome()

first_win=driver.current_window_handle

all_win=driver.current_window_handle

forwininall_win:
ifwin!=first_win:
driver.switch_to.window(win)
/<code>

自动下拉列表(以开源中国的博客栏目为例)

很多页面是下拉加载更多信息，我们如何模拟这个下拉操作：

<code>fromseleniumimportwebdriver
importtime

driver=webdriver.Chrome()

driver.get('https://www.oschina.net/blog')

time.sleep(5)
#实现自动下拉刷新下拉三页
foriinrange(3):
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);varlenOfPage=document.body.scrollHeight;returnlenOfPage;')
time.sleep(3)
/<code>

如何模拟手机访问？

<code>fromseleniumimportwebdriver
#模拟手机
mobilesetting={"deviceName":"iPhone6Plus"}

options=webdriver.ChromeOptions()

options.add_experimental_option("mobileEmulation",mobilesetting)

driver=webdriver.Chrome(chrome_options=options)
#设置大小
driver.set_window_size(400,800)

#driver.maximize_window()
driver.get("https://www.taobao.com")
#后退
driver.back()
#前进
driver.forward()
#刷新
driver.refresh()
/<code>

如何为selenium设置代理？(连接无用户名密码认证的代理)

<code>#设置代理
fromseleniumimportwebdriver
options=webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://ip:port")
driver=webdriver.Chrome(chrome_options=options)
driver.get("http://httpbin.org/ip")
print(driver.page_source)
/<code>

如何为selenium设置代理？(有用户名和密码的连接)

推荐几篇文章：

https://www.cnblogs.com/roystime/p/6935543.html
https://stackoverflow.com/questions/29983106/how-can-i-set-proxy-with-authentication-in-selenium-chrome-web-driver-using-pyth#answer-30953780
https://cuiqingcai.com/4880.html

scrapy + selenium 模拟登录csdn

其实，没啥技术含量。只是简单运用，敲一遍加深印象。

关于selenium的基础用法强烈建议用的时候看下文档就好，技术含量不高，无需过多费心。

spider.py

<code>#-*-coding:utf-8-*-
importscrapy
fromseleniumimportwebdriver

classCsdnSpider(scrapy.Spider):
name='csdn'
allowed_domains=['csdn.net']
start_urls=['https://passport.csdn.net/account/login','https://i.csdn.net/#/account/index']

def__init__(self):
#mobilsetting={"deviceName":"iPhone6Plus"}
#options=webdriver.ChromeOptions()
#options.add_experimental_option("mobileEmulation",mobilsetting)
self.browser=None
self.cookies=None
#self.browser.set_window_size(400,800)
super(CsdnSpider,self).__init__()
defspider_closed(self,response):
print("spiderclose")
self.brower.close()

defparse(self,response):
print(response.url)
print(response.body.decode("utf-8","ignore"))
/<code>

middlewares.py 私信小编01 领取完整项目代码！

<code>fromscrapyimportsignals
fromseleniumimportwebdriver
fromscrapy.httpimportHtmlResponse
importtime
importrequests
classLoginMiddleware(object):
defprocess_request(self,request,spider):
ifspider.name=="csdn":
ifrequest.url.find("login")!=-1:
spider.browser=webdriver.Chrome()
spider.browser.get(request.url)
switch=spider.browser.find_element_by_xpath('//a[@class="login-code__openjs_login_triggerlogin-user__active"]')
ifswitch.text=='账号登录':
switch.click()
time.sleep(3)
username=spider.browser.find_element_by_id('username')

password=spider.browser.find_element_by_id('password')
time.sleep(2)
username.send_keys("")
time.sleep(1)
password.send_keys("")
time.sleep(2)
click=spider.browser.find_element_by_class_name("logging")
time.sleep(2)
click.click()
time.sleep(8)
spider.cookies=spider.browser.get_cookies()
returnHtmlResponse(
url=spider.browser.current_url,
body=spider.browser.page_source,
encoding="utf-8"
)
else:
req=requests.session()
forcookieinspider.cookies:
req.cookies.set(cookie['name'],cookie['value'])
req.headers.clear()
newpage=req.get(request.url)
print(request.url)
print(newpage.text)
returnHtmlResponse(
url=request.url,
body=newpage.text,
encoding="utf-8"
)/<code>

安装selenium

下载驱动(chromedriver)

selenium的基本用法

常用的实例

设置浏览器不加载图片

点击弹窗与点击下拉列表

切换窗口

自动下拉列表(以开源中国的博客栏目为例)

如何模拟手机访问？

如何为selenium设置代理？(连接无用户名密码认证的代理)

如何为selenium设置代理？(有用户名和密码的连接)

scrapy + selenium 模拟登录csdn

相關文章:

Python 10 行以内代码能有什么高端操作？

一文搞懂 Spring 数据库事务操作

Feature flag，一个让软件发布轻松不掉发的神技

Optional 是个好东西，你会用么？

学习 Python，这 22 个包怎能不掌握？

只要 8 个步骤，学会这个 Docker 命令终极教程

看完这一篇，你就对 Spring Security 略窥门径了

图像的灰度非线性变换之对数变换、伽马变换

干货！Python与MySQL数据库的交互实战

玩转 SpringBoot2.x 之缓存对象

时间复杂度的表示、分析、计算方法……一文带你看懂时间复杂度

不怕面试被问了！二叉树算法大盘点

Linux 离奇磁盘爆满，如何解决？

03.01 编译器说 Lambda 表达式中的变量必须是 final 的，我偏不信

02.28 数据科学家常见的五个 SQL 面试问题

手把手带你深入解析静态分派 & 动态分派原理

Julia 语言可重用性高竟源于缺陷和不完美？

如何选择普通索引和唯一索引？｜CSDN博文精选

11.30 贯穿 C++ 11 与 C++ 17 的 Lambda 到底是个什么？

11.24 为什么需要 Redis 哨兵？

VS Code 必知必会的 20 个快捷键

开发人员在编写 HTML 和 CSS 时最常犯的六大错误

Java 8：一文掌握 Lambda 表达式

开发者该如何利用 C# 加解密？

趣谈 C++ 中反人类的翻译

开发者应当熟知的 C# 序列化和反序列化

11.02 Java 异常处理的 20 个最佳实践，你知道几个？

10.22 Python 调试冷知识

我优化多年的 C 语言竟然被 80 行 Haskell 打败了？

4种最常问的编码算法面试问题

一文读懂平衡二叉树

10.03 不足 20 行 Python 代码，高效实现 k-means 均值聚类算法

@程序员，React 使用如何避坑？

PHP 没有真正的数组

如何理解 Python 中的面向对象编程？

彻底征服 Entity Framework Core 优化

09.07 谁说 C++ 的强制类型转换很难懂？

详解 C++ 的隐式类型转换与函数重载

08.21 全面剖析 C++ Boost 智能指针！

这个程序员如何阻止了Bug代码的提交并改变整个DevOps世界？

如何成为一名优秀的架构师？

微软要求全员学 Python！变天？真假？

为什么 Python 4.0 会与 Python 3.0 不同？

非计算机专业如何靠自学杀进 BAT？

Spark Streaming 和 Flink 谁是数据开发者的最爱？

三年 React 开发经验的我，迁移到 Vue 的心路历程

他们说：Python的火，烧到了所有的程序员！

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪