Python Tool 101-Tool 002-Python 情感分析 SnowNLP_技术 _ 頭條網

环境背景：

今天想尝试一下导师说过的情感分析，根据自身的实际情况选择SnowNLP来做个有趣的实验。SnowNLP是咋们中国人受到了TextBlob的启发后开发的python类库，能够非常方便的处理中文文本内容，划重点方便处理中文的类库！！！，类库中的算法和训练好的字典都已经准备好了。唯一需要注意的是要使用unicode编码，所以使用时请自行decode成unicode。

知道这个SnowNLP是什么之后，我们开始设计下实验方案。

提出问题：

SnowNLP分析豆瓣电影简介的情感度

解决方案：

爬虫选用：scrapy

数据库选用：mongodb

python环境选用：python3

情感分析选用：SnowNLP

实际操作：

第一步

安装mongodb数据库

第二步

安装python 第三方库

python -m pip install pip install pymongo
python -m pip install pip install scrapy
python -m pip install pip install snownlp

第三步

编写爬虫

ln -s /usr/local/python3/bin/scrapy /usr/bin/scrapy
scrapy startproject douban
cd douban
scrapy genspider douban douban.com

vi spider/douban.py
```
# -*- coding: utf-8 -*-
from scrapy.spiders import CrawlSpider
from douban.items import DoubanItem
import scrapy
class DoubanSpider(CrawlSpider):
name = "douban"
offset = 0
url = "https://movie.douban.com/top250?start="
start_urls = (
url + str(offset),
)
def parse(self,response):
item = DoubanItem()
movies = response.xpath('//div[@class="info"]')
print('*'*80)
print(len(movies))
for each in movies:
# 电影名
item['title'] = each.xpath('.//span[@class="title"][1]/text()').extract()[0]
# 基本信息
item['bd'] = each.xpath('.//div[@class="bd"]/p/text()').extract()[0]
# 评分
item['star'] = each.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[0]
# 简介
quote = each.xpath('.//p[@class="quote"]/span/text()').extract()
if len(quote) != 0:
item['quote'] = quote[0]
yield item

if self.offset < 225:
self.offset += 25
yield scrapy.Request(self.url + str(self.offset), callback=self.parse)
```

vi items.py
```
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Item,Field
class DoubanItem(scrapy.Item):
# 电影名
title = scrapy.Field()
# 基本信息
bd = scrapy.Field()
# 评分
star = scrapy.Field()
# 简介
quote = scrapy.Field()
```

vi pipelines.py
```
class DoubanPipeline(object):
def __init__(self):
conn = MongoClient('172.10.2.105', 27017)
db = conn.moves
self.post = db.Book
def process_item(self, item, spider):
bookInfo = dict(item)
print(bookInfo)
self.post.insert(bookInfo)
return item
```

scrapy crawl douban

爬虫脚本可以获取豆瓣电影Top250 的一些基本信息，当然也包括我们需要的电影简介。把这些爬到的数据都存在mongodb中，等下做情感分析的时候再从mongodb中获取电影简介~~

第四步

编写情感分析

# -*- coding: utf-8 -*-
from pymongo import MongoClient
from snownlp import SnowNLP
conn = MongoClient('172.10.2.105', 27017)
db = conn.moves
my_set = db.Book
for i in my_set.find():
print(i['quote'])
analyze = SnowNLP(u'%s' % i['quote'])
print("情感度：%s " % analyze.sentiments)

第五步

运行情感分析文件，查看结果。。。

结果很明显都是好评~~情感度就没有低于0.85的！！！

大家可以修改一下脚本测测你和朋友同事聊天时，他们回复时的情感度~~

相關文章:

Python 63个内置函数

Python Turtle画分形树理解递归

python 内存管理

python 递归输出文件

Python 中的

python copy

Python—turtle画图（哆啦A梦）

python 协程

Python 绘图以及文件的基本操作

Python wordcloud库介绍

python 闭包

Python 判断列表是否已排好序

python：序列和元组的区别

Python While 循环语句介绍

03.04 Python While 循环语句介绍

03.01 Python 模块

python 注释

python pandas数据清洗

Python 中的bool值

python-unittest基本介绍

Python 分发包中添加额外文件

# Python 3 # Python 3字典Dictionary（2）

# Python 3 # Python 3字典Dictionary（1）

# Python 3 # Python 3运算符（4）

# Python 3 # Python 3基本数据类型（3）

12.21 python lambda表达式简单用法

python :中文大写转阿拉伯数字（金额）

python str和bytes的区别

Python 的四种共享传参详解

[PYTHON]，字符串的查找，什么时候能混到给钱不用找零了

说说在 Python 中如何导入类

[PYTHON]，字符串的大小写，大赌场小赌场大小赌场赌大小

[PYTHON]，字符串的类型判断，只听得惊堂木一拍

[PYTHON]，字符串转义字符，字符串变身

python 音频处理

python 可变对象和不可变对象

Python 程序运行时间计时

python 字典底层实现原理

06.20 Python 枚举类型 Enum

06.17 Python Lambda 表达式

06.17 Python 数据类型转换

06.16 Python 中的包 Packages

06.09 Python 正则表达式断言 Assertions

06.09 Python 异常处理

python-with语法

05.27 python-with语法

python-as语法

05.27 python-as语法

「python」高阶函数map、reduce的介绍

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪