前言
首先,我们是技术人员,是在探讨技术;
当然,我们也不否认,自己是个宅男;
不过,我们的重点还是,讨论爬虫,分析现象;
(哈哈哈,总觉得有那么一种正经的猥琐,我果然是个鸡蛋类型的男人。)
简单说一下我们这期干的事情:
1.写一个爬虫,爬取绝美网上的美女图片;
2.调用百度的人脸检测api检测人脸;
3.分析百度人脸结果,看看百度认为什么是美女;
No.1
爬虫的任务
他的主要工作就是:
请求指定的URL,解析结果;
首先:从响应中查找出想要查找的数据;
之后:解析出新的URL路径;
然后:根据URL继续访问,继续解析,直到找到需要的数据为止;
一个简单的爬虫 必需的功能:
1.发送请求,获取响应
2.解析结果
3.分析筛选数据
4.结果再处理
No.2
爬虫具体实现
首先,我们来看看结果!为防止举报,特地做了无害化处理!
解析页面,我们主要用到jsoup这个解析器。jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
它的主要功能是:
1. 从一个URL,文件或字符串中解析HTML;
2. 使用DOM或CSS选择器来查找、取出数据;
3. 可操作HTML元素、属性、文本;
流程大致如下图:
根据URL得到page
得到链接
Page保存页面结果
记录路径
解析数据
No.3
分析颜值
这里要调用的就是百度的人脸检测,具体api可以参考:
http://ai.baidu.com/ai-doc/FACE/yk37c1u4t
我们做的就是把上方获取到的图片的URL调用百度api后查看结果;
获取token
检测
我们来看看部分结果:
其中有几个值引起了我的注意!
颜值:90.65 年龄:22.0
颜值:42.77 年龄:23.0
我们分别来看看百度认为的90分的妹子和42分的妹子分别是什么
不知道百度评价的标准是什么,总觉得42分的妹子更好看,你们觉得呢?
小编还给大家准备了全网最全编程语言视频教程(从零基础到大牛哦!)包含java、web、大数据、等视频教程+项目+源码,现在免费分享给各位!
java全套视频教程