前言
首先,我們是技術人員,是在探討技術;
當然,我們也不否認,自己是個宅男;
不過,我們的重點還是,討論爬蟲,分析現象;
(哈哈哈,總覺得有那麼一種正經的猥瑣,我果然是個雞蛋類型的男人。)
簡單說一下我們這期乾的事情:
1.寫一個爬蟲,爬取絕美網上的美女圖片;
2.調用百度的人臉檢測api檢測人臉;
3.分析百度人臉結果,看看百度認為什麼是美女;
No.1
爬蟲的任務
他的主要工作就是:
請求指定的URL,解析結果;
首先:從響應中查找出想要查找的數據;
之後:解析出新的URL路徑;
然後:根據URL繼續訪問,繼續解析,直到找到需要的數據為止;
一個簡單的爬蟲 必需的功能:
1.發送請求,獲取響應
2.解析結果
3.分析篩選數據
4.結果再處理
No.2
爬蟲具體實現
首先,我們來看看結果!為防止舉報,特地做了無害化處理!
解析頁面,我們主要用到jsoup這個解析器。jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作數據。
它的主要功能是:
1. 從一個URL,文件或字符串中解析HTML;
2. 使用DOM或CSS選擇器來查找、取出數據;
3. 可操作HTML元素、屬性、文本;
流程大致如下圖:
根據URL得到page
得到鏈接
Page保存頁面結果
記錄路徑
解析數據
No.3
分析顏值
這裡要調用的就是百度的人臉檢測,具體api可以參考:
http://ai.baidu.com/ai-doc/FACE/yk37c1u4t
我們做的就是把上方獲取到的圖片的URL調用百度api後查看結果;
獲取token
檢測
我們來看看部分結果:
其中有幾個值引起了我的注意!
顏值:90.65 年齡:22.0
顏值:42.77 年齡:23.0
我們分別來看看百度認為的90分的妹子和42分的妹子分別是什麼
不知道百度評價的標準是什麼,總覺得42分的妹子更好看,你們覺得呢?
小編還給大家準備了全網最全編程語言視頻教程(從零基礎到大牛哦!)包含java、web、大數據、等視頻教程+項目+源碼,現在免費分享給各位!
java全套視頻教程