1.數據來源
來自某網站
2.抓取圖片、人臉識別
使用Jsoup包獲取、解析網絡圖片,使用百度ApiFace來做人臉檢測和顏值分析(百度目前是免費使用,其他平臺也可以使用)
3.人臉檢測過濾條件
過濾所有未出現人臉圖片
過濾所有非女性
過濾所有非真實人物
過濾所有顏值評分較低圖片(默認大於50,審美標識因人而異)
4.邏輯實現
找某個美女雲集的網站,分析圖片列表、分頁
使用JSOUP解析並獲取圖片的URL
通過AipFace,實現人臉檢測[核心],並按照過濾條件,保存符合條件的圖片到本地
5.核心代碼列表如圖:
6.結果如圖
7.總結
使用爬蟲抓數據時,注意不要啟用太多線程,默認1到2個併發,頻率不要太快,幾秒一張也行,不要把人家的網站給搞垮。否則要負法律責任的,最近爬蟲風聲鶴唳。使用百度ApiFace來做人臉檢測和顏值分析主要時因為免費,你也可以使用其他平臺。部分敏感的圖片,可能ApiFace會進行過濾。
注意:代碼比較多,需要的私信聯繫我