Crawlab 使用 Golang 開發的分佈式爬蟲管理平臺

2019-08-31 08:43:00 儒雅程序員

基於Golang的分佈式爬蟲管理平臺，支持Python、NodeJS、Go、Java、PHP等多種編程語言以及多種爬蟲框架。

安裝

三種方式:

Docker（推薦）
直接部署（瞭解內核）

要求（Docker）

Docker 18.03+
Redis
MongoDB 3.6+

要求（直接部署）

Go 1.12+
Node 8.12+
Redis
MongoDB 3.6+

運行

Docker

運行主節點示例。192.168.99.1是在Docker Machine網絡中的宿主機IP地址。192.168.99.100是Docker主節點的IP地址。

docker run -d --rm --name crawlab \\
 -e CRAWLAB_REDIS_ADDRESS=192.168.99.1 \\
 -e CRAWLAB_MONGO_HOST=192.168.99.1 \\
 -e CRAWLAB_SERVER_MASTER=Y \\ 

 -e CRAWLAB_API_ADDRESS=192.168.99.100:8000 \\
 -e CRAWLAB_SPIDER_PATH=/app/spiders \\
 -p 8080:8080 \\
 -p 8000:8000 \\
 -v /var/logs/crawlab:/var/logs/crawlab \\
 tikazyq/crawlab:0.3.0

當然也可以用docker-compose來一鍵啟動，甚至不用配置MongoDB和Redis數據庫，當然我們推薦這樣做。在當前目錄中創建docker-compose.yml文件，輸入以下內容。

version: '3.3'
services:
 master: 
 image: tikazyq/crawlab:latest
 container_name: master
 environment:
 CRAWLAB_API_ADDRESS: "localhost:8000"
 CRAWLAB_SERVER_MASTER: "Y"
 CRAWLAB_MONGO_HOST: "mongo"
 CRAWLAB_REDIS_ADDRESS: "redis"
 ports: 
 - "8080:8080" # frontend
 - "8000:8000" # backend
 depends_on:
 - mongo
 - redis
 mongo:
 image: mongo:latest
 restart: always
 ports:
 - "27017:27017"
 redis:
 image: redis:latest
 restart: always
 ports:
 - "6379:6379"

然後執行以下命令，Crawlab主節點＋MongoDB＋Redis就啟動了。打開http://localhost:8080就能看到界面。

docker-compose up

Docker部署的詳情，請見相關文檔。

直接部署

請參考相關文檔。

截圖

登錄

首頁

節點列表

節點拓撲圖

爬蟲列表

爬蟲概覽

爬蟲分析

爬蟲文件

任務詳情 - 抓取結果

定時任務

架構

Crawlab的架構包括了一個主節點（Master Node）和多個工作節點（Worker Node），以及負責通信和數據儲存的Redis和MongoDB數據庫。

前端應用向主節點請求數據，主節點通過MongoDB和Redis來執行任務派發調度以及部署，工作節點收到任務之後，開始執行爬蟲任務，並將任務結果儲存到MongoDB。架構相對於v0.3.0之前的Celery版本有所精簡，去除了不必要的節點監控模塊Flower，節點監控主要由Redis完成。

主節點

主節點是整個Crawlab架構的核心，屬於Crawlab的中控系統。

主節點主要負責以下功能:

爬蟲任務調度
工作節點管理和通信
爬蟲部署
前端以及API服務
執行任務（可以將主節點當成工作節點）

主節點負責與前端應用進行通信，並通過Redis將爬蟲任務派發給工作節點。同時，主節點會同步（部署）爬蟲給工作節點，通過Redis和MongoDB的GridFS。

工作節點

工作節點的主要功能是執行爬蟲任務和儲存抓取數據與日誌，並且通過Redis的PubSub跟主節點通信。通過增加工作節點數量，Crawlab可以做到橫向擴展，不同的爬蟲任務可以分配到不同的節點上執行。

MongoDB

MongoDB是Crawlab的運行數據庫，儲存有節點、爬蟲、任務、定時任務等數據，另外GridFS文件儲存方式是主節點儲存爬蟲文件並同步到工作節點的中間媒介。

Redis

Redis是非常受歡迎的Key-Value數據庫，在Crawlab中主要實現節點間數據通信的功能。例如，節點會將自己信息通過HSET儲存在Redis的nodes哈希列表中，主節點根據哈希列表來判斷在線節點。

前端

前端是一個基於Vue-Element-Admin的單頁應用。其中重用了很多Element-UI的控件來支持相應的展示。

與其他框架的集成

爬蟲任務本質上是由一個shell命令來實現的。任務ID將以環境變量CRAWLAB_TASK_ID的形式存在於爬蟲任務運行的進程中，並以此來關聯抓取數據。另外，CRAWLAB_COLLECTION是Crawlab傳過來的所存放collection的名稱。

在爬蟲程序中，需要將CRAWLAB_TASK_ID的值以task_id作為可以存入數據庫中CRAWLAB_COLLECTION的collection中。這樣Crawlab就知道如何將爬蟲任務與抓取數據關聯起來了。當前，Crawlab只支持MongoDB。

集成Scrapy

以下是Crawlab跟Scrapy集成的例子，利用了Crawlab傳過來的task_id和collection_name。

import os
from pymongo import MongoClient
MONGO_HOST = '192.168.99.100'
MONGO_PORT = 27017
MONGO_DB = 'crawlab_test'
# scrapy example in the pipeline 

class JuejinPipeline(object):
 mongo = MongoClient(host=MONGO_HOST, port=MONGO_PORT)
 db = mongo[MONGO_DB]
 col_name = os.environ.get('CRAWLAB_COLLECTION')
 if not col_name:
 col_name = 'test'
 col = db[col_name]
 def process_item(self, item, spider):
 item['task_id'] = os.environ.get('CRAWLAB_TASK_ID')
 self.col.save(item)
 return item

與其他框架比較

現在已經有一些爬蟲管理框架了，因此為啥還要用Crawlab？

因為很多現有當平臺都依賴於Scrapyd，限制了爬蟲的編程語言以及框架，爬蟲工程師只能用scrapy和python。當然，scrapy是非常優秀的爬蟲框架，但是它不能做一切事情。

Crawlab使用起來很方便，也很通用，可以適用於幾乎任何主流語言和框架。它還有一個精美的前端界面，讓用戶可以方便的管理和運行爬蟲。

框架類型分佈式前端依賴於ScrapydCrawlab管理平臺YYNScrapydWeb管理平臺YYYSpiderKeeper管理平臺YYYGerapy管理平臺YYYScrapyd網絡服務YNN/A

私信回覆"Crawlab"獲取鏈接地址，喜歡的點個關注，一起學習探討新技術。

分享到:

閱讀更多 儒雅程序員 的文章

關鍵字: Node.js MongoDB 網絡爬蟲

Golang——變量的聲明與定義

Golang——詳解Go語言的代碼規範

Golang 入門系列（十一）orm框架之gorm詳細介紹！

Golang 入門系列（十一）orm框架之gorm詳細介紹

Golang 入門系列（十一）從零開始實現一個完整的webapi項目！

unrecognized import path "golang.org

Golang 入門系列（四）淺談Go語言中的面向對象

golang 基礎知識點梳理

Golang Channel詳細解析

Golang 入門系列（三）打好基本功: Golang 語法基礎！

Golang 入門系列（三）打好基本功：Golang 語法基礎

golang 併發編程

golang-csv文件追加寫入內容

Golang 的引用類型底層實現

golang grpc之etcd服務註冊發現

golang template使用自定義函數

超好用的爬蟲管理平臺 Crawlab

golang 開源後臺管理系統

golang-3- 函數

golang-1- 環境搭建

「GoLang」對mysql操作的簡單封裝

golang+jaeger實現鏈路追蹤

golang+shell快速實現docker運行時

golang web開發——內存中crud練習

「Golang 系列」 Golang 內存管理和回收

golang Context詳解

10.14 Golang(五)最佳Web框架對比

「golang」Go內嵌靜態資源go-bindata的安裝及使用

知乎社區核心業務 Golang 化實踐

Golang net包下操作IP的常用函數

Golang 系統採集工具 gopsutil

Golang atomic 原子操作函數

Golang sync包的7件法寶

golang-定時任務管理gocron

Golang slice注意啦

Golang 設計模式-建造者模式

Golang 單例模式

認識 Golang 協程

Golang 消息服務NATS

golang-同名package衝突解決

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"