大數據學習之路（二）

2018-04-04 11:01:57 我的瀋陽

數據的收集

外部數據收集（互聯網數據收集）

網絡爬蟲：從頁面獲取的策略分為幾個大類：深度優先、寬度優先和最佳優先三種。

深度優先

該策略從起始網頁開始，選擇一個URL進入，分析這個網頁中的URL，然後再選擇另一個URL進入。如此一個鏈接一個鏈接地抓取下去，直到處理完整條路線之後再處理下一條路線。可以用棧來實現。

存在的問題：通常門戶網站的鏈接往往是最具價值的，評級也很高，但隨著每一層的深入，網頁的價值就會相應地有所下降。這就暗示了重要網頁通常距離種子較近，而過度深入抓取到的網頁卻價值很低。合理的控制深度是該種策略的關鍵。

寬度優先（廣度優先）

這個策略是指在抓取過程中，只有在完成當前層次的搜索之後，才進行下一層次的搜索。可以用隊列實現。

最佳優先（聚焦、定向）

當需要爬取的網頁數量很龐大的時候，無論是深度優先還是寬度優先可能都不能高效地獲取用戶所關心的內容，而最佳優先策略只訪問經過網頁分析算法預測為“相關”的網頁，在一定程度上緩解了之前兩種策略重“量”不重“質”的局面。

如何判斷新獲取的網頁和用戶定義的候選網頁之間的相似度呢？

常見的算法模型：布爾模型、基於偏序的布爾模型、向量空間模型、概率模型和語言模型，等等。

在數據的爬取方面，Nutch和Heritrix都是不錯的開源系統，可以幫助我們快速實現爬取。

兩者區別：

Nutch集成了Lucene對於抓取內容的索引和檢索是非常方便的。Heritrix時，用戶需要自己負責文件格式的轉換、索引和檢索等工作。Heritrix網絡蜘蛛的功能更為強大，可以專注於網絡信息的下載。
從對待爬取內容的處理方式上看，Nutch只獲取並保存可索引的內容，且可以對下載內容進行過濾修改，而Heritrix則適用於各種類型的信息，力求保持網頁原貌。另外，Nutch一般是通過刷新操作將舊內容替換為新內容的，而Heritrix則是不斷追加新內容。
從用戶使用來看，Nutch採用命令行運行和控制。而Heritrix有Web控制管理界面，更為人性化一些。Nutch的定製能力不算很強，而Heritrix可控制的參數比較多，只是配置起來有點麻煩。

內部數據收集

收集的模型，內部數據的收集主要分為推送（Push）和拉取（Pull）兩大類。Flume、Scribe和Logstash等開源方案，提供了拉取或推送的採集模式，提供了不同的特性和選擇。”

Flume

我們可以將源頭想象成為一個水龍頭，沉澱器是一個水桶，而通道就是水管。水管兩頭分別接上水龍頭和水桶，當水龍頭打開，水就源源不斷地通過水管流入水桶。

Flume的優勢是支持集群，並且數據流可以多級嵌套。

Facebook的Scribe和Logstash

它們是採用推送模式的代表。

數據存儲

NoSQL（Not Only SQL）它泛指非關係型的數據庫。

HDFS（Hadoop Distributed File System）和對應的分佈式非關係型（非結構化）數據庫系統HBase。

Hadoop優勢：

透明性：使用者可以在不瞭解Hadoop分佈式底層細節的情況下，開發分佈式程序，充分利用集群的威力進行高速運算和存儲。
高擴展性：擴展分為縱向擴展和橫向擴展，縱向擴展將增加單機的資源，總會達到瓶頸；而橫向將增加集群中的機器數量，獲得近似線性增加的性能，不容易達到瓶頸。Hadoop集群中的節點資源，採用的就是橫向方式，可以方便地進行擴充，並獲得顯著的性能提升。
高效性：由於採用了多個資源並行處理，使得Hadoop不再受限於單機操作（特別是較慢的磁盤I/O讀寫），可以快速地完成大規模的任務。加上其所具有的可擴展性，隨著硬件資源的增加，性能將會得到進一步的提升。
高容錯和高可靠性：Hadoop中的數據都有多處備份，如果數據發生丟失或損壞，能夠自動從其他副本（Replication）進行復原。同理，失敗的計算任務也可以分配到新的資源節點，進行自動重試。
低成本：正是因為Hadoop有良好的擴展性和容錯性，所以沒有必要再為其添置昂貴的高端服務器。廉價的硬件，甚至是個人計算機都可以成為資源節點。

Hadoop框架的最核心元素就是HDFS和MapReduce。HDFS為海量的數據提供了存儲，而MapReduce為海量的數據提供了計算。

如何理解HDFS的體系架構？

快消品公司的虛擬案例

擴建倉庫：單個倉庫的擴建，就是所謂的縱向擴展。縱向擴展很容易達到瓶頸，建立倉庫是這樣，計算機系統也同樣如此。例如單機的硬盤和內存，不可能無限制地被加大。這時就需要考慮橫向擴展了，在郊區新建一個倉庫，在計算機系統中就是增加新的機器作為資源節點，不過這些機器節點存儲的不再是純淨水，而是數據。在HDFS中，這些存儲數據的節點被稱為數據節點（Data Node）。
增加協調部門：協同部門可以實時收集各個倉庫的運作情況，並決策將進貨存放在哪裡更為合適。在HDFS中，扮演這個角色的節點稱為命名節點（Name Node），它維護著系統中的大量元數據，負責管理文件系統的命名空間（Name Space）和控制外部的訪問，包括打開、關閉、重命名文件或目錄，將數據塊映射到具體的數據節點等。隨著協同部門職能重要性的日益增加，總公司可能還會將其管理內容進行備份，這就是次要命名節點（Secondary Name Node）。次要命名節點和命名節點的區別在於，它不會與數據節點和其他任務節點溝通，也不接收HDFS上的任何變化記錄。次要命名節點最主要的目標就是與命名節點通信，根據配置定期地獲取命名節點上的HDFS元數據快照，因此效率是非常高的。
在多個倉庫中進行備貨：意外總是會發生，為了防止意外導致缺貨的情況發生，可以採用的一項策略是將貨物存儲在多地的倉庫中。在HDFS中也有同樣的理念，這就是備份或副本（Replication）。存儲在數據節點上的數據庫可以有多個副本，並分發到其他節點上。這樣在某個數據節點上丟失的數據，可以在其他數據節點上找到並恢復。容錯性得以提升。

HDFS存在如下幾個弱點：

不適合實時性很強的數據訪問。（數據查詢）
無法高效存儲大量小文件。
HDFS對多用戶的寫入及文件任意修改的支持也不足。文件併發時的寫入者只有1個，而且寫操作只能在文件末尾追加新的數據，還不能在文件的任意位置進行插入。

HBase

基於HDFS的數據庫系統。它是一個分佈式的、面向列的開源數據庫，適合於非結構化數據的數據庫，最大的特點是基於列而不是基於行的模式進行存儲。

關係型數據庫優勢，查詢簡單，有強事務。

HBase幾個關鍵概念：

表格（Table）：HBase同樣用二維表格來組織數據。
行（Row）：在表格裡，每一行代表一條記錄，每行通過行鍵（Row Key）進行唯一標識。
列族（Column Family）：瞭解這點很關鍵，行裡的字段按照列族進行分組，可以看作一堆屬性或字段的集合。
列限定符（Column Qualifier）：列族裡包括多個屬性，限定符可以幫助定位列族裡的數據。與列族不同，列限定符沒有必要預先被定義，因此每行可以擁有不同數量和名稱的限定符。
單元（Cell）：二維表裡的單元格，通過行鍵、列族和列限定符來唯一確定。存儲在其中的值稱為單元值（Cell Value）。
版本（Version）：注意，這是HBase與很多數據庫的不同之處。即使單元被確定了，裡面的單元值仍然可以根據時間的不同擁有多個版本。版本用時間戳（Timestamp）來標識。讀取的時候如果沒有指定時間戳，那就默認獲取最近的版本。

大數據學習之路（二）

MongonDB（文檔型存儲）

它的主要功能特性為面向集合存儲，且擁有自由的Schema模式定義方式。所謂的“面向集合”，意思是數據被分組存儲在數據集中，該數據集稱為一個集合（Collection）。每個集合在數據庫中都有一個唯一的標識名，並且可以包含無限數目的文檔。

MongoDB和HBase也存在差異

底層的支持：HBase是架構在HDFS之上的，它會將數據按照列拆分開來存儲，對MapReduce支持得非常好。而MongoDB則會直接將整個數據存儲在文件系統之上，與HDFS沒有關聯。
數據模型：HBase的數據模型和關係型的二維表非常相似，其靈活性體現在列式存儲上。而MongoDB的數據模型是以文檔為基本單位的，其靈活性體現在文檔可以支持多種複雜的結構。

非持久化存儲系統，Memcached、Berkeley DB和Redis。不過，需要注意的是，系統屬於持久化還是非持久化，有時劃分得並沒有那麼絕對。這裡的劃分主要是按照這些系統目前在業界最常見的應用方式進行的。

Memcached

儘管Memcached是“分佈式”緩存服務器，但服務器端並沒有完整的分佈式功能，例如切片（Sharding）和副本（Replication），各個Memcached服務器之間也不會互相通信以共享信息，因此需要應用端來實現類似的邏輯。

Redis

它是一個開源的、高性能的、基於鍵–值型的緩存和存儲系統。支持分佈式集群。Redis的特性主要包括：提供了極高的性能、支持多種數據類型、支持事務性（一定程度上）、可設定生命週期、提供持久化存儲等。

數據處理

根據處理的及時性不同，主要分為離線處理和在線處理。介於二者之間，還會介紹提升及時性的消息機制。

離線批量處理（MapReduce）

水源分級的整個流程。

大數據學習之路（二）

MapReduce框架包含幾個重要的組成模塊：

數據分割（Data Splitting）：將數據源進行切分，並將分片發送到Mapper上。例如對文檔的每一行作為最小的處理單元。
映射（Mapping）：Mapper根據應用的需求，將內容按照鍵-值的匹配，存儲到散列結構中。
洗牌（Shuffling）：將鍵-值的配對不斷地發給Reducer進行歸約。如果存在多個Reducer，還會使用分配（Partitioning）對Reducer進行選擇。
歸約（Reducing）：分析接收到的一組鍵值配對，如果是鍵內容相同的配對，就將它們的值合併。
為了提升洗牌階段的效率，可以選擇減少發送到歸約階段的鍵-值配對。

大數據學習之路（二）

分享到:

閱讀更多 我的瀋陽 的文章

關鍵字: 優先 MapReduce HBase

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

大數據學習之路（二）

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

比干被挖心之後，明明已經活了下來，為何遇見賣菜老婦還是死了？

果園使用除草劑除草，對果樹有危害嗎？

鄧倫扮演的狐妖附體王麗坤扮演的蘇妲己去勾引紂王，紂王愛上的究竟是狐妖還是蘇妲己？

在農村閒置的老房子用來做什麼或養殖些什麼合適呢？

唐國強一個人演遍了中華上下五千年是真的嗎？

年羹堯進士出身29歲官居二品，為何後來成了雍正的潛邸奴才？

黔東南黃平警方搗毀賣淫嫖娼窩點一個，查獲違法嫌疑人5人, 你怎麼看？

在農村，為何很多人早早就睡覺了？難道他們沒有“夜生活”？

一些專家禁止農村用柴火灶做飯，大家的看法是什麼？

二胎出生後，12歲女兒喝藥離去，大家怎麼看這件事情？

同樣被判刺配，林沖差點被人打死，武松卻一路有酒有肉，這是為何？

武松上梁山後，為何沒有結交一個好友？

人被車撞了，對方全責，他有車商業保險，但是他不願意墊付治療費，該怎樣對付這樣的人？

在自家農村院子大門口種什麼樹寓意比較好？

承包10畝地，散養土雞這個項目怎麼樣？

一千隻蠍子每天需要喂多少黃粉蟲？

在農村，怎麼才能讓母雞不孵蛋？

你們那裡真正的土雞（沒有喂飼料的）多少錢一斤？

農村空宅基地是不是要收回呢？關於空宅基地有哪些政策？

農村老人說，種田要防“鐵蛇”咬，咬了會得破傷瘋，是要人命的，真的有那麼厲害嗎？

撞死闖紅燈的行人，拒絕人道主義賠償會怎樣？

農村俗語“清明斷雪，穀雨斷霜”，穀雨對農作物有哪些影響？

水滸傳裡，林沖和武松誰的武藝更勝一籌？

農村老人去世，是不是要把老人生前所有衣物都燒掉？包括花了上千塊買的衣服？

公職人員，現在手上有30萬閒錢存款。除了購買理財產品，在烏魯木齊能做點什麼？賺錢？

想從北京到青海湖自駕遊，走哪條線比較好？為什麼？

從廣東自駕游出發去西藏和內蒙古，需要準備哪些東西？路線怎麼個走法？

農村院子鋪耐水磚能用幾年？時間長了會不會皴皮？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪