機器學習NLP：深入理解Naive Bayes！

2018-08-26 10:53:42 不靠譜的貓

Naive Bayes是最常用的機器學習（ML）算法之一，通常用於文本分類。它是機器學習（ML）最簡單的分類算法之一。

這篇文章將為您提供Naive Bayes分類器實際工作原理的完整見解。

樸素貝葉斯究竟是如何運作的

樸素貝葉斯是一種概率分類算法，因為它使用概率來進行分類目的的預測。讓我們深入瞭解樸素貝葉斯的訓練和測試階段，以獲得它的算法見解！

訓練樸素貝葉斯模型

比方說，有一個餐廳評論，“Very good food and service!!!”，你想預測這個給定的評論是否意味著積極或消極的觀點。要做到這一點，我們首先需要在相關標記的訓練數據集上訓練一個模型(這實際上意味著確定每個類別的單詞計數)，然後這個模型本身將能夠自動將這些評論分類為它所訓練的特定觀點之一。假設您獲得了一個類似下面的訓練數據集（一個評論及其相應的情緒）：

標記訓練數據集

備註：樸素貝葉斯分類器是一種監督機器學習算法

那我們怎麼開始呢？

步驟＃1：數據預處理

作為預處理階段的一部分，訓練語料庫/訓練數據集中的所有單詞都將轉換為小寫，除了標點符號之外的所有內容都將從訓練示例中排除。

邊注：一個常見的錯誤，不是像預處理訓練數據集那樣預處理測試數據，而是直接將測試示例輸入到訓練模型中。因此，經過訓練的模型在給定的測試示例上表現得很差，在這個測試示例上它應該表現得相當好!

預處理訓練數據集

步驟＃2：訓練你的NaïveBayes模型

只需簡單地製作兩個bag of words（BoW），每個類別一個，每個將包含單詞及其相應的計數。屬於“正面”情緒/標籤的所有單詞都將歸屬於一個BoW，所有屬於“負面”情緒的單詞都將擁有自己的BoW。訓練集中的每個句子都被分成單詞（基於空格作為標記器/分隔符），這就是單詞計數對的構造方式，如下所示：

兩個類別的BoW

現在是預測部分 - 測試

考慮到現在您的模型被給予餐廳評論，“Very good food and service!!!”，它需要分類到它屬於哪個特定類別。我們需要找到這個屬於每個類別的評估的概率，然後我們會給它分配一個正的或負的標籤（取決於這個測試例子能夠為哪個特定的類別獲得更多的概率）。

查找給定測試示例/評論的概率：

步驟＃1 ：測試實例的預處理

以與預處理訓練樣本相同的方式預處理測試示例，即將示例更改為小寫並排除除標點/字母之外的所有內容。

步驟＃2：預處理測試例的標記化

對測試示例進行標記，即將其拆分為單個單詞。

快速備註：您必須熟悉機器學習中的術語“ 特徵” 。這裡，在Naive Bayes中，訓練數據集的每個類別的詞彙表中的每個單詞構成分類特徵。這意味著每個類的所有獨特單詞（即詞彙，vocabulary/vocab）的計數基本上是該特定類的一組特徵。為什麼我們需要“數量”？因為我們需要分類詞特徵的數字表示，因為樸素貝葉斯模型/算法需要數字特徵來找出概率分數！

步驟＃3：使用概率預測標記化測試示例的標籤！

尋找概率的數學形式：

Probability of a Given Test Example i of belonging

i =測試例子= “Very good food and service!!!”
i中的單詞總數 = 5，因此j（表示要素編號）的值從1到5不等。就這麼簡單！

讓我們將上面的場景映射到給定的測試示例，以使其更清晰！

讓我們開始計算這些產品術語的值

步驟1：找到術語的值：c類的p

Simply the Fraction of Each Category/Class in the Training Set

p of class c for Positive & Negative categorie

步驟2：找到術語的值：product （c類測試詞j的 p ）

在我們開始推斷特定類c中測試單詞j的概率之前，讓我們快速熟悉一些符號：

因為我們目前在測試集中只有一個例子（為了理解），所以i = 1。

說明：在測試時間/預測時間內，我們將測試示例的每個單詞映射到訓練階段中找到的計數。因此，在本例中，我們要為這個給定的測試示例尋找總共5個單詞的計數。

在c類中找出測試詞“j”的概率

在開始計算乘積(c類測試詞“j”的p)之前，我們顯然首先需要確定c類測試詞“j”的p。有兩種方法可以按照下面的說明進行操作 -

讓我們首先嚐試使用方法1找到概率：

現在我們可以乘以單個詞的概率（如上所示），以便找到術語的數值：

product（c類中測試詞“j”的p）

零概率的常見陷阱！

現在，我們有兩個條件，即（ p of class c and product ( p of a test word “ j ” in class c ) ）。因此，為了確定兩個類別的p（i屬於c類），我們可以將這兩個項相乘。這在下面說明：

零概率的常見陷阱！

對於這兩個類別，p（i屬於c類）結果為零！但很明顯，測試示例“Very good food and service!!!”屬於正類！這是因為產品（c類測試詞 “j”的p）對於兩個類別都為零，而這又為零，因為給定測試示例中的幾個單詞（以橙色突出顯示）從未出現過我們的訓練數據集，因此它們的概率為零！顯然他們已經造成了所有的破壞！

這是否意味著，只要在測試示例中出現但從未在訓練數據集中出現過的單詞總是會導致此類破壞？在這種情況下，我們訓練有素的模型永遠無法預測正確的情緒？它會隨機選擇正面或負面類別，因為它們都具有相同的零概率並且預測錯誤？答案是不！這是第二種方法（編號為2）發揮作用的地方，實際上這是實際用於推導p（i屬於c類）的數學公式。但在我們繼續使用方法2之前，我們應該首先熟悉它的數學！

因此，在添加1的偽計數之後，在訓練數據中永遠不會出現的測試單詞的概率p將永遠不會為零，因此，術語產品的數值（c類中測試單詞“j”的p）永遠不會結束為零，這反過來暗示 p（i屬於c類）也永遠不會為零！所以一切都很好，沒有零概率的破壞！

因此，方法編號2的分子項將添加1，因為我們為詞彙表中的每個單詞添加了一個，因此它變為：

同樣，分母變為：

所以完整的公式：

現在使用方法2找到概率：

處理零概率：這些就像故障保護概率一樣！

現在作為測試示例的概率，“Very good food and service!!!”更多的是積極的類別，即9.33E-09與負類別（即7.74E-09）相比，所以我們可以預測它為積極的情緒！這就是我們如何簡單地預測例子

快速注意事項：與其他機器學習算法一樣，樸素貝葉斯也需要驗證集來評估訓練模型的有效性。

深入挖掘概率數學

現在您已經對訓練樸素貝葉斯模型所需的概率計算有了基本的瞭解，然後用它來預測給定測試句的概率，現在我將深入研究概率細節。

在上一節中對給定測試句子的概率進行計算時，我們什麼也沒做，只是在測試時為我們的預測實現了給定的概率公式：

解碼上述數學方程式：

“ | “=指已經給出的狀態/或某些過濾標準

“ c ”=類/類別

“ x ”=測試例/測試句

p（c | x） =給定的測試例x，它屬於c類的概率是多少。這也稱為後驗概率。這是針對給定測試示例x針對每個給定訓練類找到的條件概率。

p（x | c） =給定的類c，示例x屬於類c的概率是多少。這也稱為似然，因為它意味著示例 x有多大可能屬於 c類。這也是條件概率。我們使用在訓練階段確定的單詞計數來計算該概率。

這裡 “ j ” 代表一個類， k 代表一個特徵

我們在計算部分中隱式使用了這個公式兩次，因為我們有兩個類。記住發現的product 的值( p of a test word “ j ” in class c ) ？

p（c） =這意味著 c類的概率。這也稱為先驗概率/無條件概率。這是無條件的概率。我們在概率計算部分中更早地計算了這一點（在步驟＃1中找到了術語的值： c類的 p）

p（x） =這也稱為歸一化常數，因此概率p（c | x）實際上落在[0,1]範圍內。因此，如果刪除它，概率p（c | x）可能不一定落在[0,1]的範圍內。直觀地，這意味著在任何情況下或不論其類別標籤（即正面還是負面）的示例 x的概率。這也反映在用於計算p（x）的全概率定理中，並且要求找到 p（x），我們將在所有給定的類中找到它的概率（因為它是無條件概率）並簡單地添加它們：

全概率定理

這意味著如果我們有兩個類，那麼我們將有兩個項，所以在我們特定的正面和負面情緒的情況下：

兩個類的全概率定理

我們在上面的計算中使用過嗎？不，我們沒有。為什麼？？？因為我們正在比較正面和負面類別的概率，並且因為分母保持不變，所以在這種特殊情況下，省略相同的分母並不影響我們訓練模型的預測。

避免下溢錯誤的常見陷阱！

如果你注意到，單詞概率的數值（即c類中測試單詞“j”的p）非常小。因此，將所有這些微小概率乘以找到乘積（c類中測試詞“j”的p）將產生更小的數值，這通常會導致下溢，這顯然意味著對於給定的測試句，訓練的模型將無法預測它的類別/情緒。因此，為了避免這種下溢錯誤，我們將數學log的幫助如下：

避免下溢錯誤

現在，我們不需要對單個單詞的概率進行乘法運算，我們只需要把它們加起來。為什麼只有log?為什麼沒有其他函數呢?因為log以單調方式增大或減小，這意味著它不會影響概率的順序。在將log應用於它們之後，較小的概率仍將保持較小，反之亦然。因此，假設測試詞“is”的概率小於測試詞“happy”，因此在通過log之後雖然增加了它們的幅度，但“is”仍然比“happy”的概率小。因此，在不影響我們訓練模型的預測的情況下，我們可以有效地避免下溢誤差的常見缺陷。

一些隨機的結論性說明

雖然我們生活在API的時代，幾乎很少從頭開始編碼。但深入理解算法理論對於深入理解機器學習算法的實際工作方式至關重要。在轉向API之前，我個人認為真正的數據科學家應該從頭開始編碼，以實際看到數字背後的原因以及特定算法優於其他算法的原因。
Naive Bayes模型的最佳特徵之一是，您可以通過簡單地用新的詞彙單詞更新它而不是總是重新訓練它來提高它的準確性。您只需要在詞彙表中添加單詞並相應地更新單詞計數。

分享到:

閱讀更多 不靠譜的貓 的文章

關鍵字: 數學 Word 技術

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"