03.05 信息論中的“信息”是什麼?


信息論中的“信息”是什麼?

在這篇文章中,我將簡單解釋:信息論中的“信息”到底是什麼?

信息論中的一個基本術語是熵。熵代表了一個系統的無序程度。在信息論中,熵告訴我們觀察到的事件x中包含的信息量。事件的概率為p(x)。

那麼,我們所說的信息是什麼意思呢?其實直觀地理解這個詞並不容易。“信息”的數量實際上都與存儲有關。信息以位為單位進行存儲。在信息論中,我們考慮有噪聲的通信通道,該通道用於將某些事件從一側傳遞到另一側。這些事件需要以某種方式進行編碼,更具體地說,它們需要被編碼成比特(正如計算機科學理論中所看到的那樣)。理想情況下,我們不希望使用太多的位來通過通信通道傳遞這些事件,因為位會消耗能量。我們希望將大部分比特花在罕見事件上,因為它們將通過通道發送的頻率降低,因此產生的成本也更少。

信息論中的“信息”是什麼?

什麼是罕見事件?是一個概率很小的p(x)。我們希望事件的信息更大,而事件的概率更低。我們將此函數稱為h(x),它應返回事件x中包含的信息量,該信息量對於低概率而言較高,而對於高概率事件而言較低。現在,讓我們看一下下面的h(x):

信息論中的“信息”是什麼?

這似乎是正確的做法:概率越低,信息就越高。它具有另一個不錯的屬性:如果我們獲取兩個同時發生的獨立事件的信息,我們將得出以下信息:

信息論中的“信息”是什麼?

這是從簡單的對數運算中得出的結論,因為在x和y是獨立的情況下,下面的結論是成立的:

信息論中的“信息”是什麼?

這是h函數的一個不錯的特性,它意味著我們可以累加獨立事件的信息,但是這也意味著我們不能累加相關事件的信息。對數本身是機器學習,數學和物理學中經常出現的函數。它在計算上如此出色的原因在於,它使我們能夠將乘積寫為和,得出函數的良好界限等。

現在,如果我們想要度量隨機變量的信息,我們需要查看它的所有實現(事件)的預期信息。我們取h(x)的期望,如果我們假設我們處理的是一個離散隨機變量,它看起來就像下面這樣:

信息論中的“信息”是什麼?

而這正是熵的定義!讓我們假設p(x)是伯努利分佈,這意味著可以發生兩個事件(x和y),根據它們各自的概率,我們可以寫出p(x)= 1-p(y),因為事件空間上的概率合計為1。在那種情況下,我們可以將熵繪製為p(x)的函數,然後我們會注意到:

信息論中的“信息”是什麼?

我們可以看到,當p(x)取值為0.5 時,它是最大值。這意味著所有事件均具有同等概率,因此在伯努利分佈中包含了相同數量的信息。反過來,假設說我們有另一個系統,考慮兩個隨機變量X和Y及其各自的分佈p和q。我們可以看看他們的互信息。這是機器學習中經常使用的量,我們想要學習包含獨立因素的潛在表示(即,最小化獨立因素之間的互信息)。最終,它可以歸結為以下等式:

信息論中的“信息”是什麼?

我們知道,在隨機變量x和y相互獨立的情況下,我們可以寫出聯合分佈p(x,y)=p(x)p(y)。如果它們不是獨立的,我們必須遵循貝葉斯規則,p(x,y)=p(x)p(y|x)。如果獨立性成立,則對數比率為1,因此表達式等於0,互信息為0。這是有道理的,因為根據獨立性,我們知道一個事件的發生不會影響另一個事件的發生。在另一種情況下,我們會得到非零的互信息。

信息理論對於機器學習從業者來說是一個非常有用的概念,因為它使他們可以從信息理論的角度看待學習算法。


分享到:


相關文章: