一文搞懂PCA的原理與細節

2018-10-17 12:20:30 機器學習與數據挖掘

昨天有朋友問PCA算法的一些細節問題，今天就寫一篇PCA的文章，主要講述PCA的整個過程以及其中的一些細節問題。

一、PCA過程

1、計算每一個維度的平均值，然後對每一個樣本取值減去其對應維度的平均值，一般情況下還應該進行歸一化。如下圖：

原始數據

減去均值後的數據

2、求特徵協方差矩陣

對於一個3維數據對應的協方差矩陣

3、協方差的特徵值和特徵向量

4、將特徵值按照從大到小的順序排序，選擇其中最大的k個（降維到K維），然後將其對應的k個特徵向量分別作為列向量組成特徵向量矩陣。

5、將原始樣本數據投影到選取的特徵向量上。

比如：假設樣本數為m，特徵數為n，減去均值後的樣本矩陣為DataAdjust(m*n)，協方差矩陣是n*n，選取的k個特徵向量組成的矩陣為EigenVectors(n*k)。那麼投影后的數據FinalData為

那麼，問題就來了，為什麼協方差矩陣前K個特徵值對應的方差就是最大的呢？，這就是方差最大理論了。

二、PCA理論基礎

在信號處理中認為信號具有較大的方差，噪聲有較小的方差，信噪比就是信號與噪聲的方差比，越大越好。贗本在那個維度的的投影方差較小，那麼認為那個維度的投影是由噪聲引起的。因此我們認為，最好的k維特徵是將n維樣本點轉換為k維後，每一維上的樣本方差都很大。

比如下圖有5個樣本點：（已經做過預處理，均值為0，特徵方差歸一）

下面將樣本投影到某一維上，這裡用一條過原點的直線表示（前處理的過程實質是將原點移到樣本點的中心點）。

假設我們選擇兩條不同的直線做投影，那麼左右兩條中哪個好呢？根據我們之前的方差最大化理論，左邊的好，因為投影后的樣本點之間方差大一些。

關於樣本點投影的概念，通過下圖可以明白。

u是一個單位向量，也就是說u向量決定我的樣本按照哪個方向映射，這時候方差才大。

由於原始數據已經是0均值的了，因此經過映射之後也是0均值的

我們只需要對協方差矩陣進行特徵值分解，得到的前k大特徵值對應的特徵向量就是最佳的k維新特徵，而且這k維新特徵是正交的。得到前k個u以後，樣例xi通過以下變換可以得到新的樣本。

中間那部分很熟悉啊，不就是樣本特徵的協方差矩陣麼xi的均值為0，上式可以改寫為

由於u是單位向量，即

上式兩邊都左乘u得，

即

這不就是說明方差最大的方向就是按前K個特徵值對應的特徵向量映射的方向嗎。

分享到:

閱讀更多 機器學習與數據挖掘 的文章

關鍵字: 平均值歸一化維度

公章被搶、被盜怎麼辦？誰有權聲明公章作廢？蓋章、簽字、摁手印哪個最有用？一文看懂有關“公章”那些事！

拜讀魏永寧老師《民歌不放棄——訪甘谷縣民歌手張金錄》一文

一文詳解2019年燃料電池汽車發展概況

一文講解清楚質量成本—全面質量成本管理培訓教材

【科普】一文帶你讀懂電價體系

一文速覽科技抗疫最新進展

科普｜你瞭解電價嗎？一文帶你讀懂電價體系

解析《鮑某明涉嫌性侵養女》一文，網友評論：現代版“揚州瘦馬”

一文讀懂985、211、華東五校、國防七子、兩財一貿

小楷節錄北溪字義一文

評“請外貿人不要賤賣中國的防疫物資”一文

圖文並茂，一文看懂：舊村改造可研如何做項目分析

乾貨︱一文讀懂戴爾科技流數據平臺

應修得——《飽含中國深情傳播中國大愛》一文題

我們應從“法官對公安辦案弱點評判”一文中得到什麼啟示

精益管理簡圖，一文讀懂精益落地路徑

03.06 精益管理簡圖，一文讀懂精益落地路徑

12.20 一文讀懂伺服運動控制器

一文讀懂——浪潮網絡智慧校園白皮書

危險源辨識及風險控制，一文讀懂

搞懂“dB”這個單位，到底有多難？

10.10 「中級實操」一文看懂：中級消防設施操作員實操考試

精益管理簡圖，一文讀懂精益落地路徑「精益管理」

評《于丹被北師大免職！跌落“神壇”……》一文

一文看懂電梯電氣電路圖，實用！

機器學習實戰項目- 利用 PCA 來簡化數據

中科大學報《費米實驗室繆子實驗概況》一文數據錯誤，請勘誤！

起徵點和免徵額該怎麼區分？

懟死鄒小櫻 02號作品｜回覆《陳綺貞的中年危機》一文

懟死鄒小櫻 03號作品｜回覆《陳綺貞的中年危機》一文

仟邦資都資訊：一文看懂：貸款利息、罰息與滯納金的區別

應收票據、應收賬款、其他應收款、預付賬款傻傻分不清？一文讀懂

變頻器知識大全，一文講解變頻器的安裝、外部線路、參數設定

「乾貨收藏」一文讀懂高低壓開關櫃製造與檢驗

故事選《金蟬》

《新華文摘》全文轉載任翔教授在我刊發表的《閱讀的力量》一文

互感器知識詳解，一文全搞定！

09.19 實用｜原來身份證後4位是這個意思，今天終於弄明白了！

增值稅稅控設備，這10個問題您清楚嗎？一文讀懂

最全的管理費用分錄，收藏轉發了！

一文「吃」透7月30日杭州網紅餐飲

如何看待7月25日《章文，停止你的侵害！！！！》一文？

因曾出席伊朗學術活動赴美參與SIGIR被拒，知名信息檢索教授怒寫「開放的科學」一文

駁某安《和這種男人交往，最可怕》一文

駁斥「押注面板業務 TCL陣痛過後能否重生？」一文

看到運營就一臉懵逼，還有救麼？

搞懂這五句話，你的城府和心機將變得深不可測！

乾貨｜一文讀懂編碼器（推薦收藏）

如何評價觀察者網《我問你答，真有許多女孩更喜歡老外》一文

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

轉念一想，這種看似不正常的狀態才是正常的，隨著時間的推移，很多過去迷迷糊糊的人慢慢就看清了，是進是退跟著內心走就好，別管什麼善始善終，不要被這種論調道德綁架，過段時間，你覺得可以，再回來就行，開關在你自己手裡，一秒鐘就能完成進退。

出海奮鬥是有膽識後浪的更優選項

東南亞11國，除去東帝汶，其他10國組成東盟。東南亞有多熱，從很多國際資本的快速湧入都有目共睹。養老產業：泰國、越南、菲律賓、馬來西亞、印尼都是大受歐美日韓退休人士歡迎的亞洲養老目的地。

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

“非常戰疫

為珠峰“量身高”，為啥要人上去？

6日，2020珠峰高程測量行動測量登山隊舉行出發儀式，30多名計劃登頂的測量登山隊員當日從海拔5200米的珠峰登山大本營向更高海拔出發，計劃抓住近日的天氣窗口，擇日登頂測量。如果成功，這將成為我國專業測繪人員首次登頂珠峰測高。

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

湖南省作為中國中南地區的一個省份，經濟強勁，地位獨特，有著十足的發展後勁。湖南經濟總量在全國排名第九。湖南也是華夏文明的發祥地，境內的炎帝陵，成為華夏兒女尋根祭祖的重要場所。南嶽衡山就在湖南衡陽。湖南張家界景區成為馳名中外的旅遊景點。湖南湘西鳳凰古鎮成為中國馳名十大古鎮之一。

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

《新週刊》創刊於1996年8月18日，由南方出版傳媒股份有限公司主管、主辦，以“中國最新銳的生活方式週刊”為定位，推出過一系列極具影響力的專題報道，是中國期刊市場最具代表性和影響力的雜誌之一，享有“話題策源地”的美譽。

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

每一個大項目其實都會面臨一個問題，那就是生態環境，因為所涉及的範圍實在太廣了，所以需要考慮的問題都是多方面的，三峽就是我國早期的一個超大體量的工程，而三峽所涉及的問題也很多。三峽其實一直都是我國的驕傲，但是關於三峽的質疑聲，其實也一點都不少，特別是關於三峽環境方面的質疑聲。

後疫情時代的五個營銷啟示

現象級白酒——李渡高粱酒，作為沉浸式/場景化營銷的開創者，早在幾年前就使用互聯網工具助力，疫情爆發後一系列的操作自然遊刃有餘了，銷量同比增加170%，線上銷量更是增加400%。

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了金子一直是我們中國人比較喜歡投資的一個東西，黃金飾品也是中國女性非常喜歡購買的東西，大家都知道，金子具有保值的功能，所以很多人既喜歡在銀行購買金條用於投資，又喜歡去一些金店購買黃金飾品。

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了大家都會知道，每到夏天，我們的沿海地區都是一個多風多雨的季節，這時候我們出門也是需要隨時帶上雨具，避免突然有暴風雨這些天氣的出現。

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了每次一到假期，就非常害怕到達火車站，可以說是基本上都是人山人海的感覺。很多人會為了方便去選擇去乘坐動車和高鐵。現在我們無論是出差還是去旅遊也都是會選擇去坐動車，又快又方便，主要還會很舒服。

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

這是肖戰春節後，經歷過這麼多事後首次參加採訪。視頻中他依然是面帶微笑，依舊是少年的樣子。但是眼裡到這故事，說話也變得小心謹慎，談吐措辭也是越來越嚴謹了。

秦山核電應急行動水平優化項目招標公告

從中國電力集採招標網（www.dljczb.

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

從中國電力集採招標網（www.dljczb.

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

從中國電力集採招標網（www.dljczb.

縣域社區團購，在平臺發展上有哪些優勢？

社區團購的迅速發展，已經不再侷限於各大城市中的小區。漸漸的擴大範圍，發展到一些城市邊緣的縣城鄉鎮。像是興盛優選、十薈團、食享會、考拉精選、美家買菜等月流水上億的社區團購頭部企業，都很重視下沉市場的佈局和開拓。

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

戲曲是以古代故事以及現代經典故事為題材的藝術表演，也是歷史悠久的綜合舞臺藝術樣式，表演戲曲難度很高，但戲曲人才依舊人才輩出，說起在戲曲圈中的佼佼者，陳百玲必是其一。

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

這是一幅白菜圖，由4字組成的，1秒看出4個字的智商都很高！你看出來了嗎？

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

這福圖上的圖你能猜對幾個？全猜對眼力非凡，猜對3個眼力160，猜對3個是近視眼！你能猜對幾個字？

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

熊熊火焰中藏了4個字，看出3個算達標，全看出眼力200！你能全部看出來嗎？

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

民以食為天。

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

這幅美女圖中藏了5個漢字，你能不能看出來是哪幾個漢字呢？全部看出來的眼力超群！

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

作為比特幣愛好者，Izabella的父母在她出生當日於《泰晤士報》刊登了一則附帶比特幣地址的小廣告，希望廣大讀者能夠捐出小部分比特幣給他們女兒作為大學教育基金。

《瞭望大灣區》：全國中高風險區域今日“清零”

《晨會解讀》：中山證券投資顧問楊立華：連續上漲過後注意把握好操作節奏

孫鬆峰：幸福生活唱出來

河南市場安全網訊（www.hnscjgw.com）

衡水：守護一湖碧水打造生態之城

長城網衡水訊（記者張梅勝

英國小夥第一次體驗中國網吧，就被電腦屏幕嚇到直言：這是個啥

網吧其實不管是對於哪個國家的人來說，都是極具吸引力的，而在中國對於八九四年的年輕人和學生來說，網吧簡直就是快樂源泉，但是也是老師家長中的眼中釘，肉中刺。相信很多人小時候可能都有過被家長從網吧裡揪出來的不甚美好的回憶。

微商到底多能吹牛！哈哈哈哈哈千萬別屏蔽，每天都是快樂源泉

雖然有的時候在朋友圈裡有很多微商不停的發朋友圈，讓大家覺得有些困擾和煩悶，有一種私生活被侵擾的感覺。但是不要忙著屏蔽他們，有的時候這些總是吹得天花亂墜的微商也能給人們帶來快樂的源泉。

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度

5月6日，2020珠峰高程測量登山隊伍出發儀式正式舉行，30多名隊員當日從海拔5200米的登山大本營向更高海拔出發，開啟珠峰衝頂測量。隊員們力爭抓住近日的天氣窗口，擇日登頂測量。如果成功，這將是我國專業測繪人員首次登頂珠峰測高。

“十大沂蒙工匠”齊玉祥：鋼花璀璨照亮青春之路

一支焊槍、一面防護罩，鋼花白晝繁星，在刺耳的噪聲中點亮四壁，焊工齊玉祥用13年的青春，打磨出了人生最璀璨的鋼花。2007年，齊玉祥畢業後進入山東華源鍋爐有限公司工作。剛進公司沒多久，由於工作需要，他被分配到了焊接崗位。

日本的丈母孃，賣萌發嗲也是蠻有技術的

國內這點估計是比不過了

消費水平最高的5座城市，北上廣深均在列，另一座你知道是哪嗎？

我們都知道在地大物博的中國，擁有很多城市，而它們之間的等級劃分也都是不同的，等級越高，往往消費就會越高，那麼說起國內消費水平最高的幾座城市，夥伴們都知道是哪裡嗎？接下來就讓小編帶大家去了解一下吧，看看有沒有你心中的那個。

德國愛他美怎麼樣？"斷貨王"愛他美值得買嗎？

哈哈。每次都會用iGepir 姐姐推薦來的，小寶從6個月混養喝起，現在快1歲半了，一直喝愛他美，不上火，購入量大，也算全心全意支持國際媽咪了

廣東有望合併的3座城市：合併成功後，將誕生一座千萬人口的城市

相信大家都知道，目前廣東是中國經濟實力最強的城市，哪怕是國內富有的浙江和江蘇，在經濟上也被廣東牢牢按住。你要知道廣東可是中國唯一有一線城市的省份，而且還是兩座。光靠這一點就能讓全國所有的省份羨慕，但比較遺憾的是，廣東的經濟發展似乎並不平衡。

國外奶粉怎麼樣？去哪買靠譜？線下實體店一定比網店安全嗎？

之前買的一直是國際媽咪的海外倉，但是疫情的緣故怕被吧斷糧所以在海外倉直郵了一箱又在自貿倉補了一箱，反正奶粉是消耗品，不擔心吃不完hhh。自貿倉物流速遞還是很快的，重慶保稅區發貨，4天到達。

四川潛力大的城市：還是重要的恐龍化石產地，被譽為“恐龍之鄉”

對此有的網友說:很多人可能不知道，其實我們自貢還有飛機制造，汽車製造，新能源汽車，及新能源電池研發與製造產業，雖然剛起步，但未來可期!

00後，吾輩當自強

當記者採訪她時，她說了一句讓人永生難忘的話:“其實我們並不是什麼逆行者，只不過是一些普通人在堅守自己的使命。

“我來！”

十天，我應該可以讀完一本《百年孤獨》，應該可以學會用吉他彈一首歌，還應該可以追完一部電視劇《慶餘年》。

東北唯一新一線城市：被譽為“東方魯爾”，經濟卻不如省內地級市

眾所周知這幾年東北的經濟，確實沒有以前增長得那麼快了。原因相信大家也很清楚，簡單點說就是南方更適合發展經濟。因此中國的經濟重心向南移動，所以在未來的幾年甚至幾十年裡面，中國南方的經濟都會比北方強。特別是廣東省跟浙江省的經濟水平，目前已經超越世界上大部分國家了。

人生有尺，做人有度

“救命錢”變“唐僧肉” 扶貧最後一公里處“蠅貪”頻現！

家境殷實的90後海歸女為何“沉迷”偷快遞？

青春洋溢，不加過分修飾，真實的少女感，你喜歡嗎？

4名網友預謀綁架一董事長，匯合後劇情突變……

江蘇的第二個“蘇州”，並非南京和無錫，而是這座低調的城市

說起蘇州的大名，相信是無人不知，無人不曉的，作為我國名副其實的最強地級市，蘇州近些年屬實為人們帶來了很大驚喜，甚至在經濟發展上也已經遠超省會南京，而今天小編要為大家帶來的則是江蘇境內的“第二個蘇州”，發展潛力巨大，並非南京和無錫，而是這座十分低調的城市。

一文搞懂PCA的原理與細節

一、PCA過程

二、PCA理論基礎

這不就是說明方差最大的方向就是按前K個特徵值對應的特徵向量映射的方向嗎。

相關文章:

公章被搶、被盜怎麼辦？誰有權聲明公章作廢？蓋章、簽字、摁手印哪個最有用？一文看懂有關“公章”那些事！

拜讀魏永寧老師《民歌不放棄——訪甘谷縣民歌手張金錄》一文

一文詳解2019年燃料電池汽車發展概況

一文講解清楚質量成本—全面質量成本管理培訓教材

【科普】一文帶你讀懂電價體系

一文速覽科技抗疫最新進展

科普｜你瞭解電價嗎？一文帶你讀懂電價體系

解析《鮑某明涉嫌性侵養女》一文，網友評論：現代版“揚州瘦馬”

一文讀懂985、211、華東五校、國防七子、兩財一貿

小楷節錄北溪字義一文

評“請外貿人不要賤賣中國的防疫物資”一文

圖文並茂，一文看懂：舊村改造可研如何做項目分析

乾貨︱一文讀懂戴爾科技流數據平臺

應修得——《飽含中國深情傳播中國大愛》一文題

我們應從“法官對公安辦案弱點評判”一文中得到什麼啟示

精益管理簡圖，一文讀懂精益落地路徑

03.06 精益管理簡圖，一文讀懂精益落地路徑

12.20 一文讀懂伺服運動控制器

一文讀懂——浪潮網絡智慧校園白皮書

危險源辨識及風險控制，一文讀懂

搞懂“dB”這個單位，到底有多難？

10.10 「中級實操」一文看懂：中級消防設施操作員實操考試

精益管理簡圖，一文讀懂精益落地路徑「精益管理」

評《于丹被北師大免職！跌落“神壇”……》一文

一文看懂電梯電氣電路圖，實用！

機器學習實戰項目- 利用 PCA 來簡化數據

中科大學報《費米實驗室繆子實驗概況》一文數據錯誤，請勘誤！

起徵點和免徵額該怎麼區分？

懟死鄒小櫻 02號作品｜回覆《陳綺貞的中年危機》一文

懟死鄒小櫻 03號作品｜回覆《陳綺貞的中年危機》一文

仟邦資都資訊：一文看懂：貸款利息、罰息與滯納金的區別

應收票據、應收賬款、其他應收款、預付賬款傻傻分不清？一文讀懂

變頻器知識大全，一文講解變頻器的安裝、外部線路、參數設定

「乾貨收藏」一文讀懂高低壓開關櫃製造與檢驗

故事選《金蟬》

《新華文摘》全文轉載任翔教授在我刊發表的《閱讀的力量》一文

互感器知識詳解，一文全搞定！

09.19 實用｜原來身份證後4位是這個意思，今天終於弄明白了！

增值稅稅控設備，這10個問題您清楚嗎？一文讀懂

最全的管理費用分錄，收藏轉發了！

一文「吃」透7月30日杭州網紅餐飲

如何看待7月25日《章文，停止你的侵害！！！！》一文？

因曾出席伊朗學術活動赴美參與SIGIR被拒，知名信息檢索教授怒寫「開放的科學」一文

駁某安《和這種男人交往，最可怕》一文

駁斥「押注面板業務 TCL陣痛過後能否重生？」一文

看到運營就一臉懵逼，還有救麼？

搞懂這五句話，你的城府和心機將變得深不可測！

乾貨｜一文讀懂編碼器（推薦收藏）

如何評價觀察者網《我問你答，真有許多女孩更喜歡老外》一文

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

出海奮鬥是有膽識後浪的更優選項

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

為珠峰“量身高”，為啥要人上去？

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

後疫情時代的五個營銷啟示

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

秦山核電應急行動水平優化項目招標公告

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

縣域社區團購，在平臺發展上有哪些優勢？

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

衡水：守護一湖碧水打造生態之城

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度