機器學習——詳解KD-Tree來龍去脈

2020-04-08 14:21:00 承志的算法課堂

今天是機器學習的第15篇文章，之前的文章當中講了Kmeans的相關優化，還講了大名鼎鼎的EM算法。有些小夥伴表示喜歡看這些硬核的，於是今天上點硬菜，我們來看一個機器學習領域經常用到的數據結構——

KD-Tree。

從線段樹到KD樹

在講KD樹之前，我們先來了解一下線段樹的概念。線段樹在機器學習領域當中不太常見，作為高性能維護的數據結構，經常出現在各種算法比賽當中。線段樹的本質是一棵維護一段區間的平衡二叉樹。

比如下圖就是一個經典的線段樹：

從下圖當中我們不難看出來，這棵線段樹維護的是一個區間內的最大值。比如樹根是8，維護的是整個區間的最大值，每一箇中間節點的值都是以它為樹根的子樹中所有元素的最大值。

通過線段樹，我們可以在 O(logN) 的時間內計算出某一個連續區間的最大值。比如我們來看下圖：

當我們要求被框起來的區間中的最大值，我們只需要找到能夠覆蓋這個區間的中間節點就行。我們可以發現被紅框框起來的兩個節點的子樹剛好覆蓋這個區間，於是整個區間的最大值，就是這兩個元素的最大值。這樣，我們就把一個需要 O(n) 查找的問題降低成了 O(logN)，不但如此，我們也可以做到 O(logN) 複雜度內的更新，也就是說我們不但可以快速查詢，還可以更新線段當中的元素。

當然線段樹的應用非常廣泛，也有許多種變體，這裡我們不過多深入，感興趣的同學可以期待一下週三的算法與數據結構專題，在之後的文章當中會為大家分享線段樹的相關內容。在這裡，我們只需要有一個大概的印象，線段樹究竟完成的是什麼樣的事情即可。

線段樹維護的是一個線段，也就是區間內的元素，也就是說維護的是一個一維的序列。如果我們將數據的維度擴充一下，擴充到多維呢？

是的，你沒有猜錯，從某種程度上來說，我們可以把KD-Tree看成是線段樹拓展到多維空間當中的情況。

KD-Tree定義

我們來看一下KD-Tree的具體定義，這裡的K指的是K維空間，D自然就是dimension，也就是維度，也就是說KD-Tree就是K維度樹的意思。

在我們構建線段樹的時候，其實是一個遞歸的建樹過程，我們每次把當前的線段一分為二，然後用分成兩半的數據分別構建左右子樹。我們可以簡單寫一下偽代碼，來更直觀地感受一下：

我們來看一個二維的例子，在一個二維的平面當中分佈著若干個點。

我們首先選擇一個維度將這些數據一分為二，比如我們選擇x軸。我們對所有數據按照x軸的值排序，選出其中的中點進行一分為二。

在這根線左右兩側的點被分成了兩棵子樹，對於這兩個部分的數據來說，我們更換一個維度，也就是選擇y軸進行劃分。一樣，我們先排序，然後找到中間的點，再次一分為二。我們可以得到：

我們重複上述過程，一直將點分到不能分為止，為了能更好地看清楚，我們對所有數據標上座標（並不精確）。

如果我們把空間看成是廣義的區間，那麼它和線段樹的原理是一樣的。最後得到的也是一棵完美二叉樹，因為我們每次都選擇了數據集的中點進行劃分，可以保證從樹根到葉子節點的長度不會超過O(logN)。

我們代入上面的座標之後，我們最終得到的KD-Tree大概是下面這個樣子：

KD-Tree 建樹

在建樹的過程當中，我們的樹深每往下延伸一層，我們就會換一個維度作為衡量標準。原因也很簡單，因為我們希望這棵樹對於這K維空間都有很好的表達能力，方便我們根據不同的維度快速查詢。

在一些實現當中，我們會計算每一個維度的方差，然後選擇方差較大的維度進行切分。這樣做自然是因為方差較大的維度說明數據相對分散，切分之後可以把數據區分得更加明顯。但我個人覺得這樣做意義不是很大，畢竟計算方差也是一筆開銷。所以這裡我們選擇了最樸素的方法——輪流選擇。

也就是說我們從樹根開始，選擇第0維作為排序和切分數據的依據，然後到了樹深為1的這一層，我們選擇第一維，樹深為2的這一層，我們選擇第二維，以此類推。當樹深超過了K的時候，我們就對樹深取模。

明確了這一點之後，我們就可以來寫KD-Tree的建樹代碼了，和上面二叉樹的代碼非常相似，只不過多了維度的處理而已。

這樣我們就建好了樹，但是在後序的查詢當中我們需要訪問節點的父節點，所以我們需要為每一個節點都賦值指向父親節點的指針。這個值我們可以寫在建樹的代碼裡，但是會稍稍複雜一些，所以我把它單獨拆分了出來，作為一個獨立的函數來給每一個節點賦值。對於根節點來說，由於它沒有父親節點，所以賦值為None。

我們來看下set_father當中的內容，其實很簡單，就是一個樹的遞歸遍歷：

快速批量查詢

KD-Tree建樹建好了肯定是要來用的，它最大的用處是可以在單次查詢中獲得距離樣本最近的若干個樣本。在分散均勻的數據集當中，我們可以在 O(KlogN) 的時間內完成查詢，但是對於特殊情況可能會長一些，但是也比我們通過樸素的方法查詢要快得多。

我們很容易發現，KD-Tree一個廣泛的使用場景是用來優化KNN算法。我們在之前介紹KNN算法的文章當中曾經提到過，KNN算法在預測的時候需要遍歷整個數據集，然後計算數據集中每一個樣本與當前樣本的距離，選出最近的K個來，這需要大量的開銷。而使用KD-Tree，我們可以在一次查詢當中直接查找到K個最近的樣本，因此大大提升KNN算法的效率。

那麼，這個查詢操作又是怎麼實現的呢？

這個查詢基於遞歸實現，因此對於遞歸不熟悉的小夥伴，可能初看會比較困難，可以先閱讀一下之前關於遞歸的文章。

首先我們先通過遞歸查找到KD-Tree上的葉子節點，也就是找到樣本所在的子空間。這個查找應該非常容易，本質上來說我們就是將當前樣本不停地與分割線進行比較，看看是在分割線的左側還是右側。和二叉搜索樹的元素查找是一樣的：

我們找到了葉子節點，其實代表樣本空間當中的一小塊空間。

我們來實際走一下整個流程，假設我們要查找3個點。首先，我們會創建一個候選集，用來存儲答案。當我們找到葉子節點之後，這個區域當中只有一個點，我們把它加入候選集。

在上圖當中紫色的x代表我們查找的樣本，我們查找到的葉子節點之後，在兩種情況下我們會把當前點加入候選集。第一種情況是候選集還有空餘，也就是還沒有滿K個，這裡的K是我們查詢的數量，也就是3。第二種情況是當前點到樣本的距離小於候選集中最大的一個，那麼我們需要更新候選集。

這個點被我們訪問過之後，我們會打上標記，表示這個點已經訪問過了。這個時候我們需要判斷，整棵樹當中的搜索是否已經結束，如果當前節點已經是根節點了，說明我們的遍歷結束了，那麼返回候選集，否則說明還沒有，我們需要繼續搜索。上圖當中我們用綠色表示樣本被放入了候選集當中，黃色表示已經訪問過。

由於我們的搜索還沒有結束，所以需要繼續搜索。繼續搜索需要判斷

樣本和當前分割線的距離來判斷和分割線的另一側有沒有可能存在答案。由於葉子節點沒有另一側，所以作罷，我們往上移動一個，跳轉到它的父親節點。

我們計算距離並且查看候選集，此時候選集未滿，我們加入候選集，標記為已經訪問過。它雖然存在分割線，但是也沒有另一側的節點，所以也跳過。

我們再往上，遍歷到它的父親節點，我們執行同樣的判斷，發現此時候選集還有空餘，於是將它繼續加入答案：

但是當我們判斷到分割線距離的時候，我們發現這一次樣本到分割線的舉例要比之前候選集當中的最大距離要小，所以分割線的另一側很有可能存在答案：

這裡的d1是樣本到分割線的距離，d2是樣本到候選集當中最遠點的距離。由於到分割線更近，所以分割線的另一側很有可能也存在答案，這個時候我們需要搜索分割線另一側的子樹，一直搜索到葉子節點。

我們找到了葉子節點，計算距離，發現此時候選集已經滿了，並且它的距離大於候選集當中任何一個答案，所以不能構成新的答案。於是我們只是標記它已經訪問過，並不會加入候選集。同樣，我們繼續往上遍歷，到它的父節點：

比較之後發現，data到它的距離小於候選集當中最大的那個

，於是我們更新候選集，去掉距離大於它的答案。然後我們重複上述的過程，直到根節點為止。

由於後面沒有更近的點，所以候選集一直沒有更新，最後上圖當中的三個打了綠標的點就是答案。

我們把上面的流程整理一下，就得到了遞歸函數當中的邏輯，我們用Python寫出來其實已經和代碼差不多了：

最終寫成的代碼和上面這段並沒有太多的差別，在得到距離之後和答案當中的最大距離進行比較的地方，我們使用了優先隊列。其他地方几乎都是一樣的，我也貼上來給大家感受一下：

這段邏輯大家應該都能看明白，但是有一個疑問是，我們為什麼不在node裡面加一個visited的字段，而是通過傳入一個set來維護訪問過的節點呢？這個邏輯只看代碼是很難想清楚的，必須要親手實驗才會理解。如果在node當中加入一個字段當然也是可以的，如果這樣做的話，在我們執行查找之後必須得手動再執行一次遞歸，將樹上所有節點的node全部置為false，否則下一次查詢的時候，會有一些節點已經被標記成了True，顯然會影響結果。查詢之後將這些值手動還原會帶來開銷，所以才轉換思路使用set來進行訪問判斷。

這裡的iter_down函數和我們上面貼的查找葉子節點的函數是一樣的，就是查找當前子樹的葉子節點。如果我沒記錯的話，這也是我們文章當中第一次出現在遞歸當中調用另一個遞歸的情況。對於初學者而言，這在理解上可能會相對困難一些。我個人建議可以親自動手試一試在紙上畫一個kd-tree進行手動模擬試一試，自然就能知道其中的運行邏輯了。這也是一個思考和學習非常好用的方法。

優化

當我們理解了整個kd-tree的建樹和查找的邏輯之後，我們來考慮一下優化。

這段代碼看下來初步可以找到兩個可以優化的地方，第一個地方是我們建樹的時候。我們每次遞歸的時候由於要將數據一分為二，我們是使用了排序的方法來實現的，而每次排序都是 O(NlogN) 的複雜度，這其實是不低的。其實仔細想想，我們沒有必要排序，我們只需要選出根據某個軸排序前n/2個數。也就是說這是一個選擇問題，並不是排序問題，所以可以想到我們可以利用之前講過的快速選擇的方法來優化。使用快速選擇，我們可以在 O(N) 的時間內完成數據的拆分。

另一個地方是我們在查詢K個鄰近點的時候，我們使用了

優先隊列維護的候選集當中的答案，方便我們對答案進行更新。同樣，優先隊列獲取topK也是 O(NlogN) 的複雜度。這裡也是可以優化的，比較好的思路是使用堆來代替。可以做到O(logN)的插入和彈出，相比於heapq的nsmallest方法要效率更高。

總結

到這裡，我們關於KD-tree的原理部分已經差不多講完了，我們有了建樹和查詢功能之後就可以用在KNN算法上進行優化了。但是我們現在的KD-tree只支持建樹以及查詢，如果我們想要插入或者刪除集合當中的數據應該怎麼辦？難道每次修改都重新建樹嗎？這顯然不行，但是插入和刪除節點都會引起樹結構的變化很有可能導致樹不再平衡，這個時候我們應該怎麼辦呢？

我們先賣個關子，相關的內容將會放到下一篇文章當中，感興趣的同學不要錯過哦。

今天的文章就是這些，如果覺得有所收穫，請順手點個關注或者轉發吧，你們的舉手之勞對我來說很重要。

分享到:

閱讀更多 承志的算法課堂 的文章

關鍵字: 算法數據結構機器

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

npj：機器學習—神經網絡方法計算多組分晶體的形成能

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"