方便又好用的不平衡數據處理庫：imblearn 技术頭條網

方便又好用的不平衡數據處理庫：imblearn

2020-03-03 16:07:43 超愛學習

在學習機器學習的時候，我們遇到的數據集大多是類別平衡的，即數據集中各個類的樣本數都

很接近。但是實際問題中我們遇到的大部分數據集都是不均衡的。常用的處理方法如下：

對數據進行預處理，進行欠採樣或者過採樣等處理，使數據分佈較為均衡。
對算法進行改進，使其對少數類更加敏感。

python提供了就是一個處理不均衡數據的imblearn庫；其基於機器學習常用sklearn開發而

成，使用方法和sklearn庫十分相似,上手非常容易。imblearn庫對不平衡數據的主要處理方法主

要分為如下四種:

欠採樣
過採樣
聯合採樣
集成採樣

包含了各種常用的不平衡數據處理方法，例如：隨機過採樣，SMOTE及其變形方法，tom-

links欠採樣，編輯最近鄰欠採樣方法等等。

使用方法也很簡單，下述代碼就是使用隨機欠採樣方法平衡數據集，其他方法也類似。

<code>from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
# [(0, 64), (1, 64), (2, 64)]/<code>

上圖右一為原始數據集，右三為使用隨機欠採樣方法處理得到的數據集。

imblearn也提供了用戶手冊：3. Under-sampling。可以方便的查看其中內置的各種函數的

使用方法及其原理，同時每種算法的說明下面還提供了對應的論文地址。不過現在還沒有漢化

的用戶手冊。

最後安裝imblearn庫的方法也很簡單

<code>pip3 install imbalanced-learn/<code>

成功之後就能在python中導入imblearn包。

imblearn的源代碼地址如下，想深入研究的同學門可以clone下來自己深入研究：

https://github.com/scikit-learn-contrib/imbalanced-learngithub.com

分享到:

閱讀更多 超愛學習 的文章

關鍵字: Python 數據處理方便

方便又好用的不平衡數據處理庫：imblearn

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪