機器學習中欠採樣+ Logistic迴歸—不平衡的數據

2019-03-11 06:32:19 湃紳Python

為了打擊欺詐，我們必須首先檢測它。在發現欺詐行為時，您必須考慮：

如果你試圖找出所有的欺詐案件，其中一些案件將被錯誤的貼上標籤。這將導致無辜的人被指控犯有欺詐罪。
如果你試圖讓無辜的人免受指控，你就會把一些欺詐者誤認為是無辜的。在這種情況下，公司將損失更多的錢。

您的欺詐檢測算法不完善是不可避免的。

我們來看看這些數據。

它是貨幣交易的數據集。它給出了發送者的ID，接收者的ID，轉移的金額，以及交易前後的發送者和接收者的餘額。它還告訴我們哪些樣本是欺詐，哪些不是。它是生成的數據集。公司不希望你知道他們損失了多少錢，所以我們只能這麼做。

讓我們加載數據集並查看它的樣子：

import pandas as pd 
cols = ['step', 'type', 'amount', 'nameOrig', 'oldbalanceOrg', 'newbalanceOrig',
 'nameDest', 'oldbalanceDest', 'newbalanceDest', 'isFraud', 'isFlaggedFraud']
df = pd.read_csv('PS_20174392719_1491204439457_log.csv', header = 0, names = cols)
print('df.shape:', df.shape) 

df.head()

我們可以將表拆分成不同的集合。每組都具有所有特徵，但不是所有的觀察結果。

對於訓練集，我們可以使用isFraud列值來訓練我們的模型。在測試集上應用模型將為我們提供每個觀察的預測isFraud值。

一種簡單的方法可能是嘗試：

pd.value_counts(df.isFraud, normalize = True)

我們可以這樣做的另一種方法是使用isFraud列的模式：

import numpy as np
from sklearn.metrics import accuracy_score
majority_class = df.isFraud.mode()[0]
y_pred = np.full(shape = df.isFraud.shape, fill_value = majority_class)
accuracy_score(df.isFraud, y_pred)

這給我們的準確度得分值為0.998709，與value_counts（）相同 - 這是預期的。isFraud=0的值要比isFraud=1的值多得多。我們可以從上面的value_counts（）或下面輸出的分類報告中看到這一點：

from sklearn.metrics import classification_report
print(classification_report(df.isFraud, y_pred))

我們可以看到我們獲得了完美的召回率和精確度，但support值告訴我們另一件事情。我們有6354407個值支持isFraud = 0的情況，而8213個值支持isFraud = 1。

讓我們來看看ROC曲線的AUC評分，而不是準確性。該分數衡量我們的模型區分類的能力。

from sklearn.metrics import roc_auc_score
roc_auc_score(df.isFraud, y_pred)

0.5

這給了我們0.5的值。ROC AUC評分的值為1.0，是任何人使用任何模型都能得到的最佳值。為什麼我們得到0.5？這是因為我們可以完美地預測所有isFraud = 0的情況，但是沒有一個isFraud = 1的情況。所以在這兩個類中，我們只能預測1（這給我們的ROC AUC為0.5）。

為了為我們的模型提供公平的競爭環境，我們可以對欺詐交易進行過度抽樣，也可以對乾淨的交易進行抽樣。我們可以使用imbalance-learn庫來完成這項工作。

from imblearn.under_sampling import RandomUnderSampler
X = df.drop(['isFraud', 'type', 'nameOrig', 'nameDest'], axis = 1)
y = df.isFraud
rus = RandomUnderSampler(sampling_strategy=0.8)
X_res, y_res = rus.fit_resample(X, y)
print(X_res.shape, y_res.shape)
print(pd.value_counts(y_res))

我們將隨機下采樣的sampling_strategy設置為0.8。這只是為了說明我們這樣做時會發生什麼。它允許我們指定少數類樣本與多數類樣本的比率。它為我們提供了18479行數據，其值計數如下：

(18479, 7) (18479,)
0 10266
1 8213
dtype: int64

讓我們看看我們的表在重採樣和刪除這些列之後是什麼樣子的：

cols_numeric = ['step', 'amount', 'oldbalanceOrg', 'newbalanceOrig',
 'oldbalanceDest', 'newbalanceDest', 'isFlaggedFraud']
df_rus = pd.DataFrame(X_res, columns = cols_numeric)
df_rus.head()

現在讓我們將數據集分成3個部分 - 訓練，驗證和測試數據集。驗證數據集我們可以反覆使用不同的模型。一旦我們認為我們有最好的模型，我們將使用我們的測試數據集。

我們這樣做的原因是，我們的模型不僅應該用部分訓練數據集為我們提供良好的結果，而且還應該用我們從未見過的數據提供良好的結果。通過將測試數據集只使用一次，我們強迫自己不要過度使用驗證數據集。

trainize / valsize / testsize顯示了應保留用於訓練/驗證/測試的總數據集的分數。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
def train_validation_test_split(
 X, y, train_size=0.8, val_size=0.1, test_size=0.1, 
 random_state=None, shuffle=True):
 assert int(train_size + val_size + test_size + 1e-7) == 1
 X_train_val, X_test, y_train_val, y_test = train_test_split(
 X, y, test_size=test_size, random_state=random_state, shuffle=shuffle)
 X_train, X_val, y_train, y_val = train_test_split(
 X_train_val, y_train_val, test_size=val_size/(train_size+val_size), 
 random_state=random_state, shuffle=shuffle)
 return X_train, X_val, X_test, y_train, y_val, y_test
X_train, X_val, X_test, y_train, y_val, y_test = train_validation_test_split(
 X_res, y_res, train_size=0.8, val_size=0.1, test_size=0.1, random_state=1)
class_weight = {0: 4, 1: 5}
model = LogisticRegression(class_weight=class_weight)
model.fit(X_train, y_train)
y_pred = model.predict(X_val)
print(classification_report(y_val, y_pred))
print('accuracy', accuracy_score(y_val, y_pred))
roc_auc_score(y_val, y_pred)

注意class_weight參數。我們把它放在那裡是因為isFraud = 0的欠採樣行數為10000行，isFraud = 1的欠採樣行數為8000行。我們想要權衡它們以使它們平衡。這樣做的比例是4：5，這是這裡使用的類權重。

如果我們在沒有設置sampling_strategy = 0.8的情況下進行了欠採樣，那麼我們就會有平衡的類，並且不需要class_weight參數。如果我們得到一個新的數據集，它的參數稍微不平衡，我們可以使用帶有類權重的邏輯迴歸來平衡它，而不需要重新採樣。

現在我們得到了0.90的準確度 - 這是一個很好的分數。我們的ROC AUC評分也是0.9。

現在讓我們在測試數據集上嘗試我們的模型：

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print('Accuracy', accuracy_score(y_test, y_pred))
print('ROC AUC score:', roc_auc_score(y_test, y_pred))

再次得到0.90。看起來RandomUnderSampler做得很好。

我們必須將模型應用於完整的(未採樣的)數據集。我們接下來就這樣做：

y_pred = model.predict(X)
print(classification_report(y, y_pred))
print('Accuracy:', accuracy_score(y, y_pred))
print('ROC AUC score:', roc_auc_score(y, y_pred))

準確率和ROC AUC評分都非常好，isFraud = 0的精度/召回率/f1-score也是如此。問題是isFraud = 1的精度非常低，為0.01。由於f1-score是精確度和召回率的加權平均值，因此它也低至0.02。也許我們這裡沒有足夠的數據來處理Logistic迴歸。或者我們應該進行過採樣而不是欠採樣。

分享到:

閱讀更多 湃紳Python 的文章

關鍵字: 算法案件貼上標籤

三峽水利重組獲有條件通過整合區域電網推動電改

證券時報e公司訊，4月15日晚間，三峽水利發佈公告，根據證監會併購重組委會議審核結果，三峽水利此次重大資產重組事項獲得有條件通過，該公司股票自4月16日開市起復牌。

翠屏區統籌推進抗擊疫情期間招商不斷鏈

四川新聞網宜賓4月15日訊近期，翠屏區經濟合作和外事局為應對疫情帶來的相關影響，多措並舉統籌推進抗擊疫情期間招商不斷鏈。

年內淨息差恐整體收窄定存利率難現逆勢上漲

近期，監管層通過定向降準、降低負債端綜合成本等方式屢屢出拳，意在引導銀行加大對實體經濟的信貸支持，合理引導全社會融資成本下降。

39家基金公司業績曝光平均淨利潤4.17億

據證券時報記者統計，目前已經有39家基金公司去年經營情況浮出水面，去年平均淨利潤4.17億元。業內人士表示，伴隨著行業發展越來越成熟，行業龍頭的地位越來越穩固，越來越多的優秀人才湧進行業龍頭公司，這些公司也受到市場追捧，而小型基金公司面臨發展困局，彎道超車的難度越來越大。

四川印發《優質白酒產業2020年重點任務》：力爭釀酒專用糧基地建設超100萬畝

五糧液釀酒專用糧基地4月13日，記者從四川省經濟和信息化廳獲悉，根據2020年全省優質白酒產業振興發展推進會精神，近日，四川省印發《優質白酒產業2020年重點任務》。

全面提升和保障白酒質量四川省酒類產業計量測試中心落戶瀘州

4月9日上午，四川省酒類產業計量測試中心揭牌儀式在瀘州舉行，這是四川省首家通過驗收的產業計量測試中心。

今年瀘州加快推動47個酒類重點建設項目，力爭白酒營業收入突破1000億元

4月14日，瀘州日報記者從市酒業發展局獲悉，今年，我市將加快推動總投資1721.74億元的酒類重點建設項目47個。

我炒股遇到的大坑

這男的邊哭邊說，我哭的不是這個，我哭的是自己三四十歲的人，還在為一兩茶葉半斤小米這點小利折騰，感覺自己太失敗。

投資醫藥股的“錦囊妙計”

歡迎關注“紅星資本局”公眾號這段時間，醫藥股漲勢如虹，今日，在上證指數微跌的狀態下，居然有紅日藥業、以嶺藥業等17只醫藥股漲停，這段時間，醫藥股成為市場最大的熱點，接過了科技股的接力棒，蹭蹭地往上漲。

“我會一直在”！漢堡王中國稱與破產的新西蘭公司不是同一加盟商

4月15日，漢堡王官微在此事刷屏後，還發布了一條“I‘mfine thank you and you”內容，並借用網上流行語稱“小朋友你一定有很多問好”。

美年健康收到關注函，借殼上市以來首虧，還剩41億元商譽安全嗎

關注函披露，2019 年 10 月，監管部門曾在半年報問詢函中問詢美年健康未計提商譽減值準備的原因和合理性，該公司答覆稱“下半年整個行業環境仍然良好，公司預計能較好的完成 2019 年年初預算指標，實現承諾業績，未發現明顯的減值跡象”。

上汽集團營收利潤雙降董事長降薪近20%

《電鰻財經》趙超/文2018年下半年以來，汽車行業持續遇冷。全年國內市場銷售整車2590.5萬輛，同比下降8.0%;其中，乘用車銷售2154.9萬輛，同比下降9.1%，商用車銷售435.6萬輛，同比下降2.2%;新能源車市在購置補貼退坡後也出現階段性調整，全年銷售120.4萬輛，

孫正義跌下神壇！軟銀利潤暴跌99%，領投的2家公司均已破產

不僅公司利潤暴跌99%，連他領投的兩家公司都已經宣告破產。本來以為今年能夠好一點，誰成想又被領投的兩家公司給"坑"了，真是流年不利。

疫情期間盒馬速度不減，一個月內開出6家新店！

疫情下大量餐飲門店降速發展，盒馬鮮生卻是速度不減，一個月內連開6家新店。疫情期間，盒馬一直堅持線上線下同時營業，並積極拓展新的線下場景，盡全力滿足消費所需。

掏空式分紅！上市前百億分紅、財務數據打架，如今股價卻超260元

近期，伴隨著海底撈復工後漲價遭網友“討伐”的同時，海底撈張勇身為新加坡首富的寶座也被人奪走了，新晉的新加坡首富是A股創業板“一哥”、國內最大醫療器械龍頭邁瑞醫療的實控人、董事長李西廷。

這家大型券商APP遭吐槽，一家公司運行兩套交易系統！升級策略也遭質疑：熱衷添加邊緣功能

“一家券商兩個交易系統登錄，這叫什麼重組？”日前，有個人投資者在股吧發帖吐槽，自己在交易的過程中，發現申萬宏源軟件中包含原申萬和原宏源兩套交易系統，導致自己賬號被凍結並遭遇投資損失。

資本動物世界裡的「做空」簡史

渾水的創始人Block 在 The China Hustle 這部紀錄片中，聊到了為什麼把自己的公司起名為「渾水」，水至清，則無魚，「中國人用『渾水摸魚』比喻利用混沌不明的局勢賺錢。

原公司法定代表人拒不配合工商變更，拒不返還公司公章，怎麼辦？

私信或評論區諮詢法定代表人基於法律的規定代表著公司。在公司權利能力和行為能力範圍內，原則上可以在公司一切對外事務中代表著公司。

淨利潤環比暴增3659%！預盈預增概念，還有100%上漲空間？

工程承包及建築裝飾;建築裝飾材料、鋼材、木材、機電設備、黃金及礦產品銷售;房屋租賃;在法律、法規規定的範圍內對外投資。二.熱點個股解讀：600766業績增長：年報公佈淨利潤環比3659%.概念題材：貴金屬黃金概念殼資源融資融券山東板塊經營範圍房地產開發及經營、物業管理

會計要記住：這樣籌劃稅收萬萬不可！看看這10種方式

方式一：公司為了讓股東少交甚至不交分紅的20%的個稅，讓股東從公司以借款名義拿走鉅額的分紅，會計掛賬在“其他應收款-自然人股東”中。方式二：公司為了少繳25%的企業所得稅，把取得的收入人為掛賬在“預收賬款”科目中，隱匿營業收入。

棉花周度策略分析

國內下跌主因是前期漲幅過大，國內外棉花差價不斷擴大，即時國內有紡織訂單不斷增加的事實，但隨著棉花價格上漲，採購開始謹慎，新疆籽棉收穫接近尾聲，棉花上漲驅動籽棉收購價格.上漲的螺旋上漲難以持續，並且ICE 棉花漲幅一旦跟不上國內內漲幅，壓力自然產生。

打造航母券商中信和中信建投合並或引爆行情

【打造航母券商中信和中信建投合並或引爆行情】今天市場的最大亮點就是午後券商股的發力，市場的人氣還是要靠科技和證券來打，早盤科技股有表現，但是經過這兩二個月科技股的回落，大家對於科技股的追捧熱情早就沒有了，甚至很多人開始不相信科技股的未來了，所以科技股的上漲，對人氣的貢獻度並不大

揭祕——主力資金怎樣一股力量？數據告訴你這股力量有多強大

4月14日，主力資金淨流入131.45億元，當日上證指數上漲1.59%，創業板指大漲3.24%，。與之相對的是，4月10日，主力資金淨流出507.72億元，當日上證指數下跌1.04%，創業板指下跌2.37%。

A股修復行情還沒結束！股民注意，別“漏”了這2個積極信號

昨天晚上美股大幅上漲，但我們今天低開低走，下午大盤直接跳水，今天一跌，可能很多朋友又在擔心，行情是不是要結束了？

漲價概念還是市場的方向

可以交易行業板塊醫療保健、農林牧漁、建材、、食品飲料、商業連鎖、醫藥、工程機械、紡織服飾、造紙、釀酒市場交易環境上證指數交易環境 ☆☆☆ 壓力位2828支撐位 2756創業板指數交易環境 ☆☆☆壓力位1967 支撐位 1892 ETF基金遊戲代碼510500 500ETF

漲停板學深度教程 11：關於市場資金量的大局觀

理解資金關係是市場根本，抓住資金這個根本，才能洞悉市場的一切行為和漲跌關係炒股最核心和根本的分析就是資金。

廣州，太平洋電腦城，你為什麼不早點轉型

隨著11月15日廣州市天河區農村集體資產交易中心公告一則中標公示，太平洋電腦城A場也宣告易主。這是繼今年2月28日廣州太平洋數碼廣場B場宣告結業後，被稱為“太平洋電腦城”的A場也即將退場。

15熱點追蹤

附最近幾日暴跌妖股，最近幾日暴漲妖股。暴跌妖股再次提醒，妖股技巧在倉位管理，不是技術也不是心態的博弈。

你領到消費券了嗎？即日起至6月30日遂寧擬分期投放1億餘元消費券

日前，記者從市商務局獲悉為統籌做好全面奪取疫情防控和經濟社會發展雙勝利遂寧市擬分期投放10095萬元消費券助推經濟復甦市民得實惠政府企業送“禮包”“我們三個閨蜜逛街，到飯點了就直接在萬達三樓吃了點東西，總共費用是130元，我們在網上參加了萬達的搶券活動，搶到了50元的餐飲券，加上

小米集團戰略入股TCL,強強聯合提升大家電供應鏈能力？

宣佈小米集團戰略入股TCL集團。TCL表示，此次入股有利於加深小米和TCL兩個產業集團的合作深度，構建更為緊密的戰略合作伙伴關係。

全球富豪榜出爐：中國豬肉生產商佔兩席；馬化騰馬雲並列中國首富

中國網科技4月7日訊昨日，胡潤研究院發佈《疫情兩個月後全球企業家財富變化特別報告》（以下簡稱《報告》）顯示，全球百強企業家近兩月財富損失2.6萬億人民幣，即13%，蒸發了過去兩年半所創造的財富；前十名損失1.4萬億人民幣。

戴德樑行：短期承壓商辦市場回暖在望

實體零售遭遇遏制轉型升級助力市場煥發生機2020年一季度，北京零售市場優質零售物業總存量為1 219萬平方米，佔比達86.3%。 412萬平方米，其中購物中心存量達1

穗一季度吸引投資額近1.4萬億元

4月14日，在廣州第77場疫情防控新聞發佈會上，廣州市商務局副局長吳尚偉公佈了最新的招商引資成果：廣州一季度簽約、動工、投產項目超800個，涉及投資總額13899.64億元，預計達產年產值/營收10902.72億元。

一季度廣州簽約動工投產億元以上產業項目超800個

記者14日在廣州市政府新聞辦舉行的發佈會上獲悉，一季度廣州簽約、動工、投產億元以上產業項目超800個，涉及投資總額13899.64億元。

4月15日9:45，央行宣佈降息，拆叔速評

早上9點45分，中國人民銀行宣佈1000億中期借貸便利MLF操作，並下調中標利率20個基點至2.95%，此前為3.15%。此前在3月31日，央行已經率先下調逆回購利率20個基點。

葉檀：中國發達城市都應該來抄抄上海的作業

文/葉檀☞財經女俠 | 毒舌善心三年之後，上海是怎麼樣的，長三角是怎麼樣的？三年之後，哪座城市年輕人多，哪座城市房價高，這樣的比較毫無意義。一切取決於，科技的發展。在上海的特斯拉會像當初富士康在東莞一樣，需要百萬名員工嗎？不要。根據特斯拉和臨港的規劃，最多也就吸引1萬多人。上海特

芒格：“所有聰明的投資都是價值投資”

圖/視覺中國《財經》特約作者傅喻 | 文發自美國奧馬哈2018年4月，經過半年思考，我給沃倫·巴菲特的老搭檔、伯克希爾哈撒韋公司董事會副主席查理·芒格寫了一封信，希望94歲高齡的他能夠再度接受我專訪。早在三年前，我曾經和芒格的助理商量過這個想法，但他助理認為，採訪拍攝有諸多不便

三強兩促力奪半年紅｜鰲江落實“一項目一專班”制度，“保姆式”服務助力項目落地

日前，記者從鰲江鎮獲悉，該鎮通過實行“一項目一專班”工作制度，為項目提供“保姆式”服務，完成了親子主題教育商業綜合體、濱江高等級酒店等2個項目的土地掛牌所有前期準備工作，助力項目加快落地。

朱是西會見中國長城科技集團股份有限公司河南分公司趙偉建一行

駐馬店廣電融媒體消息：4月15日上午，市委副書記、市長朱是西親切會見了中國長城科技集團股份有限公司河南分公司執行董事、總經理趙偉建一行，雙方圍繞加強務實合作、推進項目落地駐馬店進行了深入交談。

興嘉房開司舉辦“每週一課”，凝心聚力謀發展

4月10日下午，樂山城投集團下屬興嘉房開司舉辦了第一期“每週一課”學習活動。尤其是下一步小地塊的項目開發，更讓興嘉房開司的年輕人興奮不已，積極獻言獻策，希望能通過這些項目的落地，讓興嘉房開司真正實現鳳凰涅槃。

@所有人｜今晚21:20 e修鴿邀您觀看天津衛視《創業中國人》

從白手起家到獨角獸企業聯合創始人，從“獨自打拼”到“帶著團隊拼殺商場”，在瞬息萬變的商業戰場中，總有一些人能夠破思想之“繭”，乘改革之“風”，呈飛躍之“勢”，用自己的節奏，從零開始把e修鴿旗幟插遍全國。他就是e修鴿聯合創始人——胡海威。一生一世只做一件事，一生都會致力於做這樣的事

曹德旺提示: 疫情過後可能會迎來全球產業鏈的去中國化

在採訪過程中，新京報向曹德旺提出了多個問題。問題一：疫情暴露了當前全球化產業鏈存在的風險，待疫情退去，是否會造成全球產業鏈的改變。

【財經下午茶】申萬宏源APP運行兩套交易系統致股民賬號被凍結

申萬宏源APP運行兩套交易系統致股民賬號被凍結日前，有個人投資者在股吧發帖稱，自己在交易的過程中，發現申萬宏源軟件中包含原申萬和原宏源兩套交易系統，導致自己賬號被凍結並遭遇投資損失。

千城：您的企業值多少錢？

這是一個關於企業價值的話題，說到這裡，一大堆專業術語從眼前飄過：MM理論、預期自由現金流現值、折現率、PE、PB、ROE…

千城：教你認識財務槓桿-成也蕭何敗蕭何

度娘會告訴你財務槓桿的定義：財務槓桿又叫籌資槓桿或融資槓桿，它是指由於固定債務利息和優先股股利的存在而導致普通股每股利潤變動幅度大於息稅前利潤變動幅度的現象。

【數據流】疫情中，你最關心什麼？10大擔憂，中國對比國外

No.1家人身體健康My family’s health不出所料，多數人都是最關心自己家人的健康，掙錢不就是為了家人可以健康快樂麼？

漯河市科協邀請蘇州客商考察我市醫療用品企業

4月15日上午，在漯河市順康醫療用品公司負責人張紅喜的帶領下，蘇州客商一行深入企業生產車間、物料車間及倉庫進行實地參觀，瞭解企業生產經營狀況。

被疫情激活的人工智能，如何逐浪新基建

撰文/李季編輯/ 陳鄧新4月7日，南昌三中義坊學校門口擺放了一臺人臉識別測溫機，復課的初三學生不用摘下口罩，就可以識別在校師生的身份及測量體溫。

疫情過後，中國3月風投規模回升，是2月份的6倍多

據英國《金融時報》網站4月14日報道，根據《亞洲創業投資期刊》數據，中國初創企業和科技企業在3月籌集了超過25億美元，是2月4.1億美元的六倍多，創下紀錄。

IMF：自上世紀30年代最嚴重經濟大蕭條！未來2年損失9萬億美元

2020年4月14日4月14日，國際貨幣基金組織在線上春季年會期間發佈了《世界經濟展望》，預測2020年全球增長率降至-3%，與1月的預測相比下調幅度高達6.3個百分點。