机器学习中欠采样+ Logistic回归—不平衡的数据

2019-03-11 06:32:19 湃紳Python

为了打击欺诈，我们必须首先检测它。在发现欺诈行为时，您必须考虑：

如果你试图找出所有的欺诈案件，其中一些案件将被错误的贴上标签。这将导致无辜的人被指控犯有欺诈罪。
如果你试图让无辜的人免受指控，你就会把一些欺诈者误认为是无辜的。在这种情况下，公司将损失更多的钱。

您的欺诈检测算法不完善是不可避免的。

我们来看看这些数据。

它是货币交易的数据集。它给出了发送者的ID，接收者的ID，转移的金额，以及交易前后的发送者和接收者的余额。它还告诉我们哪些样本是欺诈，哪些不是。它是生成的数据集。公司不希望你知道他们损失了多少钱，所以我们只能这么做。

让我们加载数据集并查看它的样子：

import pandas as pd 
cols = ['step', 'type', 'amount', 'nameOrig', 'oldbalanceOrg', 'newbalanceOrig',
 'nameDest', 'oldbalanceDest', 'newbalanceDest', 'isFraud', 'isFlaggedFraud']
df = pd.read_csv('PS_20174392719_1491204439457_log.csv', header = 0, names = cols)
print('df.shape:', df.shape) 

df.head()

我们可以将表拆分成不同的集合。每组都具有所有特征，但不是所有的观察结果。

对于训练集，我们可以使用isFraud列值来训练我们的模型。在测试集上应用模型将为我们提供每个观察的预测isFraud值。

一种简单的方法可能是尝试：

pd.value_counts(df.isFraud, normalize = True)

我们可以这样做的另一种方法是使用isFraud列的模式：

import numpy as np
from sklearn.metrics import accuracy_score
majority_class = df.isFraud.mode()[0]
y_pred = np.full(shape = df.isFraud.shape, fill_value = majority_class)
accuracy_score(df.isFraud, y_pred)

这给我们的准确度得分值为0.998709，与value_counts（）相同 - 这是预期的。isFraud=0的值要比isFraud=1的值多得多。我们可以从上面的value_counts（）或下面输出的分类报告中看到这一点：

from sklearn.metrics import classification_report
print(classification_report(df.isFraud, y_pred))

我们可以看到我们获得了完美的召回率和精确度，但support值告诉我们另一件事情。我们有6354407个值支持isFraud = 0的情况，而8213个值支持isFraud = 1。

让我们来看看ROC曲线的AUC评分，而不是准确性。该分数衡量我们的模型区分类的能力。

from sklearn.metrics import roc_auc_score
roc_auc_score(df.isFraud, y_pred)

0.5

这给了我们0.5的值。ROC AUC评分的值为1.0，是任何人使用任何模型都能得到的最佳值。为什么我们得到0.5？这是因为我们可以完美地预测所有isFraud = 0的情况，但是没有一个isFraud = 1的情况。所以在这两个类中，我们只能预测1（这给我们的ROC AUC为0.5）。

为了为我们的模型提供公平的竞争环境，我们可以对欺诈交易进行过度抽样，也可以对干净的交易进行抽样。我们可以使用imbalance-learn库来完成这项工作。

from imblearn.under_sampling import RandomUnderSampler
X = df.drop(['isFraud', 'type', 'nameOrig', 'nameDest'], axis = 1)
y = df.isFraud
rus = RandomUnderSampler(sampling_strategy=0.8)
X_res, y_res = rus.fit_resample(X, y)
print(X_res.shape, y_res.shape)
print(pd.value_counts(y_res))

我们将随机下采样的sampling_strategy设置为0.8。这只是为了说明我们这样做时会发生什么。它允许我们指定少数类样本与多数类样本的比率。它为我们提供了18479行数据，其值计数如下：

(18479, 7) (18479,)
0 10266
1 8213
dtype: int64

让我们看看我们的表在重采样和删除这些列之后是什么样子的：

cols_numeric = ['step', 'amount', 'oldbalanceOrg', 'newbalanceOrig',
 'oldbalanceDest', 'newbalanceDest', 'isFlaggedFraud']
df_rus = pd.DataFrame(X_res, columns = cols_numeric)
df_rus.head()

现在让我们将数据集分成3个部分 - 训练，验证和测试数据集。验证数据集我们可以反复使用不同的模型。一旦我们认为我们有最好的模型，我们将使用我们的测试数据集。

我们这样做的原因是，我们的模型不仅应该用部分训练数据集为我们提供良好的结果，而且还应该用我们从未见过的数据提供良好的结果。通过将测试数据集只使用一次，我们强迫自己不要过度使用验证数据集。

trainize / valsize / testsize显示了应保留用于训练/验证/测试的总数据集的分数。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
def train_validation_test_split(
 X, y, train_size=0.8, val_size=0.1, test_size=0.1, 
 random_state=None, shuffle=True):
 assert int(train_size + val_size + test_size + 1e-7) == 1
 X_train_val, X_test, y_train_val, y_test = train_test_split(
 X, y, test_size=test_size, random_state=random_state, shuffle=shuffle)
 X_train, X_val, y_train, y_val = train_test_split(
 X_train_val, y_train_val, test_size=val_size/(train_size+val_size), 
 random_state=random_state, shuffle=shuffle)
 return X_train, X_val, X_test, y_train, y_val, y_test
X_train, X_val, X_test, y_train, y_val, y_test = train_validation_test_split(
 X_res, y_res, train_size=0.8, val_size=0.1, test_size=0.1, random_state=1)
class_weight = {0: 4, 1: 5}
model = LogisticRegression(class_weight=class_weight)
model.fit(X_train, y_train)
y_pred = model.predict(X_val)
print(classification_report(y_val, y_pred))
print('accuracy', accuracy_score(y_val, y_pred))
roc_auc_score(y_val, y_pred)

注意class_weight参数。我们把它放在那里是因为isFraud = 0的欠采样行数为10000行，isFraud = 1的欠采样行数为8000行。我们想要权衡它们以使它们平衡。这样做的比例是4：5，这是这里使用的类权重。

如果我们在没有设置sampling_strategy = 0.8的情况下进行了欠采样，那么我们就会有平衡的类，并且不需要class_weight参数。如果我们得到一个新的数据集，它的参数稍微不平衡，我们可以使用带有类权重的逻辑回归来平衡它，而不需要重新采样。

现在我们得到了0.90的准确度 - 这是一个很好的分数。我们的ROC AUC评分也是0.9。

现在让我们在测试数据集上尝试我们的模型：

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print('Accuracy', accuracy_score(y_test, y_pred))
print('ROC AUC score:', roc_auc_score(y_test, y_pred))

再次得到0.90。看起来RandomUnderSampler做得很好。

我们必须将模型应用于完整的(未采样的)数据集。我们接下来就这样做：

y_pred = model.predict(X)
print(classification_report(y, y_pred))
print('Accuracy:', accuracy_score(y, y_pred))
print('ROC AUC score:', roc_auc_score(y, y_pred))

准确率和ROC AUC评分都非常好，isFraud = 0的精度/召回率/f1-score也是如此。问题是isFraud = 1的精度非常低，为0.01。由于f1-score是精确度和召回率的加权平均值，因此它也低至0.02。也许我们这里没有足够的数据来处理Logistic回归。或者我们应该进行过采样而不是欠采样。

分享到:

閱讀更多 湃紳Python 的文章

關鍵字: 机器学习算法案件

三峡水利重组获有条件通过整合区域电网推动电改

证券时报e公司讯，4月15日晚间，三峡水利发布公告，根据证监会并购重组委会议审核结果，三峡水利此次重大资产重组事项获得有条件通过，该公司股票自4月16日开市起复牌。

翠屏区统筹推进抗击疫情期间招商不断链

四川新闻网宜宾4月15日讯近期，翠屏区经济合作和外事局为应对疫情带来的相关影响，多措并举统筹推进抗击疫情期间招商不断链。

年内净息差恐整体收窄定存利率难现逆势上涨

近期，监管层通过定向降准、降低负债端综合成本等方式屡屡出拳，意在引导银行加大对实体经济的信贷支持，合理引导全社会融资成本下降。

39家基金公司业绩曝光平均净利润4.17亿

据证券时报记者统计，目前已经有39家基金公司去年经营情况浮出水面，去年平均净利润4.17亿元。业内人士表示，伴随着行业发展越来越成熟，行业龙头的地位越来越稳固，越来越多的优秀人才涌进行业龙头公司，这些公司也受到市场追捧，而小型基金公司面临发展困局，弯道超车的难度越来越大。

四川印发《优质白酒产业2020年重点任务》：力争酿酒专用粮基地建设超100万亩

五粮液酿酒专用粮基地4月13日，记者从四川省经济和信息化厅获悉，根据2020年全省优质白酒产业振兴发展推进会精神，近日，四川省印发《优质白酒产业2020年重点任务》。

全面提升和保障白酒质量四川省酒类产业计量测试中心落户泸州

4月9日上午，四川省酒类产业计量测试中心揭牌仪式在泸州举行，这是四川省首家通过验收的产业计量测试中心。

今年泸州加快推动47个酒类重点建设项目，力争白酒营业收入突破1000亿元

4月14日，泸州日报记者从市酒业发展局获悉，今年，我市将加快推动总投资1721.74亿元的酒类重点建设项目47个。

我炒股遇到的大坑

这男的边哭边说，我哭的不是这个，我哭的是自己三四十岁的人，还在为一两茶叶半斤小米这点小利折腾，感觉自己太失败。

投资医药股的“锦囊妙计”

欢迎关注“红星资本局”公众号这段时间，医药股涨势如虹，今日，在上证指数微跌的状态下，居然有红日药业、以岭药业等17只医药股涨停，这段时间，医药股成为市场最大的热点，接过了科技股的接力棒，蹭蹭地往上涨。

“我会一直在”！汉堡王中国称与破产的新西兰公司不是同一加盟商

4月15日，汉堡王官微在此事刷屏后，还发布了一条“I‘mfine thank you and you”内容，并借用网上流行语称“小朋友你一定有很多问好”。

美年健康收到关注函，借壳上市以来首亏，还剩41亿元商誉安全吗

关注函披露，2019 年 10 月，监管部门曾在半年报问询函中问询美年健康未计提商誉减值准备的原因和合理性，该公司答复称“下半年整个行业环境仍然良好，公司预计能较好的完成 2019 年年初预算指标，实现承诺业绩，未发现明显的减值迹象”。

上汽集团营收利润双降董事长降薪近20%

《电鳗财经》赵超/文2018年下半年以来，汽车行业持续遇冷。全年国内市场销售整车2590.5万辆，同比下降8.0%;其中，乘用车销售2154.9万辆，同比下降9.1%，商用车销售435.6万辆，同比下降2.2%;新能源车市在购置补贴退坡后也出现阶段性调整，全年销售120.4万辆，

孙正义跌下神坛！软银利润暴跌99%，领投的2家公司均已破产

不仅公司利润暴跌99%，连他领投的两家公司都已经宣告破产。本来以为今年能够好一点，谁成想又被领投的两家公司给"坑"了，真是流年不利。

疫情期间盒马速度不减，一个月内开出6家新店！

疫情下大量餐饮门店降速发展，盒马鲜生却是速度不减，一个月内连开6家新店。疫情期间，盒马一直坚持线上线下同时营业，并积极拓展新的线下场景，尽全力满足消费所需。

掏空式分红！上市前百亿分红、财务数据打架，如今股价却超260元

近期，伴随着海底捞复工后涨价遭网友“讨伐”的同时，海底捞张勇身为新加坡首富的宝座也被人夺走了，新晋的新加坡首富是A股创业板“一哥”、国内最大医疗器械龙头迈瑞医疗的实控人、董事长李西廷。

这家大型券商APP遭吐槽，一家公司运行两套交易系统！升级策略也遭质疑：热衷添加边缘功能

“一家券商两个交易系统登录，这叫什么重组？”日前，有个人投资者在股吧发帖吐槽，自己在交易的过程中，发现申万宏源软件中包含原申万和原宏源两套交易系统，导致自己账号被冻结并遭遇投资损失。

资本动物世界里的「做空」简史

浑水的创始人Block 在 The China Hustle 这部纪录片中，聊到了为什么把自己的公司起名为「浑水」，水至清，则无鱼，「中国人用『浑水摸鱼』比喻利用混沌不明的局势赚钱。

原公司法定代表人拒不配合工商变更，拒不返还公司公章，怎么办？

私信或评论区咨询法定代表人基于法律的规定代表着公司。在公司权利能力和行为能力范围内，原则上可以在公司一切对外事务中代表着公司。

净利润环比暴增3659%！预盈预增概念，还有100%上涨空间？

工程承包及建筑装饰;建筑装饰材料、钢材、木材、机电设备、黄金及矿产品销售;房屋租赁;在法律、法规规定的范围内对外投资。二.热点个股解读：600766业绩增长：年报公布净利润环比3659%.概念题材：贵金属黄金概念壳资源融资融券山东板块经营范围房地产开发及经营、物业管理

会计要记住：这样筹划税收万万不可！看看这10种方式

方式一：公司为了让股东少交甚至不交分红的20%的个税，让股东从公司以借款名义拿走巨额的分红，会计挂账在“其他应收款-自然人股东”中。方式二：公司为了少缴25%的企业所得税，把取得的收入人为挂账在“预收账款”科目中，隐匿营业收入。

棉花周度策略分析

国内下跌主因是前期涨幅过大，国内外棉花差价不断扩大，即时国内有纺织订单不断增加的事实，但随着棉花价格上涨，采购开始谨慎，新疆籽棉收获接近尾声，棉花上涨驱动籽棉收购价格.上涨的螺旋上涨难以持续，并且ICE 棉花涨幅一旦跟不上国内内涨幅，压力自然产生。

打造航母券商中信和中信建投合并或引爆行情

【打造航母券商中信和中信建投合并或引爆行情】今天市场的最大亮点就是午后券商股的发力，市场的人气还是要靠科技和证券来打，早盘科技股有表现，但是经过这两二个月科技股的回落，大家对于科技股的追捧热情早就没有了，甚至很多人开始不相信科技股的未来了，所以科技股的上涨，对人气的贡献度并不大

揭秘——主力资金怎样一股力量？数据告诉你这股力量有多强大

4月14日，主力资金净流入131.45亿元，当日上证指数上涨1.59%，创业板指大涨3.24%，。与之相对的是，4月10日，主力资金净流出507.72亿元，当日上证指数下跌1.04%，创业板指下跌2.37%。

A股修复行情还没结束！股民注意，别“漏”了这2个积极信号

昨天晚上美股大幅上涨，但我们今天低开低走，下午大盘直接跳水，今天一跌，可能很多朋友又在担心，行情是不是要结束了？

涨价概念还是市场的方向

可以交易行业板块医疗保健、农林牧渔、建材、、食品饮料、商业连锁、医药、工程机械、纺织服饰、造纸、酿酒市场交易环境上证指数交易环境 ☆☆☆ 压力位2828支撑位 2756创业板指数交易环境 ☆☆☆压力位1967 支撑位 1892 ETF基金游戏代码510500 500ETF

涨停板学深度教程 11：关于市场资金量的大局观

理解资金关系是市场根本，抓住资金这个根本，才能洞悉市场的一切行为和涨跌关系炒股最核心和根本的分析就是资金。

广州，太平洋电脑城，你为什么不早点转型

随着11月15日广州市天河区农村集体资产交易中心公告一则中标公示，太平洋电脑城A场也宣告易主。这是继今年2月28日广州太平洋数码广场B场宣告结业后，被称为“太平洋电脑城”的A场也即将退场。

15热点追踪

附最近几日暴跌妖股，最近几日暴涨妖股。暴跌妖股再次提醒，妖股技巧在仓位管理，不是技术也不是心态的博弈。

你领到消费券了吗？即日起至6月30日遂宁拟分期投放1亿余元消费券

日前，记者从市商务局获悉为统筹做好全面夺取疫情防控和经济社会发展双胜利遂宁市拟分期投放10095万元消费券助推经济复苏市民得实惠政府企业送“礼包”“我们三个闺蜜逛街，到饭点了就直接在万达三楼吃了点东西，总共费用是130元，我们在网上参加了万达的抢券活动，抢到了50元的餐饮券，加上

小米集团战略入股TCL,强强联合提升大家电供应链能力？

宣布小米集团战略入股TCL集团。TCL表示，此次入股有利于加深小米和TCL两个产业集团的合作深度，构建更为紧密的战略合作伙伴关系。

全球富豪榜出炉：中国猪肉生产商占两席；马化腾马云并列中国首富

中国网科技4月7日讯昨日，胡润研究院发布《疫情两个月后全球企业家财富变化特别报告》（以下简称《报告》）显示，全球百强企业家近两月财富损失2.6万亿人民币，即13%，蒸发了过去两年半所创造的财富；前十名损失1.4万亿人民币。

戴德梁行：短期承压商办市场回暖在望

实体零售遭遇遏制转型升级助力市场焕发生机2020年一季度，北京零售市场优质零售物业总存量为1 219万平方米，占比达86.3%。 412万平方米，其中购物中心存量达1

穗一季度吸引投资额近1.4万亿元

4月14日，在广州第77场疫情防控新闻发布会上，广州市商务局副局长吴尚伟公布了最新的招商引资成果：广州一季度签约、动工、投产项目超800个，涉及投资总额13899.64亿元，预计达产年产值/营收10902.72亿元。

一季度广州签约动工投产亿元以上产业项目超800个

记者14日在广州市政府新闻办举行的发布会上获悉，一季度广州签约、动工、投产亿元以上产业项目超800个，涉及投资总额13899.64亿元。

4月15日9:45，央行宣布降息，拆叔速评

早上9点45分，中国人民银行宣布1000亿中期借贷便利MLF操作，并下调中标利率20个基点至2.95%，此前为3.15%。此前在3月31日，央行已经率先下调逆回购利率20个基点。

叶檀：中国发达城市都应该来抄抄上海的作业

文/叶檀☞财经女侠 | 毒舌善心三年之后，上海是怎么样的，长三角是怎么样的？三年之后，哪座城市年轻人多，哪座城市房价高，这样的比较毫无意义。一切取决于，科技的发展。在上海的特斯拉会像当初富士康在东莞一样，需要百万名员工吗？不要。根据特斯拉和临港的规划，最多也就吸引1万多人。上海特

芒格：“所有聪明的投资都是价值投资”

图/视觉中国《财经》特约作者傅喻 | 文发自美国奥马哈2018年4月，经过半年思考，我给沃伦·巴菲特的老搭档、伯克希尔哈撒韦公司董事会副主席查理·芒格写了一封信，希望94岁高龄的他能够再度接受我专访。早在三年前，我曾经和芒格的助理商量过这个想法，但他助理认为，采访拍摄有诸多不便

三强两促力夺半年红｜鳌江落实“一项目一专班”制度，“保姆式”服务助力项目落地

日前，记者从鳌江镇获悉，该镇通过实行“一项目一专班”工作制度，为项目提供“保姆式”服务，完成了亲子主题教育商业综合体、滨江高等级酒店等2个项目的土地挂牌所有前期准备工作，助力项目加快落地。

朱是西会见中国长城科技集团股份有限公司河南分公司赵伟建一行

驻马店广电融媒体消息：4月15日上午，市委副书记、市长朱是西亲切会见了中国长城科技集团股份有限公司河南分公司执行董事、总经理赵伟建一行，双方围绕加强务实合作、推进项目落地驻马店进行了深入交谈。

兴嘉房开司举办“每周一课”，凝心聚力谋发展

4月10日下午，乐山城投集团下属兴嘉房开司举办了第一期“每周一课”学习活动。尤其是下一步小地块的项目开发，更让兴嘉房开司的年轻人兴奋不已，积极献言献策，希望能通过这些项目的落地，让兴嘉房开司真正实现凤凰涅槃。

@所有人｜今晚21:20 e修鸽邀您观看天津卫视《创业中国人》

从白手起家到独角兽企业联合创始人，从“独自打拼”到“带着团队拼杀商场”，在瞬息万变的商业战场中，总有一些人能够破思想之“茧”，乘改革之“风”，呈飞跃之“势”，用自己的节奏，从零开始把e修鸽旗帜插遍全国。他就是e修鸽联合创始人——胡海威。一生一世只做一件事，一生都会致力于做这样的事

曹德旺提示: 疫情过后可能会迎来全球产业链的去中国化

在采访过程中，新京报向曹德旺提出了多个问题。问题一：疫情暴露了当前全球化产业链存在的风险，待疫情退去，是否会造成全球产业链的改变。

【财经下午茶】申万宏源APP运行两套交易系统致股民账号被冻结

申万宏源APP运行两套交易系统致股民账号被冻结日前，有个人投资者在股吧发帖称，自己在交易的过程中，发现申万宏源软件中包含原申万和原宏源两套交易系统，导致自己账号被冻结并遭遇投资损失。

千城：您的企业值多少钱？

这是一个关于企业价值的话题，说到这里，一大堆专业术语从眼前飘过：MM理论、预期自由现金流现值、折现率、PE、PB、ROE…

千城：教你认识财务杠杆-成也萧何败萧何

度娘会告诉你财务杠杆的定义：财务杠杆又叫筹资杠杆或融资杠杆，它是指由于固定债务利息和优先股股利的存在而导致普通股每股利润变动幅度大于息税前利润变动幅度的现象。

【数据流】疫情中，你最关心什么？10大担忧，中国对比国外

No.1家人身体健康My family’s health不出所料，多数人都是最关心自己家人的健康，挣钱不就是为了家人可以健康快乐么？

漯河市科协邀请苏州客商考察我市医疗用品企业

4月15日上午，在漯河市顺康医疗用品公司负责人张红喜的带领下，苏州客商一行深入企业生产车间、物料车间及仓库进行实地参观，了解企业生产经营状况。

被疫情激活的人工智能，如何逐浪新基建

撰文/李季编辑/ 陈邓新4月7日，南昌三中义坊学校门口摆放了一台人脸识别测温机，复课的初三学生不用摘下口罩，就可以识别在校师生的身份及测量体温。

疫情过后，中国3月风投规模回升，是2月份的6倍多

据英国《金融时报》网站4月14日报道，根据《亚洲创业投资期刊》数据，中国初创企业和科技企业在3月筹集了超过25亿美元，是2月4.1亿美元的六倍多，创下纪录。

IMF：自上世纪30年代最严重经济大萧条！未来2年损失9万亿美元

2020年4月14日4月14日，国际货币基金组织在线上春季年会期间发布了《世界经济展望》，预测2020年全球增长率降至-3%，与1月的预测相比下调幅度高达6.3个百分点。