当前位置：主页 > 查看内容

不用SMOTE算法，我们如何处理多类不平衡数据？

发布时间：2021-08-04 00:00| 有位朋友查看

简介：本文转载自公众号读芯术(ID：AI_Discovery)。机器学习中的一个常见问题是处理不平衡数据，其中目标类中比例严重失调，存在高度不成比例的数据。什么是多类不平衡数据? 当分类问题的目标类(两个或两个以上)不均匀分布时，称为不平衡数据。如果不能处理好这……

本文转载自公众号“读芯术”(ID：AI_Discovery)。

机器学习中的一个常见问题是处理不平衡数据，其中目标类中比例严重失调，存在高度不成比例的数据。

什么是多类不平衡数据?

当分类问题的目标类(两个或两个以上)不均匀分布时，称为不平衡数据。如果不能处理好这个问题，模型将会成为灾难，因为使用类不平衡数据建模会偏向于大多数类。处理不平衡数据有不同的方法，最常见的是过采样(Oversampling)和创建合成样本。

什么是SMOTE算法?

SMOTE是一种从数据集生成合成算例的过采样技术，它提高了对少数类的预测能力。虽然没有信息损失，但它有一些限制。

合成样本

限制：

SMOTE不适用于高维数据。
可能会发生类的重叠，并给数据带来更多干扰。

因此，为了跳过这个问题，可以使用'class_weight '参数手动为类分配权重。

为什么使用类别权重(Class weight)?

类别权重通过对具有不同权重的类进行惩罚来直接修改损失函数，有目的地增加少数阶级的权力，减少多数阶级的权力。因此，它比SMOTE效果更好。本文将介绍一些最受欢迎的获得数据的权重的技术，它们对不平衡学习问题十分奏效。

(1) Sklearn utils

可以使用sklearn来获得和计算类权重。在训练模型的同时将这些权重加入到少数类别中，可以提高类别的分类性能。

from sklearn.utils import class_weightclass_weightclass_weight =class_weight.compute_class_weight('balanced, 
np.unique(target_Y), 
target_Y)model = LogisticRegression(class_weightclass_weight = class_weight) 
model.fit(X,target_Y)# ['balanced', 'calculated balanced', 'normalized'] arehyperpaameterswhic we can play with.

对于几乎所有的分类算法，从逻辑回归到Catboost，都有一个class_weight参数。但是XGboost对二进制分类使用scale_pos_weight，对二进制和多类问题使用样本权重。

(2) 数长比

非常简单明了，用行数除以每个类的计数数，然后

weights = df[target_Y].value_counts()/len(df) 
model = LGBMClassifier(class_weight = weights)model.fit(X,target_Y)

(3) 平和权重技术(Smoothen Weights)

这是选择权重的最佳方法之一。labels_dict是包含每个类的计数的字典对象，对数函数对不平衡类的权重进行平和处理。

def class_weight(labels_dict,mu=0.15): 
    total = np.sum(labels_dict.values())    keys = labels_dict.keys()    weight = dict()for i in keys: 
        score =np.log(mu*total/float(labels_dict[i]))        weight[i] = score if score > 1else 1return weight# random labels_dict 
labels_dict = df[target_Y].value_counts().to_dict()weights =class_weight(labels_dict)model = RandomForestClassifier(class_weight = weights) 
model.fit(X,target_Y)

(4) 样本权重策略

下面的函数不同于用于为XGboost算法获取样本权重的class_weight参数。它为每个训练样本返回不同的权重。样本权重是一个与数据长度相同的数组，包含应用于每个样本的模型损失的权重。

def BalancedSampleWeights(y_train,class_weight_coef): 
    classes = np.unique(y_train, axis =0) 
classes.sort()class_samples = np.bincount(y_train)total_samples = class_samples.sum()n_classes = len(class_samples)    weights = total_samples / (n_classes* class_samples * 1.0) 
class_weight_dict = {key : value for (key, value) in              zip(classes, weights)} 
class_weight_dict[classes[1]] = class_weight_dict[classes[1]] * 
class_weight_coefsample_weights = [class_weight_dict[i] for i in y_train] 
    return sample_weights#Usage 
weight=BalancedSampleWeights(target_Y,class_weight_coef) 
model = XGBClassifier(sample_weight = weight) 
model.fit(X, target_Y)

(5) 类权重与样本权重：

样本权重用于为每个训练样本提供权重，这意味着应该传递一个一维数组，其元素数量与训练样本完全相同。类权重用于为每个目标类提供权重，这意味着应该为要分类的每个类传递一个权重。

以上是为分类器查找类权重和样本权重的几种方法，所有这些技术都对笔者的项目有效，你可以试试这些技巧，绝对大有帮助。

【责任编辑：赵宁宁 TEL：（010）68476606】
本文转载自网络，原文链接：https://www.toutiao.com/i6880341323682054663/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：精确人工智能——核物理与粒子物理领域的新生力量 下一篇：没有了

随机推荐

数据中心减少碳排放的措施及优势

致力于节能减排的行业人士可能会对联合国在去年12月发布的《2020年碳排放差距调...
欧美移动支付APP崛起：当“另类支付”不

说起另类支付(alternative payments)/替代支付，在2019年之前，PayPal可能是第一...
2020年11月全球5G领域重要动态一览

2020年，率先取得抗疫阶段性胜利，并持续推进疫情防控常态化与经济社会恢复发展...
深度学习未来发展的三种学习范式：混合学

本文转自雷锋网，如需转载请至雷锋网官网申请授权。深度学习是一个很大的领域，...
5G将重新定义电信运营商的产品服务

看似无穷无尽的5G用例清单，服务提供商似乎已经尝试了很多年。 5G代表着重大的网...
AI Factory如何快速安全地从概念进入产业

人工智能(AI)被组织视为获得竞争优势的一项重要技术。市场数据表明，2020年人工...
2021年机器学习怎么学？这份深度指南帮你

在这个「人人AI」的时代，很多人都会或多或少接触过机器学习（ML）。似乎每一家...
小区人脸识别应用实测：有App明文上传人

从中国人脸识别第一案一审宣判到售楼处暗中使用人脸识别，从北京推出人脸识别垃...
盘点2020之5G小基站：雷声大，雨点还未下

地铁里网速咋这么慢!什么都打不开，网购、刷微博、看视频、发朋友圈都费劲!可能...
苹果计划在国内建立新供应链：专供中国市

DigiTimes 今天发布了一份报告，着重强调了苹果正建立一个完全由中国制造商组成...

不用SMOTE算法，我们如何处理多类不平衡数据？

推荐图文

全面的数据科学C/C++机器学习库整理，再也不用百度

那些年，我们跟风过的手机伪概念，一一揭开真相

写代码效率不高？放过Ctrl C 和 V，让AI来帮你写代

你每天都在用的表情包是如何发展至今的？我梳理了这

Chrome的下载实在太蛋疼！教你如何改善它

年终盘点：2020年人工智能热点事件一览

随机推荐

数据中心减少碳排放的措施及优势

欧美移动支付APP崛起：当“另类支付”不

2020年11月全球5G领域重要动态一览

深度学习未来发展的三种学习范式：混合学

5G将重新定义电信运营商的产品服务

AI Factory如何快速安全地从概念进入产业

2021年机器学习怎么学？这份深度指南帮你

小区人脸识别应用实测：有App明文上传人

盘点2020之5G小基站：雷声大，雨点还未下

苹果计划在国内建立新供应链：专供中国市

关于我们