当前位置：主页 > 查看内容

数据预处理的10个小技能，附Pandas实现

发布时间：2021-04-28 00:00| 有位朋友查看

简介：数据预处理常用的处理步骤，包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等，下面使用 pandas 解决这些最常见的预处理任务。找出异常值常用两种方法：标准差法：异常值平均值上下1.96个标准差区间以外的值分……

数据预处理常用的处理步骤，包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等，下面使用 pandas 解决这些最常见的预处理任务。

找出异常值常用两种方法：

标准差法：异常值平均值上下1.96个标准差区间以外的值
分位数法：小于 1/4分位数减去 1/4和3/4分位数差的1.5倍，大于3/4减去 1/4和3/4分位数差的1.5倍，都为异常值

技能1 ：标准差法

import pandas as pd 
 
df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) 
 
# 异常值平均值上下1.96个标准差区间以外的值 
meangrade = df['a'].mean() 
stdgrade = df['a'].std() 
toprange = meangrade + stdgrade * 1.96 
botrange = meangrade - stdgrade * 1.96 
 
# 过滤区间外的值 
copydf = df 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        > toprange].index) 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        < botrange].index) 
copydf

技能2：分位数法

q1 = df['a'].quantile(.25) 
q3 = df['a'].quantile(.75) 
iqr = q3-q1 
toprange = q3 + iqr * 1.5 
botrange = q1 - iqr * 1.5 
 
copydf = df 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        > toprange].index) 
copydfcopydf = copydf.drop(copydf[copydf['a'] 
        < botrange].index) 
copydf

技能3：处理空值

np.nan 是 pandas 中常见空值，使用 dropna 过滤空值，axis 0 表示按照行，1 表示按列，how 默认为 any ，意思是只要有一个 nan 就过滤某行或某列，all 所有都为 nan

# axis 0 表示按照行，all 此行所有值都为 nan 
df.dropna(axis=0, how='all')

技能4：充填空值

空值一般使用某个统计值填充，如平均数、众数、中位数等，使用函数 fillna：

# 使用a列平均数填充列的空值，inplace true表示就地填充 
df["a"].fillna(df["a"].mean(), inplace=True)

技能5：修复不合适值

假如某门课最高分100，如果出现 -2， 120 这样的值，显然不合理，使用布尔类型的Series对象修改数值：

df.loc[(df['a'] < -2,'a')] = 0 
df.loc[(df['a'] >= 100,'a')] = 100

技能6：过滤重复值

过滤某列重复值，使用 drop_duplicated 方法，第一个参数为列名，keep关键字等于last：最后一次出现此值行：

df.drop_duplicates(['Names'], keep='last')

技能7：apply 元素级：去掉特殊字符

某列单元格含有特殊字符，如标点符号，使用元素级操作方法 apply 干掉它们：

import string 
exclude = set(string.punctuation) 
 
def remove_punctuation(x): 
    x = ''.join(ch for ch in x if ch not in exclude) 
    return x 
# 原df 
Out[26]:  
      a       b 
0   c,d  edc.rc 
1     3       3 
2  d ef       4 
 
# 过滤a列标点 
In [27]: dfdf.a = df.a.apply(remove_punctuation)  
In [28]: df                 
Out[28]:  
      a       b 
0    cd  edc.rc 
1     3       3 
2  d ef       4

技能8：cut 数据分箱

将百分制分数转为A,B,C,D四个等级，bins 被分为 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

# 生成20个[0,100]的随机整数 
In [30]: a = np.random.randint(1,100,20)                    
In [31]: a                                     
Out[31]:  
array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43]) 
 
# cut分箱 
In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              
Out[33]:  
[D, D, D, B, D, ..., D, A, A, D, D] 
Length: 20 
Categories (4, object): [D < C < B < A]

技能9：rank 排名

rank 方法，生成数值排名，ascending 为False，分值越大，排名越靠前：

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  
In [53]: df['a'].rank(ascending=False)                    
Out[53]:  
0    4.0 
1    2.0 
2    1.0 
3    3.0 
4    5.0

技能10：category列转数值

某列取值只可能为有限个枚举值，往往需要转为数值，使用get_dummies，或自己定义函数：

pd.get_dummies(df['a'])

自定义函数，结合 apply:

def c2n(x): 
    if x=='A': 
        return 95 
    if x=='B': 
        return 80 
 
df['a'].apply(c2n)

以上结合数据预处理的十个小任务，分别找到对应pandas中的实现。

【责任编辑：赵宁宁 TEL：（010）68476606】
本文转载自网络，原文链接：http://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247499054&idx=1&sn=5fb681896b1f1b1365c09e8c31f0faf7&chksm=eb7fd0e5dc0859f3bf78541313b645cfec52e1e626b617e003ca50a40e33055c9c8ddaf08214&mpshare=1&s
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：从数据库到可视化性能，5个大数据分析工具测评，python只排倒数 下一篇：没有了

随机推荐

API概览_裸金属服务器 BMS_API参考

接口介绍裸金属服务器所提供的接口分为BMS接口与OpenStack原生接口。通过配合...
机器学习让骨科图像分析更进一步

在医学图像分析中实施机器学习(ML)并不是什么新鲜事。放射科医生积极利用自动化...
123

456...
10分钟，不会“搬砖”的校长搭出了智慧校

“智慧校园”建设着眼于未来校园IT规划无论是教学、科研还是决策、管理都可以...
租用云服务器一年大概的费用

租用云服务器一年大概的费用是多少？租用云服务器一年的费用，主要看租用什...
数据科学、机器学习与AI：如何协同工作

现在企业都拥有海量数据。就在十年前，千兆字节的数据似乎还很庞大。而如今，有...
大数据应用的现状分析

科学技术的不断发展，互联网信息技术的不断革新，大数据时代已经到来，大数据收...
.net域名一年多少钱

.net域名一年多少钱？普通的. net域名首年注册费用原价是75元/年，现在价格是5...
从两会洞悉数字化转型新趋势

【51CTO.com原创稿件】刚刚结束的两会极为重要，因为2021年是中国共产党建党100...
标签概述_弹性云服务器 ECS_用户指南_资

操作场景标签是弹性云服务器的标识。为弹性云服务器添加标签，可以方便用户识别...

数据预处理的10个小技能，附Pandas实现

推荐图文

什么是云计算？一文看懂

方案介绍_裸金属服务器 BMS_最佳实践_虚拟化_XenSer

数仓缓慢变化维SCD深度讲解

Sedo:深圳终端13万元收购tcmm.com！新顶级五位数成

如何编写更好的 JS 代码！

阿里云与西奥电梯达成深度合作推出可信电梯物联网

随机推荐

API概览_裸金属服务器 BMS_API参考

机器学习让骨科图像分析更进一步

123

10分钟，不会“搬砖”的校长搭出了智慧校

租用云服务器一年大概的费用

数据科学、机器学习与AI：如何协同工作

大数据应用的现状分析

.net域名一年多少钱

从两会洞悉数字化转型新趋势

标签概述_弹性云服务器 ECS_用户指南_资

关于我们