当前位置：主页 > 查看内容

Python机器学习小知识：Pandas去重

发布时间：2021-07-21 00:00| 有位朋友查看

简介：在使用Pandas处理数据的时候经常遇到重复数据的情况，这时候可以使用drop_duplicates（pandas.DataFrame.drop_duplicates）来进行处理。函数定义如下： DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)[source]……

在使用Pandas处理数据的时候经常遇到重复数据的情况，这时候可以使用drop_duplicates（pandas.DataFrame.drop_duplicates）来进行处理。函数定义如下：
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)[source]
返回去重后的数据集（如果inplace为True则返回None）

参数：
subset：column label or sequence of labels, optional
Only consider certain columns for identifying duplicates, by default use all of the columns.
用来指定特定的列，默认所有列

keep：{‘first’, ‘last’, False}, default ‘first’
Determines which duplicates (if any) to keep. - first : Drop duplicates except for the first occurrence. - last : Drop duplicates except for the last occurrence. - False : Drop all duplicates.
确定保留哪条重复的数据，默认第一条

inplace：bool, default False
Whether to drop duplicates in place or to return a copy.
是直接在原来数据上修改还是保留一个副本

ignore_index：bool, default False
If True, the resulting axis will be labeled 0, 1, …, n - 1.
是否忽略Index，默认为True

例子：
df = pd.DataFrame({

'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
'rating': [4, 4, 3.5, 15, 5]

})
df

brand style rating

0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
By default, it removes duplicate rows based on all columns.

df.drop_duplicates()

brand style rating

0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
To remove duplicates on specific column(s), use subset.

具体可以参考说明：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html

本文转自网络，原文链接：https://developer.aliyun.com/article/785513
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：核桃编程：前端可观测性建设之路 下一篇：Dataworks小技巧：巧用模板提升效率

随机推荐

星环科技TDS 为数据全生命周期管理提供一

2021年3月24日，主题为《数据的世界，世界的数据》的星环科技2021春季新品发布会...
Docker生成新镜像版本的两种方式

Docker生成新镜像版本的两种方式 There are two ways Docker can generate new m...
关于 Node.js 中的异步迭代器

从 10.0.0 版开始，异步迭代器就出现在 Node 中了，在本文中，我们将讨论异步迭...
实时数仓入门训练营：Hologres 数据导入/

本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接: https:/...
高并发服务遇redis瓶颈引发time-wait事故

摘要元旦期间订单业务线告知推送系统无法正常收发消息，作为推送系统维护者...
用于数据可视化的9款主流分析工具！

【51CTO.com快译】数据可视化工具不断发展，提供更强大的功能，同时改善可访问...
数据为先，“1+N”模式推动智慧教育创新

信息化2.0时代提出开展智慧教育创新发展行动。2019年2月，中共中央、国务院印发...
建站什么虚拟主机够用

建站什么虚拟主机够用？这要看搭建的是什么类型的网站。比如个人博客类型的网...
就凭这3点，可以完全理解Python的类方法

在Python语言中有如下3种方法：成员方法类方法(classmethod) 静态方法(staticm...
步骤一：基础配置_弹性云服务器 ECS_快速

前提条件请您在购买前确保已完成注册和充值。详细操作请参见如何注册公有云管...

Python机器学习小知识：Pandas去重

推荐图文

2021 的 Node.js 开发人员路线图

达摩院重要科技突破！空天数据库引擎Ganos解读

阿里云CDN/DCDN加速安全助力企业出海，原生防护延伸

数据科学50年，数据科学家是否依然是21世纪最性感的

新疆喀什疫情｜疫情之下：大数据的洞察力

详解LongAdder实现原理

随机推荐

星环科技TDS 为数据全生命周期管理提供一

Docker生成新镜像版本的两种方式

关于 Node.js 中的异步迭代器

实时数仓入门训练营：Hologres 数据导入/

高并发服务遇redis瓶颈引发time-wait事故

用于数据可视化的9款主流分析工具！

数据为先，“1+N”模式推动智慧教育创新

建站什么虚拟主机够用

就凭这3点，可以完全理解Python的类方法

步骤一：基础配置_弹性云服务器 ECS_快速

关于我们