当前位置：主页 > 查看内容

效率惊人！三大相见恨晚的Pandas函数

发布时间：2021-06-10 00:00| 有位朋友查看

简介：本文转载自公众号读芯术(ID：AI_Discovery) 数据科学领域如此之广，鲜少有人能精通所有语言、数据库，笔者尽管已经从事了该行业数年之久，但仍然所知不多。学无止境，变得优秀的方法就是不停下学习的脚步。在Pandas中，一些函数意义纯粹，但也有一些函数指……

本文转载自公众号“读芯术”(ID：AI_Discovery)

数据科学领域如此之广，鲜少有人能精通所有语言、数据库，笔者尽管已经从事了该行业数年之久，但仍然所知不多。学无止境，变得优秀的方法就是不停下学习的脚步。

在Pandas中，一些函数意义纯粹，但也有一些函数指的是使用Pandas的方式，以及为什么一种方法比另一种更好。这儿有一些节省大量的时间和精力Pandas函数和使用方法，这些效率惊人的神器千万不要错过。

itertuples()

确实，它并不是纯粹的函数，而是指使用Pandas的更有效方法，是循环访问数据集的快捷方法。在花时间理解注释部分之前，可以用更有效的方法计算总列值，在此笔者仅提出一些要点。

下面是一列简单数据集，数字范围为1到1百万。

df =pd.DataFrame(data={ 
   'Number': range(1, 1000000) 
})

这是前几行的示例：

效率惊人！三大相见恨晚的Pandas函数

现在列举一个错误的方式。输入一个总计变量并将其设置为0. 然后，通过使用iterrows()循环访问数据集，并在total的基础上增加当前行的值，与此同时统计操作时间。以下是代码：

%%timetotal= 0for _, row in df.iterrows(): 
    total += row['Number'] 
  
total>>> Wall time: 18.7 s

这项小小的操作历时将近19秒，而现在有一个更快捷的方法，与上述操作大致相同，但要加iteruples 而不是 iterrows：

%%timetotal= 0for row in df.itertuples(index=False): 
    total += row.Number 
  
total>>> Wall time: 82.1 ms

笔者没有计算时间，但可以看到操作速度提高非常明显。下次执行循环时请记住这一点。

nlargest()和nsmallest()

笔者计算了两个纬度/经度对之间的距离(以公里为单位)。那是第一步操作，第二步是选择距离最小的前N条记录。

输入-nsmallest()。nlargest()将返回N个最大值，而nsmallest()将恰好相反。

看看它的实际结果。在实际操作中，笔者准备了一个小的数据集：

df =pd.DataFrame(data={ 
    'Name': ['Bob', 'Mark', 'Josh','Anna', 'Peter', 'Dexter'], 
    'Points': [37, 91, 66, 42, 99, 81] 
})

结果如下：

效率惊人！三大相见恨晚的Pandas函数

现在该数据集不是仅仅6行，而是包含了6000行，为了找到表现最好的学生，即分数最高，一种方法是这样的：

df['Points'].nlargest(3)

但这不是最佳解决方案，它会导致以下结果，没有清楚显示真实姓名：

改善方法如下：

df.nlargest(3,columns='Points')

怎么样，是不是看起来更棒了：

效率惊人！三大相见恨晚的Pandas函数

以几乎相同的操作来找到3个表现最差的学生-使用nsmallest()功能：

df.nsmallest(3,columns='Points')

输出结果如下：

效率惊人！三大相见恨晚的Pandas函数

cut()

这一部分将继续使用上一部分中的数据集，来回顾一下：

df =pd.DataFrame(data={ 
    'Name': ['Bob', 'Mark', 'Josh','Anna', 'Peter', 'Dexter'], 
    'Points': [37, 91, 66, 42, 99, 81] 
})

效率惊人！三大相见恨晚的Pandas函数

cut()函数的基本原理是将值分为不同的区间。下面是最简单的示例，将从Points属性创建两个容器：

pd.cut(df['Points'],bins=2)

效率惊人！三大相见恨晚的Pandas函数

现在还看不出效果。但是如何输入从0到50的区间，以及第二个从50到100的区间呢?听起来有点麻烦。以下为代码：

pd.cut(df['Points'],bins=[0, 50, 100])

效率惊人！三大相见恨晚的Pandas函数

但是需要注意的是，您要显示的是Fail而不是(0，50]，要显示Pass而不是(50，100]。你需要这样做：

pd.cut(df['Points'],bins=[0, 50, 100], labels=['Fail', 'Pass'])

效率惊人！三大相见恨晚的Pandas函数

对于刚入门的程序员，这些功能将有助于节省时间和精力;如果你是资深程序员，本文或许能帮你加强对这些函数的了解，避免每次都得从头开始捋，因为这样毫无意义。

本文转载自网络，原文链接：https://www.toutiao.com/i6823235732753089037/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：大数据分析正在法律行业的发展 下一篇：一个案例，教你掌握数据分析最关键的5个思维

随机推荐

TIOBE 3月榜单：新功能将加入，C语言仍高

TIOBE 公布了 2021 年 3 月的编程语言排行榜。本月 TIOBE 指数没有什么有趣的变...
互联网创业第一步，从他花3500美元买了个

近几年，互联网行业蓬勃发展，在互联网浪潮的冲击下，互联网创业已成为一种比较...
技术扫盲：关于低代码编程的可持续性交付

本文转载自微信公众号「bugstack虫洞栈」，作者小傅哥。转载本文请联系bugstack...
没有数据的数据科学？请尽早聘用数据工程

本文转载自公众号读芯术(ID：AI_Discovery)。这一刻你正在应对什么挑战?这位前...
NVIDIA GPU Operator分析一：NVIDIA驱动

背景我们知道如果在Kubernetes中支持GPU设备调度需要做如下的工作节点上安装...
Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
溢价域名的续费价格如何

溢价域名的续费价格如何？通常来说，因为溢价域名的价值高于普通域名，所以溢...
一日一技：巧用or关键字实现多重条件判断

在Python开发过程中，我们难免会遇到多重条件判断的情况的情况，此时除了用很多...
为何Spark在编程界越来越吃香？Spark将成

前言统计科学家使用交互式的统计工具(比如R)来回答数据中的问题，获得全景的认...
鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...

效率惊人！三大相见恨晚的Pandas函数

推荐图文

C4D 学习笔记

智能数据构建与管理平台Dataphin的前世今生：缘起

云安全的现代方法

云服务器调整实例配置询价 - API 文档

大数据时代，必须做好这3大布局：才能抢占新的造富

国内首款基于.NET Core平台的大数据可视化分析工具

随机推荐

TIOBE 3月榜单：新功能将加入，C语言仍高

互联网创业第一步，从他花3500美元买了个

技术扫盲：关于低代码编程的可持续性交付

没有数据的数据科学？请尽早聘用数据工程

NVIDIA GPU Operator分析一：NVIDIA驱动

Java编程内功-数据结构与算法「赫夫曼树

溢价域名的续费价格如何

一日一技：巧用or关键字实现多重条件判断

为何Spark在编程界越来越吃香？Spark将成

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

关于我们