当前位置：主页 > 查看内容

Python Pandas可以像SQL那样，进行数据筛选统计

发布时间：2021-04-28 00:00| 有位朋友查看

简介：相对于学习Pandas各种数据筛选操作，SQL语法显得更加简洁清晰，若能够将SQL语法与Pandas中对应的函数的使用方法关联起来，对于我们应用Pandas进行数据筛选来讲无疑是一个福音。本文通过Pandas实现SQL语法中条件过滤、排序、关联、合并、更新、删除等简单及……

相对于学习Pandas各种数据筛选操作，SQL语法显得更加简洁清晰，若能够将SQL语法与Pandas中对应的函数的使用方法关联起来，对于我们应用Pandas进行数据筛选来讲无疑是一个福音。

本文通过Pandas实现SQL语法中条件过滤、排序、关联、合并、更新、删除等简单及复杂操作，使得我们对方法的理解更加深刻，更加得心应手。

演示数据集

本文采用安德森鸢尾花卉(iris)数据集进行演示，iris数据集包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息，因此iris数据集是一个150行*5列的二维表。

我们可以 UCI Iris dataset 获取或者使用 from sklearn.datasets import load_iris 方式获取，为了演示方便我们只取其中10行数据，如下：

接下来，就让我们一起学习一下，如何Pandas实现SQL语法中条件过滤、排序、关联、合并、更新、删除等数据查询操作。

字段查询 SELECT

SELECT sl, sw, pl, pw FROM iris LIMIT 2;

如上SQL实现返回每行记录的 sl,sw,pl,pw 字段，仅返回2行记录。我们使用Pandas实现如上SQL的功能，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
              sheet_name='iris', 
              usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[["sl", "sw", "pl", "pw"]].head(2) 
print(search) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw 
0  5.1  3.5  1.4  0.2 
1  4.9  3.0  1.4  0.2

简单的条件过滤查询 WHERE

SELECT * FROM iris WHERE classes = 1 LIMIT 2;

如上SQL实现了查询满足classes=1的记录，并返回2行。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
              sheet_name='iris', 
              usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[iris["classes"]==1].head(2) 
print(search) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
3  6.8  2.8  4.8  1.4        1 
4  6.7  3.0  5.0  1.7        1

多条件的与或过滤查询 WHERE AND|OR

与关系 &

SELECT * FROM iris WHERE classes = 1 AND pl >= 5 LIMIT 2;

如上SQL实现查询同时满足classes=1 和 pl >=5 两个条件的记录，并返回2行。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[ 
    (iris["classes"] == 1) & 
              (iris["pl"] >= 5) 
              ].head(2) 
print(search) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
4  6.7  3.0  5.0  1.7        1

或关系 |

SELECT * FROM iris WHERE sl >= 5 OR pl >=5 LIMIT 2;

如上SQL实现查询满足 sl >=5 或者 pl >=5 任一条件的记录，返回2行。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[ 
    (iris["sl"] >= 5) | 
              (iris["pl"] >= 5) 
              ].head(2) 
print(search) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
0  5.1  3.5  1.4  0.2        0 
2  5.4  3.9  1.7  0.4        0

条件过滤空值判断

空判断 is null

SELECT * FROM iris WHERE sl IS NULL;

如上SQL实现查询 sl 字段为NULL的记录，我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[iris["sl"].isna()] 
print(search)

非空判断 is not null

SELECT * FROM iris WHERE sl IS NOT NULL;

如上SQL实现查询sl字段不为 NULL 的记录。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[iris["sl"].notna()] 
print(search) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
0  5.1  3.5  1.4  0.2        0 
1  4.9  3.0  1.4  0.2        0 
2  5.4  3.9  1.7  0.4        0 
3  6.8  2.8  4.8  1.4        1 
4  6.7  3.0  5.0  1.7        1 
5  6.0  2.9  4.5  1.5        1 
6  5.6  2.8  4.9  2.0        2 
7  7.7  2.8  6.7  2.0        2 
8  6.3  2.7  4.9  1.8        2 
9  6.7  3.3  5.7  2.1        2

排序 ORDER BY ASC|DESC

SELECT * FROM iris WHERE sl >= 6 ORDER BY DESC classes;

如上SQL实现将满足sl字段值大于等于5的记录，按照classes降序排序。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris[(iris["sl"] >= 6)].sort_values( 
                                 by="classes", ascending=False) 
print(search) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
7  7.7  2.8  6.7  2.0        2 
8  6.3  2.7  4.9  1.8        2 
9  6.7  3.3  5.7  2.1        2 
3  6.8  2.8  4.8  1.4        1 
4  6.7  3.0  5.0  1.7        1 
5  6.0  2.9  4.5  1.5        1

更新 UPDATE

UPDATE iris SET classes = 2 WHERE pw = 1.7 AND pl >= 5;

如上SQL实现将同时满足pw = 1.7 和 pl >= 5的记录中的classes字段值更新为2。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
iris.loc[(iris["pw"] == 1.7) & (iris["pl"] >= 5), "classes"] = 2 
 
print(iris[iris["pw"] == 1.7]) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
4  6.7  3.0  5.0  1.7        2

分组统计 GROUP BY

SELECT classes, COUNT(*) FROM iris GROUP BY classes;

如上SQL实现根据classes进行分组，返回classes 及每组数量。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
count = iris.groupby("classes").size() 
 
print(count) 
 
# 执行上述代码，输出结果为： 
classes 
0    3 
1    3 
2    4 
dtype: int64

分组统计聚合输出

SELECT classes, avg(pl), max(sl) FROM iris GROUP BY classes;

如何SQL实现根据classes进行分组，返回classes值，每个分组的pl平均值以及每个分组的sl最大值。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
import numpy as np 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
search = iris.groupby("classes").agg( 
                                {"sl":np.max, "pl":np.mean}) 
 
print(search) 
 
# 执行上述代码，输出结果为： 
          sl        pl 
classes                
0        5.4  1.500000 
1        6.8  4.766667 
2        7.7  5.550000

删除

DELETE FROM iris WHERE pw = 1.7 AND pl >=5;

如上SQL实现将同时满足pw = 1.7 和 pl >= 5的记录删除。我们使用Pandas实现该SQL，代码如下：

import pandas as pd 
 
iris = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
drop = iris.drop(iris[(iris["pw"] == 1.7) & 
                       (iris["pl"] >= 5)].index) 
 
print(drop[drop["pw"] > 1.6]) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
6  5.6  2.8  4.9  2.0        2 
7  7.7  2.8  6.7  2.0        2 
8  6.3  2.7  4.9  1.8        2 
9  6.7  3.3  5.7  2.1        2

UNION & JOIN 演示数据集

接下来介绍如何使用Pandas进行合并查询及多表关联查询，为了演示方便，我们上面示例中的iris数据集，拆分成iris_a，iris_b两部分，如下：

UNION 合并查询

合并结果 UNION ALL 可能存在重复记录

合并如下两个 SELECT 语句的结果集，需注意，UNION ALL 内部的 SELECT 语句必须拥有相同数量的列，列也必须拥有相似的数据类型。同时，每条 SELECT 语句中的列的顺序必须相同。

SELECT * FROM iris_a WHERE classes = 1 
UNION ALL 
SELECT * FROM iris_b WHERE classes = 1 ;

如上SQL实现将两个查询结果进行合并，允许存在重复记录。我们使用 pandas.concat 方法实现该SQL，代码如下：

import pandas as pd 
 
iris_a = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_a', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
iris_b = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_b', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
data = pd.concat( 
    [iris_a[iris_a["classes"] == 1], iris_b[iris_b["classes"] == 1]]) 
 
print(data) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
3  6.8  2.8  4.8  1.4        1 
4  6.7  3.0  5.0  1.7        1 
0  6.7  3.0  5.0  1.7        1 
1  6.0  2.9  4.5  1.5        1

合并结果 UNION 不存在重复记录

合并如下两个 SELECT 语句的结果集，同时也需注意，UNION 内部的 SELECT 语句必须拥有相同数量的列，列也必须拥有相似的数据类型。同时，每条 SELECT 语句中的列的顺序必须相同。

SELECT * FROM iris_a WHERE classes = 1 
UNION 
SELECT * FROM iris_b WHERE classes = 1 ;

如上SQL实现将两个select查询结果进行合并，不允许存在重复记录。我们使用 pandas.concat.drop_duplicates 方法实现该SQL，代码如下：

import pandas as pd 
 
iris_a = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_a', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
iris_b = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_b', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
data = pd.concat( 
    [iris_a[iris_a["classes"] == 1], 
     iris_b[iris_b["classes"] == 1]]).drop_duplicates() 
 
print(data) 
 
# 执行上述代码，输出结果为： 
    sl   sw   pl   pw  classes 
3  6.8  2.8  4.8  1.4        1 
4  6.7  3.0  5.0  1.7        1 
1  6.0  2.9  4.5  1.5        1

JOIN 连接查询

同样，我们依旧使用如上演示数据，如下：

内连接 INNER JOIN

获取iris_a，iris_b两个表中classes字段相同的记录，并返回满足条件的两张表中的所有记录。

SELECT * FROM iris_a  
INNER JOIN iris_b  
ON iris_a.classes = iris_b.classes;

如上SQL实现iris_a 与 iris_b 按照classes字段进行内连接。我们使用 pandas.merge(iris_a, iris_b, on='classes') 实现该SQL，代码如下：

import pandas as pd 
 
iris_a = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_a', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
iris_b = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_b', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
inner = pd.merge(iris_a, iris_b, on="classes") 
print(inner) 
 
# 执行上述代码，输出结果为： 
   sl_x  sw_x  pl_x  pw_x  classes  sl_y  sw_y  pl_y  pw_y 
0   6.8   2.8   4.8   1.4        1   6.7   3.0   5.0   1.7 
1   6.8   2.8   4.8   1.4        1   6.0   2.9   4.5   1.5 
2   6.7   3.0   5.0   1.7        1   6.7   3.0   5.0   1.7 
3   6.7   3.0   5.0   1.7        1   6.0   2.9   4.5   1.5

左连接 LEFT OUTER JOIN

获取左表 iris_a 所有记录，判断每条数据的 classes 字段是否能匹配到右表iris_b的数据，无论能否匹配到，左表 iris_a 数据都会保留。若能匹配，则左右表都保留。若不能匹配，右表iris_b字段都置空NULL，并返回保留的记录。

SELECT * FROM iris_a  
LEFT JOIN iris_b  
ON iris_a.classes = iris_b.classes;

如上SQL实现iris_a 与 iris_b 按照classes字段进行左连接。我们使用 pandas.merge(iris_a, iris_b, on='classes', how='left') 方法实现该SQL，代码如下：

import pandas as pd 
 
iris_a = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_a', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
iris_b = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_b', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
inner = pd.merge(iris_a, iris_b, on="classes", how="left") 
print(inner) 
 
# 执行上述代码，输出结果为： 
   sl_x  sw_x  pl_x  pw_x  classes  sl_y  sw_y  pl_y  pw_y 
0   5.1   3.5   1.4   0.2        0   NaN   NaN   NaN   NaN 
1   4.9   3.0   1.4   0.2        0   NaN   NaN   NaN   NaN 
2   5.4   3.9   1.7   0.4        0   NaN   NaN   NaN   NaN 
3   6.8   2.8   4.8   1.4        1   6.7   3.0   5.0   1.7 
4   6.8   2.8   4.8   1.4        1   6.0   2.9   4.5   1.5 
5   6.7   3.0   5.0   1.7        1   6.7   3.0   5.0   1.7 
6   6.7   3.0   5.0   1.7        1   6.0   2.9   4.5   1.5

右连接 RIGHT OUTER JOIN

获取右表 iris_b 所有记录，判断每条数据的 classes 字段是否能匹配到右表 iris_a 的数据，无论能否匹配到，右表 iris_b 数据都会保留。若能匹配，则左右表都保留。若不能匹配，左表iris_a字段都置空NULL，并返回保留的记录。

SELECT * FROM iris_a  
RIGHT JOIN iris_b  
ON iris_a.classes = iris_b.classes;

如上SQL实现iris_a 与 iris_b 按照classes字段进行右连接。我们使用 pandas.merge(iris_a, iris_b, on='classes', how='right')实现该SQL，代码如下：

import pandas as pd 
 
iris_a = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_a', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
iris_b = pd.read_excel(io="iris.xlsx", 
                     sheet_name='iris_b', 
                     usecols=["sl", "sw", "pl", "pw", "classes"]) 
 
inner = pd.merge(iris_a, iris_b, on="classes", how="right") 
print(inner) 
 
# 执行上述代码，输出结果为： 
   sl_x  sw_x  pl_x  pw_x  classes  sl_y  sw_y  pl_y  pw_y 
0   6.8   2.8   4.8   1.4        1   6.7   3.0   5.0   1.7 
1   6.7   3.0   5.0   1.7        1   6.7   3.0   5.0   1.7 
2   6.8   2.8   4.8   1.4        1   6.0   2.9   4.5   1.5 
3   6.7   3.0   5.0   1.7        1   6.0   2.9   4.5   1.5 
4   NaN   NaN   NaN   NaN        2   5.6   2.8   4.9   2.0 
5   NaN   NaN   NaN   NaN        2   7.7   2.8   6.7   2.0 
6   NaN   NaN   NaN   NaN        2   6.3   2.7   4.9   1.8 
7   NaN   NaN   NaN   NaN        2   6.7   3.3   5.7   2.1

本文转载自网络，原文链接：https://www.toutiao.com/a6905429817047384589/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：企业能否负担得起大数据解决方案的成本? 下一篇：理解数据类型：每个数据科学爱好者都应该知道的数据结构

随机推荐

Apache Flink Meetup 北京站，1.13 新版

对于广大的 Flink 开发者同学来说，什么内容是最期待的？什么信息又是最有用的...
备忘清单：FFmpeg命令行工具的有用命令

FFmpeg备忘清单 ffmpeg命令行工具的有用命令列表。下载FFmpeg：https://www.ffm...
hk域名哪里注册

hk 域名哪里注册？ .hk域名在国内是可以注册的，只要提供了.hk 域名注册服务...
只有域名能备案吗

只有域名能备案吗？不能的，备案是需要国内空间的，虚拟主机或者服务器的都...
深入浅出AbstractQueuedSynchronizer

深入浅出AbstractQueuedSynchronizer 在Java多线程编程中，重入锁(ReentrantLock...
大数据技术在网络安全分析之中的作用！

随着云计算、物联网、移动互联网等互联网技术的快速发展，人们对于网络技术的依...
人人都不看好的云计算，为什么翻盘了？因

2020年，AWS的年收入规模已经超过450亿美元，营收增速和运营利润率超过30%。IDC...
Go 语言中的一等公民：看似普通的函数，

本文转载自微信公众号「脑子进煎鱼了」，作者陈煎鱼。转载本文请联系脑子进煎鱼...
怎么升级虚拟主机

怎么升级虚拟主机？当网站运营到一定阶段，虚拟主机配置跟不上网站发展，这时...
云原生新边界——阿里云边缘计算云原生落

作者 | 黄玉奇来源 | 阿里巴巴云原生公众号日前，在由全球分布式云联盟主办的...

Python Pandas可以像SQL那样，进行数据筛选统计

演示数据集

字段查询 SELECT

简单的条件过滤查询 WHERE

多条件的与或过滤查询 WHERE AND|OR

条件过滤空值判断

排序 ORDER BY ASC|DESC

更新 UPDATE

分组统计 GROUP BY

分组统计聚合输出

删除

UNION & JOIN 演示数据集

UNION 合并查询

JOIN 连接查询

推荐图文

哪家企业邮箱最便宜

超融合“由硬至软” 为混合云设计的Azure Stack HCI

弹性公网IP Ping不通？_云耀云服务器 HECS_常见问题

H5页面适配及微信默认字号问题的最佳实践

使用脚本初始化Linux数据盘_弹性云服务器 ECS_快速

教育行业优质解决方案分享【智慧校园解决方案】

随机推荐

Apache Flink Meetup 北京站，1.13 新版

备忘清单：FFmpeg命令行工具的有用命令

hk域名哪里注册

只有域名能备案吗

深入浅出AbstractQueuedSynchronizer

大数据技术在网络安全分析之中的作用！

人人都不看好的云计算，为什么翻盘了？因

Go 语言中的一等公民：看似普通的函数，

怎么升级虚拟主机

云原生新边界——阿里云边缘计算云原生落

关于我们

Python Pandas可以像SQL那样，进行数据筛选统计

演示数据集

字段查询 SELECT

简单的条件过滤查询 WHERE

多条件的与或过滤查询 WHERE AND|OR

条件过滤 空值判断

排序 ORDER BY ASC|DESC

更新 UPDATE

分组统计 GROUP BY

分组统计 聚合输出

删除

UNION & JOIN 演示数据集

UNION 合并查询

JOIN 连接查询

推荐图文

随机推荐

关于我们

条件过滤空值判断

分组统计聚合输出