当前位置：主页 > 查看内容

如何在Pandas中实现类似于SQL查询的数据操作？

发布时间：2021-04-25 00:00| 有位朋友查看

简介：介绍 SQL 的神奇之处在于其易于学习，而它之所以如此容易学习的原因主要是代码语法非常直观。但是，与SQL相比，Pandas 就不那么直观了，尤其是在我们先用的是SQL，再转向 Pandas 时，这种感觉尤为强烈。那么，我们是不是应该思考在 SQL 中进行的数据操作，……

介绍

SQL 的神奇之处在于其易于学习，而它之所以如此容易学习的原因主要是代码语法非常直观。

但是，与SQL相比，Pandas 就不那么直观了，尤其是在我们先用的是SQL，再转向 Pandas 时，这种感觉尤为强烈。

那么，我们是不是应该思考在 SQL 中进行的数据操作，能不能在 Pandas 实现?

基于以上目标，本文可以作为一个在Pandas中编写SQL查询的指南。

1. 选择行

SELECT * FROM

如果要选择整个表，只需调用表的名称：

# SQL 
SELECT * FROM table_df 
 
# Pandas 
table_df

SELECT a, b FROM

如果要从表中选择特定列，请在双括号中列出要的列：

# SQL 
SELECT column_a, column_b FROM table_df 
 
# Pandas 
table_df[['column_a', 'column_b']]

SELECT DISTINCT

只需使用 .drop\u duplicates()即可获得不同的值：

# SQL 
SELECT DISTINCT column_a FROM table_df 
 
# Pandas 
table_df['column_a'].drop_duplicates()

SELECT a as b

如果要重命名列，请使用 .rename()：

# SQL 
SELECT column_a as Apple, column_b as Banana FROM table_df 
 
# Pandas 
table_df[['column_a', 'column_b']].rename(columns={'column_a': 
'Apple', 'column_b':'Banana'})

SELECT CASE WHEN

对于"SELECT CASE WHEN"的等效项，可以使用 np.select()，其中首先指定每个选项的选择和值。

# SQL 
SELECT CASE WHEN column_a > 30 THEN "Large" 
            WHEN column_a <= 30 THEN "Small" 
            END AS Size 
FROM table_df 
 
# Pandas 
conditions = [table_df['column_a']>30, table_df['column_b']<=30] 
choices = ['Large', 'Small'] 
table_df['Size'] = np.select(conditions, choices)

2. 组合表格

INNER/LEFT/RIGHT JOIN

只需使用 .merge()来连接表，就可以使用“how”参数指定它是 LEFT、RIGHT、 INNER 或者 OUTER联接。

# SQL 
SELECT * FROM table_1 t1 
         LEFT JOIN table_2 t1 on t1.lkey = t2.rkey  
 
# Pandas 
table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')

UNION ALL

只需使用 pd.concat()：

# SQL 
SELECT * FROM table_1 
UNION ALL 
SELECT * FROM table_2 
 
# Pandas 
final_table = pd.concat([table_1, table_2])

3. 筛选表

SELECT WHERE

在筛选数据帧时，与在 SQL 中使用 WHERE 子句的方式相同时，只需在方括号中定义条件：

# SQL 
SELECT * FROM table_df WHERE column_a = 1 
 
# Pandas 
table_df[table_df['column_a'] == 1]

SELECT column_a WHERE column_b

如果要从表中选择某个列并筛选其他列，请按照以下格式操作：

# SQL 
SELECT column_a FROM table_df WHERE column_b = 1 
 
# Pandas 
table_df[table_df['column_b']==1]['column_a']

SELECT WHERE AND

如果要按多个条件进行筛选，只需将每个条件换在括号中，并使用"&"分隔每个条件。

# SQL 
SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 
 
# Pandas 
table_df[(table_df['column_a']==1) & (table_df['column_b']==2)]

SELECT WHERE LIKE

SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感，只需在参数中添加 case=False。

# SQL 
SELECT * FROM table_df WHERE column_a LIKE '%ball%' 
 
# Pandas 
table_df[table_df['column_a'].str.contains('ball')]

SELECT WHERE column IN()

SQL 中 IN() 的等效项为 .isin()。

# SQL 
SELECT * FROM table_df WHERE column_a IN('Canada', 'USA') 
 
# Pandas 
table_df[table_df['column_a'].isin(['Canada', 'USA'])]

4.排序值

ORDER BY one column

在SQL中，ORDER BY 的等同于 .sort_values()。使用 'ascending' 参数指定是按升序还是降序对值排序，默认值与 SQL 一样升序。

# SQL 
SELECT * FROM table_df ORDER BY column_a DESC 
 
# Pandas 
table_df.sort_values('column_a', ascending=False)

ORDER BY multiple columns

如果要按多个列排序，可以列出括号中的列，并在括号中的 “ascending” 参数中指定排序方向。请确保遵循列出的列的相应顺序。

# SQL 
SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC 
 
# Pandas 
table_df.sort_values(['column_a', 'column_b'], ascending=[False, True])

5.聚合函数

COUNT DISTINCT

聚合函数有一个通用模式。

要复制 COUNT DISTINCT，只需使用 .groupby()和.nunique()。

# SQL 
SELECT column_a, COUNT DISTINCT(ID)  
FROM table_df 
GROUP BY column_a 
 
# Pandas 
table_df.groupby('column_a')['ID'].nunique()

SUM

# SQL 
SELECT column_a, SUM(revenue)  
FROM table_df 
GROUP BY column_a  
 
# Pandas 
table_df.groupby(['column_a', 'revenue']).sum()

AVG

# SQL 
SELECT column_a, AVG(revenue)  
FROM table_df 
GROUP BY column_a 
 
# Pandas 
table_df.groupby('column_a')['revenue'].mean()

总结

Pandas无疑是一个强大的Python数据分析库，但是它也不是无所不能，对于某些操作并不具体和方便。

以上的操作可以帮助大家更好地在Pandas中实现一些SQL查询的实用操作，大家赶紧玩起来~

本文转载自网络，原文链接：https://www.toutiao.com/i6896391592714895883/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：七款开源项目，让你数据库管理不再成为一个问题 下一篇：没有了

随机推荐

js面向对象封装级联下拉菜单列表的实现步

本实例开发的级联下拉菜单是根据已有json数据创建的DOM元素。点击文本框后，显示...
Java基础语法（三）——运算符

文章目录 Java基础语法三——运算符一、算术运算符 1.基本四则运算符 1练习 2注...
一篇文章“简单”认识《人工神经网络》

一、概念了解前言人工神经网络 (Artificial Neural Network, ANN)由人工神经元...
IETF 正式弃用 TLS 1.0 和 TLS 1.1

IETF(国际互联网工程任务组)已宣布正式弃用 TLS 1.0 和 TLS 1.1。公告写道，TLS...
Edge Canary 最新版支持垂直标签页下隐藏

3月14日消息微软近日发布了 Edge 89 正式版浏览器，带来了垂直标签页等新功能，...
FCKEditor 自定义用户目录的修改步骤 (附

由于我这边的网络原因,没用从FCK的官网下载到源码... 这套源码是FCK2.2版反编译...
Vue单页面应用中实现Markdown渲染

之前渲染 Markdown 的时候, 笔者使用的是 mavonEditor 的预览模式, 使用起来比较...
诺基亚转让操作系统版权，并以 MIT 协议

从事技术领域的每个人都熟悉 Unix，它是贝尔实验室(现在是诺基亚旗下的子公司)开...
如何实现全文检索？

%@ LANGUAGE="VBscript" % html head meta NAME="GENERATOR" Content="Microsoft...
每天学一个 Linux 命令（100）：iotop

命令简介 iotop 命令用来查看磁盘 I/O 使用状况的工具。iotop 具有与 top 相似的...

如何在Pandas中实现类似于SQL查询的数据操作？

介绍

目录

1. 选择行

2. 组合表格

3. 筛选表

4.排序值

5.聚合函数

总结

推荐图文

详解Vue的七种传值方式

Flutter Boost 混合开发框架初探

flex 开发项目报错之404错误解决方案

.NET Core 基于Websocket的在线聊天室实现

跌妈不认？一口气团灭6道股票算法打打气

Linux服务器的性能参数指标总结

随机推荐

js面向对象封装级联下拉菜单列表的实现步

Java基础语法（三）——运算符

一篇文章“简单”认识《人工神经网络》

IETF 正式弃用 TLS 1.0 和 TLS 1.1

Edge Canary 最新版支持垂直标签页下隐藏

FCKEditor 自定义用户目录的修改步骤 (附

Vue单页面应用中实现Markdown渲染

诺基亚转让操作系统版权，并以 MIT 协议

如何实现全文检索？

每天学一个 Linux 命令（100）：iotop

关于我们