SQL 的神奇之处在于其易于学习,而它之所以如此容易学习的原因主要是代码语法非常直观。
但是,与SQL相比,Pandas 就不那么直观了,尤其是在我们先用的是SQL,再转向 Pandas 时,这种感觉尤为强烈。
那么,我们是不是应该思考在 SQL 中进行的数据操作,能不能在 Pandas 实现?
基于以上目标,本文可以作为一个在Pandas中编写SQL查询的指南。
SELECT * FROM
如果要选择整个表,只需调用表的名称:
- # SQL
- SELECT * FROM table_df
- # Pandas
- table_df
SELECT a, b FROM
如果要从表中选择特定列,请在双括号中列出要的列:
- # SQL
- SELECT column_a, column_b FROM table_df
- # Pandas
- table_df[['column_a', 'column_b']]
SELECT DISTINCT
只需使用 .drop\u duplicates()即可获得不同的值:
- # SQL
- SELECT DISTINCT column_a FROM table_df
- # Pandas
- table_df['column_a'].drop_duplicates()
SELECT a as b
如果要重命名列,请使用 .rename():
- # SQL
- SELECT column_a as Apple, column_b as Banana FROM table_df
- # Pandas
- table_df[['column_a', 'column_b']].rename(columns={'column_a':
- 'Apple', 'column_b':'Banana'})
SELECT CASE WHEN
对于"SELECT CASE WHEN"的等效项,可以使用 np.select(), 其中首先指定每个选项的选择和值。
- # SQL
- SELECT CASE WHEN column_a > 30 THEN "Large"
- WHEN column_a <= 30 THEN "Small"
- END AS Size
- FROM table_df
- # Pandas
- conditions = [table_df['column_a']>30, table_df['column_b']<=30]
- choices = ['Large', 'Small']
- table_df['Size'] = np.select(conditions, choices)
INNER/LEFT/RIGHT JOIN
只需使用 .merge()来连接表,就可以使用“how”参数指定它是 LEFT、RIGHT、 INNER 或者 OUTER联接。
- # SQL
- SELECT * FROM table_1 t1
- LEFT JOIN table_2 t1 on t1.lkey = t2.rkey
- # Pandas
- table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')
UNION ALL
只需使用 pd.concat():
- # SQL
- SELECT * FROM table_1
- UNION ALL
- SELECT * FROM table_2
- # Pandas
- final_table = pd.concat([table_1, table_2])
SELECT WHERE
在筛选数据帧时,与在 SQL 中使用 WHERE 子句的方式相同时,只需在方括号中定义条件:
- # SQL
- SELECT * FROM table_df WHERE column_a = 1
- # Pandas
- table_df[table_df['column_a'] == 1]
SELECT column_a WHERE column_b
如果要从表中选择某个列并筛选其他列,请按照以下格式操作:
- # SQL
- SELECT column_a FROM table_df WHERE column_b = 1
- # Pandas
- table_df[table_df['column_b']==1]['column_a']
SELECT WHERE AND
如果要按多个条件进行筛选,只需将每个条件换在括号中,并使用"&"分隔每个条件。
- # SQL
- SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2
- # Pandas
- table_df[(table_df['column_a']==1) & (table_df['column_b']==2)]
SELECT WHERE LIKE
SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感,只需在参数中添加 case=False。
- # SQL
- SELECT * FROM table_df WHERE column_a LIKE '%ball%'
- # Pandas
- table_df[table_df['column_a'].str.contains('ball')]
SELECT WHERE column IN()
SQL 中 IN() 的等效项为 .isin()。
- # SQL
- SELECT * FROM table_df WHERE column_a IN('Canada', 'USA')
- # Pandas
- table_df[table_df['column_a'].isin(['Canada', 'USA'])]
ORDER BY one column
在SQL中,ORDER BY 的等同于 .sort_values()。使用 'ascending' 参数指定是按升序还是降序对值排序,默认值与 SQL 一样升序。
- # SQL
- SELECT * FROM table_df ORDER BY column_a DESC
- # Pandas
- table_df.sort_values('column_a', ascending=False)
ORDER BY multiple columns
如果要按多个列排序,可以列出括号中的列,并在括号中的 “ascending” 参数中指定排序方向。请确保遵循列出的列的相应顺序。
- # SQL
- SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC
- # Pandas
- table_df.sort_values(['column_a', 'column_b'], ascending=[False, True])
COUNT DISTINCT
聚合函数有一个通用模式。
要复制 COUNT DISTINCT,只需使用 .groupby()和.nunique()。
- # SQL
- SELECT column_a, COUNT DISTINCT(ID)
- FROM table_df
- GROUP BY column_a
- # Pandas
- table_df.groupby('column_a')['ID'].nunique()
SUM
- # SQL
- SELECT column_a, SUM(revenue)
- FROM table_df
- GROUP BY column_a
- # Pandas
- table_df.groupby(['column_a', 'revenue']).sum()
AVG
- # SQL
- SELECT column_a, AVG(revenue)
- FROM table_df
- GROUP BY column_a
- # Pandas
- table_df.groupby('column_a')['revenue'].mean()
Pandas无疑是一个强大的Python数据分析库,但是它也不是无所不能,对于某些操作并不具体和方便。
以上的操作可以帮助大家更好地在Pandas中实现一些SQL查询的实用操作,大家赶紧玩起来~
本实例开发的级联下拉菜单是根据已有json数据创建的DOM元素。点击文本框后,显示...
文章目录 Java基础语法三——运算符 一、算术运算符 1.基本四则运算符 1练习 2注...
一、概念了解 前言 人工神经网络 (Artificial Neural Network, ANN)由人工神经元...
IETF(国际互联网工程任务组)已宣布正式弃用 TLS 1.0 和 TLS 1.1。 公告写道,TLS...
3月14日消息 微软近日发布了 Edge 89 正式版浏览器,带来了垂直标签页等新功能,...
由于我这边的网络原因,没用从FCK的官网下载到源码... 这套源码是FCK2.2版反编译...
之前渲染 Markdown 的时候, 笔者使用的是 mavonEditor 的预览模式, 使用起来比较...
从事技术领域的每个人都熟悉 Unix,它是贝尔实验室(现在是诺基亚旗下的子公司)开...
%@ LANGUAGE="VBscript" % html head meta NAME="GENERATOR" Content="Microsoft...
命令简介 iotop 命令用来查看磁盘 I/O 使用状况的工具。iotop 具有与 top 相似的...