当前位置：主页 > 查看内容

比Pandas 更好的替代？PySpark,Julia等对比

发布时间：2021-06-22 00:00| 有位朋友查看

简介：表格是存储数据的最典型方式，在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力，但它还是有局限性的。比如，如果数据集超过了内存的大小，就必须选择一种替代方法。但是，如果在内存合适的情况下放弃Pandas使用其他工具是……

表格是存储数据的最典型方式，在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力，但它还是有局限性的。比如，如果数据集超过了内存的大小，就必须选择一种替代方法。但是，如果在内存合适的情况下放弃Pandas使用其他工具是否有意义呢？

Pandas是一种方便的表格数据处理器，提供了用于加载，处理数据集并将其导出为多种输出格式的多种方法。 Pandas可以处理大量数据，但受到PC内存的限制。数据科学有一个黄金法则。如果数据能够完全载入内存（内存够大），请使用Pandas。此规则现在仍然有效吗？

为了验证这个问题，让我们在中等大小的数据集上探索一些替代方法，看看我们是否可以从中受益，或者咱们来确认只使用Pandas就可以了。

您可以在GitHub上查看完整的代码

pandas_alternatives_POC.ipynb —探索dask，spark，vaex和modin julia_POC.ipynb —探索julia和julia性能测试 Performance_test.py —运行python性能测试控制台运行 Results_and_Charts.ipynb —处理性能测试日志并创建图表

Pandas替代

让我们首先探讨反对替代Pandas的论点。

1. 他们不像Pandas那么普遍

1. 文档，教程和社区支持较小

我们将逐一回顾几种选择，并比较它们的语法，计算方法和性能。我们将看一下Dask，Vaex，PySpark，Modin（全部使用python）和Julia。这些工具可以分为三类：

· 并行/云计算— Dask，PySpark和Modin

· 高效内存利用— Vaex

· 不同的编程语言— Julia

数据集

对于每种工具，我们将使用Kaggle欺诈检测数据集比较基本操作的速度。它包含两个文件traintransaction.csv（〜700MB）和trainidentity.csv（〜30MB），我们将对其进行加载，合并，聚合和排序，以查看性能有多快。我将在具有16GB RAM的4核笔记本电脑上进行这些操作。

主要操作包括加载，合并，排序和聚合数据

Dask-并行化数据框架

Dask的主要目的是并行化任何类型的python计算-数据处理，并行消息处理或机器学习。扩展计算的方法是使用计算机集群的功能。即使在单台PC上，也可以利用多个处理核心来加快计算速度。

Dask处理数据框的模块方式通常称为DataFrame。它的功能源自并行性，但是要付出一定的代价：

1. Dask API不如Pandas的API丰富

1. 结果必须物化

Dask的语法与Pandas非常相似。

本文转载自网络，原文链接：https://www.toutiao.com/a6922620029397729800/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Python 处理错误的原则 下一篇：Dubbo 同步调用太慢，也许你可以试试异步处理

随机推荐

为何Spark在编程界越来越吃香？Spark将成

前言统计科学家使用交互式的统计工具(比如R)来回答数据中的问题，获得全景的认...
技术扫盲：关于低代码编程的可持续性交付

本文转载自微信公众号「bugstack虫洞栈」，作者小傅哥。转载本文请联系bugstack...
互联网创业第一步，从他花3500美元买了个

近几年，互联网行业蓬勃发展，在互联网浪潮的冲击下，互联网创业已成为一种比较...
NVIDIA GPU Operator分析一：NVIDIA驱动

背景我们知道如果在Kubernetes中支持GPU设备调度需要做如下的工作节点上安装...
Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
没有数据的数据科学？请尽早聘用数据工程

本文转载自公众号读芯术(ID：AI_Discovery)。这一刻你正在应对什么挑战?这位前...
溢价域名的续费价格如何

溢价域名的续费价格如何？通常来说，因为溢价域名的价值高于普通域名，所以溢...
鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
TIOBE 3月榜单：新功能将加入，C语言仍高

TIOBE 公布了 2021 年 3 月的编程语言排行榜。本月 TIOBE 指数没有什么有趣的变...
一日一技：巧用or关键字实现多重条件判断

在Python开发过程中，我们难免会遇到多重条件判断的情况的情况，此时除了用很多...

比Pandas 更好的替代？PySpark,Julia等对比

Pandas替代

数据集

Dask-并行化数据框架

推荐图文

云安全的现代方法

云服务器调整实例配置询价 - API 文档

智能数据构建与管理平台Dataphin的前世今生：缘起

国内首款基于.NET Core平台的大数据可视化分析工具

大数据时代，必须做好这3大布局：才能抢占新的造富

C4D 学习笔记

随机推荐

为何Spark在编程界越来越吃香？Spark将成

技术扫盲：关于低代码编程的可持续性交付

互联网创业第一步，从他花3500美元买了个

NVIDIA GPU Operator分析一：NVIDIA驱动

Java编程内功-数据结构与算法「赫夫曼树

没有数据的数据科学？请尽早聘用数据工程

溢价域名的续费价格如何

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

TIOBE 3月榜单：新功能将加入，C语言仍高

一日一技：巧用or关键字实现多重条件判断

关于我们