Pandas 中的内存错误

当前位置：主页 > 学无止境 >

WEB前端编程语言网络算法操作系统数据库

Pandas 中的内存错误

作者：迹忆客最近更新：2023/03/21 浏览次数：

本篇文章探讨了 Pandas 中内存错误的概念。

什么是 Pandas 的内存错误

在使用 Pandas 时，分析师可能会遇到代码解释器抛出的多个错误。这些错误范围很广，可以帮助我们更好地调查问题。

在本篇文章中，我们旨在更好地了解 Pandas 引发的内存错误、引发该错误的原因以及解决该错误的潜在方法。

首先，让我们了解这个错误的含义。内存错误意味着你尝试访问的服务器或数据库上没有足够的内存来完成你希望执行的操作或任务。

此错误通常与数百 GB 的文件和 CSV 数据相关。了解导致此错误的原因并避免此类错误以拥有更多数据存储非常重要。

解决此错误还可以帮助开发具有适当规则管理的高效和彻底的数据库。

假设我们试图从一个包含超过 1000 GB 数据的 CSV 文件中获取数据，我们自然会遇到上面讨论的内存错误。这个错误可以在下面说明。

MemoryError
Press any key to continue . . .

有一种方法可以潜在地避免这种内存错误。但是，在我们这样做之前，让我们创建一个虚拟 DataFrame 来使用。

我们将此 DataFrame 称为 dat1。让我们使用以下代码创建此 DataFrame。

import pandas as pd
dat1 = pd.DataFrame(pd.np.random.choice(['1.0', '0.6666667', '150000.1'],(100000, 10)))

该查询创建从 0 到 9 索引的 10 列和 100000 个值。要查看数据中的条目，我们使用以下代码。

print(dat1)

上面的代码给出了以下输出。

               0          1          2  ...          7          8          9
0            1.0        1.0        1.0  ...   150000.1  0.6666667  0.6666667
1      0.6666667  0.6666667        1.0  ...  0.6666667   150000.1  0.6666667
2            1.0        1.0   150000.1  ...   150000.1        1.0   150000.1
3       150000.1  0.6666667  0.6666667  ...        1.0   150000.1        1.0
4       150000.1  0.6666667   150000.1  ...   150000.1  0.6666667  0.6666667
...          ...        ...        ...  ...        ...        ...        ...
99995   150000.1   150000.1        1.0  ...   150000.1        1.0  0.6666667
99996        1.0        1.0   150000.1  ...  0.6666667  0.6666667   150000.1
99997   150000.1   150000.1        1.0  ...  0.6666667   150000.1  0.6666667
99998        1.0  0.6666667  0.6666667  ...  0.6666667        1.0   150000.1
99999        1.0  0.6666667   150000.1  ...        1.0   150000.1        1.0

[100000 rows x 10 columns]

如何避免 Pandas 中的内存错误

现在让我们使用以下代码查看此 DataFrame 占用的总空间。

resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

代码给出以下输出。

# 224544 (~224 MB)

为了避免在单个 DataFrame 上花费太多空间，让我们通过准确指定我们正在处理的数据类型来做到这一点。

这有助于我们减少所需的总内存，因为需要更少的空间来理解数据类型，并且可以将更多空间分配给正在考虑的实际数据。

我们可以使用以下查询来做到这一点。

df = pd.DataFrame(pd.np.random.choice([1.0, 0.6666667, 150000.1],(100000, 10)))
resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

代码的输出如下。

# 79560 (~79 MB)

由于我们在这里通过不分配字符串将数据类型指定为 int，因此我们成功地减少了数据所需的内存空间。

因此，我们通过本篇文章了解了关于 Pandas 中抛出的内存错误的含义、原因和潜在的解决方案。

上一篇：如何在 Linux 中使用终端创建文件

下一篇：使用 GPT-4 执行自然语言处理 (NLP) 任务

转载请发邮件至 1244347461@qq.com 进行申请，经作者同意之后，转载请以链接形式注明出处

本文地址：

Pandas DataFrame DataFrame.shift() 函数

发布时间：2024/04/24 浏览次数：133 分类：Python

DataFrame.shift() 函数是将 DataFrame 的索引按指定的周期数进行移位。

Pandas pandas.melt() 函数

发布时间：2024/04/24 浏览次数：101 分类：Python

pandas.melt()函数可以转换 DataFrame。

Python pandas.pivot_table() 函数

发布时间：2024/04/24 浏览次数：82 分类：Python

Python Pandas pivot_table()函数通过对数据进行汇总，避免了数据的重复。

Pandas read_csv()函数

发布时间：2024/04/24 浏览次数：254 分类：Python

Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。

Pandas 追加数据到 CSV 中

发布时间：2024/04/24 浏览次数：352 分类：Python

本教程演示了如何在追加模式下使用 to_csv()向现有的 CSV 文件添加数据。

Pandas 多列合并

发布时间：2024/04/24 浏览次数：628 分类：Python

本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。

用多个条件过滤 Pandas DataFrame

发布时间：2024/04/24 浏览次数：649 分类：Python

本教程解释了如何根据多个条件从 DataFrame 中过滤元素。

Pandas loc vs iloc

发布时间：2024/04/24 浏览次数：837 分类：Python

本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。

在 Python 中将 Pandas 系列的日期时间转换为字符串

发布时间：2024/04/24 浏览次数：894 分类：Python

了解如何在 Python 中将 Pandas 系列日期时间转换为字符串

迹忆客专注技术分享