迹忆客 专注技术分享

当前位置:主页 > 学无止境 > 编程语言 > Python >

在 Python 中将 PDF 转换为文本

作者:迹忆客 最近更新:2023/04/26 浏览次数:

Python 框架不仅仅用于构建应用程序。 我们可以使用 Python 将 PDF 文档转换为 .txt 文件。

当我们将 PDF 文件转换为文本时,页面内容变为可编辑,这是 PDF 文件不可能做到的。 我们可以使用不同的库将 PDF 转换为文本。 让我们尝试一些。


使用 PyPDF2 在 Python 中将 PDF 转换为文本

我们将使用的第一个方法是 PyPDF2 库。 我们将在终端内使用 pip install PyPDF2 安装它。

完成后,我们将创建一个新文件并将其命名为 new.py。 接下来,我们将导航到文件并输入这些代码。

代码片段- new.py:

import PyPDF2

pdfFileObj = open(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

print(pageObj.extractText())

pdfFileObj.close()

运行此代码后,请稍等片刻。 您应该在终端内看到纯文本,然后您可以将其复制并粘贴到 Word 文档或记事本中。

输出:

Converting PDF to Text Using PyPDF2


使用 Aspose 在 Python 中将 PDF 转换为文本

Aspose PDF 到 Python 的文本转换器提供了比 PyPDF2 更短的代码片段,但它同样高效。 此外,Aspose 将文本创建到 .txt 文件中,这与第一个在终端内生成文本内容的示例不同。

我们将从我们的终端安装 Aspose:pip install aspose-words。 安装后,创建一个新文件来存放代码,然后放入这些代码片段。

代码片段- new.py:

import aspose.words as aw

doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")

导入 Aspose 后,我们声明要转换为文本的文件的路径。 然后,我们在 doc.save 中声明 .txt 文件的目标路径。

输出:

Converting PDF to Text Using Aspose


使用 PDFminer 在 Python 中将 PDF 转换为文本

最后,我们将使用 PDFminer 从 PDF 中提取文本。 我们将观察到 PDFminer 比 PyPDF 提取更多的文本并且需要更少的代码。

通过在终端中输入 pip install pdfminer.six 来安装 PDFminer。 安装后,创建一个新的 Python 文件,将其命名为 new.py 或您选择的任何名称,然后输入这些代码。

from pdfminer.high_level import extract_text

text = extract_text(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf')
print(repr(text))

片刻之后,您将在终端中看到文本。 然后您可以将其从那里复制到文档中。


总结

我们大多数人通常都喜欢上网将 PDF 文件转换为文本,但发现我们可以用 Python 做到这一点,可以减轻我们上网的压力,也可以帮助我们应对网络上泄露敏感数据的风险。

转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处

本文地址:

相关文章

Django 中的 Slug

发布时间:2023/05/04 浏览次数:173 分类:Python

本篇文章旨在定义一个 slug 以及我们如何使用 slug 字段在 Python 中使用 Django 获得独特的帖子。

Django ALLOWED_HOSTS 介绍

发布时间:2023/05/04 浏览次数:181 分类:Python

本文展示了如何创建您的 Django 网站,为公开发布做好准备,如何设置 ALLOWED_HOSTS 以及如何在使用 Django 进行 Web 部署期间修复预期的主要问题。

Django 中的 Select_related 方法

发布时间:2023/05/04 浏览次数:129 分类:Python

本文介绍了什么是查询集,如何处理这些查询以及我们如何利用 select_related() 方法来过滤 Django 中相关模型的查询。

在 Django 中上传媒体文件

发布时间:2023/05/04 浏览次数:198 分类:Python

在本文中,我们简要介绍了媒体文件以及如何在 Django 项目中操作媒体文件。

Django 返回 JSON

发布时间:2023/05/04 浏览次数:106 分类:Python

在与我们的讨论中,我们简要介绍了 JSON 格式,并讨论了如何借助 Django 中的 JsonResponse 类将数据返回为 JSON 格式。

在 Django 中创建对象

发布时间:2023/05/04 浏览次数:59 分类:Python

本文的目的是解释什么是模型以及如何使用 create() 方法创建对象,并了解如何在 Django 中使用 save() 方法。

在 Django 中为多项选择创建字段

发布时间:2023/05/04 浏览次数:75 分类:Python

在本文中,我们将着眼于为多项选择创建一个字段,并向您展示如何允许用户在 Django 中进行多项选择。

扫一扫阅读全部技术教程

社交账号
  • https://www.github.com/onmpw
  • qq:1244347461

最新推荐

教程更新

热门标签

扫码一下
查看教程更方便