2022-12-28 10:23:00
python是一种轻量级的、高效的、开源的脚本语言,它可以用来进行各种复杂的数据处理,包括http、文件夹、xml、模块代码、多媒体等等。它具有简单易学、大量文档和社区支持,使它极容易受欢迎,也使它在世界范围内飞速发展。不仅如此,许多第三方程序都支持它。因此,python也已成功应用于许多种主要文件格式的读取,例如
pdf(portable document format)。
pdf是一种常用的文件格式,在许多企业都有广泛的使用,可以用于传输/浏览和复印,出版等场景。由于pdf格式不包含隐藏的元数据,一般用户无法从中访问数据。但是通过python编程,可以实现从pdf中读取数据。
为此,python提供了许多内置或第三方库来读取pdf文件,这些库代表了不同的pdf处理库,比如pdfminer、pypdf等。这些处理库统一提供一个可调用的pdf文件对象,在其中,可以轻松得到文本(text)、标签(markup)、字体(font)等。这些剥离的pdf元素可以存储在python结构对象中,例如字典或列表。
因此,我们可以利用python来从pdf文档中收集所需的数据。最后,你只需要按照特定的逻辑处理这些数据,就能以多样的格式显示结果;也正是这允许然我们将重要信息展示给客户端这样简单而又高效的原因。

可以使用pypdf2,tabula, pdfminer 等。
python读取pdf目录

可以使用pypdf2库来读取pdf文件的目录。例如:
import pypdf2
#opening a pdf document
fp = open('path-to-pdf-file-to-read', 'rb')
#creating pdf reader object
pdf reader = pypdf2.pdffilereader(fp)
#creating a list of page objects
pages = [pdfreader.getpage(pagenum) for pagenum in range(pdfreader.numpages)]
#getting the number of pages
number_of_pages = pdfreader.numpages
#printing the page content
for i in range(number_of_pages):
print(pages[i].extracttext());