要遍历PDF文件以创建数据框架,你可以使用Python的PyPDF2库来解析PDF文件,并使用Pandas库来创建数据框架。以下是一个示例代码:
import os
import PyPDF2
import pandas as pd
# 定义一个函数来遍历PDF文件并创建数据框架
def read_pdf_files(directory):
# 创建一个空的数据框架
df = pd.DataFrame(columns=['File Name', 'Text'])
# 遍历目录中的所有PDF文件
for filename in os.listdir(directory):
if filename.endswith('.pdf'):
file_path = os.path.join(directory, filename)
# 打开PDF文件
with open(file_path, 'rb') as file:
# 创建PDF阅读器对象
pdf_reader = PyPDF2.PdfReader(file)
# 遍历PDF中的所有页面
for page_num in range(len(pdf_reader.pages)):
# 提取页面文本
page = pdf_reader.pages[page_num]
text = page.extract_text()
# 将文件名和文本添加到数据框架中
df = df.append({'File Name': filename, 'Text': text}, ignore_index=True)
return df
# 指定PDF文件所在目录
pdf_directory = 'path/to/pdf/files'
# 调用函数来遍历PDF文件并创建数据框架
pdf_df = read_pdf_files(pdf_directory)
# 打印数据框架
print(pdf_df)
在上述代码中,你需要将pdf_directory
变量更改为包含PDF文件的目录的路径。代码将遍历该目录下的所有PDF文件,并将每个文件的文件名和文本内容添加到数据框架中。最后,数据框架将被打印出来。