以下是一个示例代码,用于遍历文件夹中的文件,提取文本并创建一个单个数据框:
import os
import pandas as pd
def extract_text(file_path):
with open(file_path, 'r') as file:
text = file.read()
return text
def create_dataframe(root_folder):
data = {'File': [], 'Text': []}
for root, dirs, files in os.walk(root_folder):
for file in files:
file_path = os.path.join(root, file)
text = extract_text(file_path)
data['File'].append(file_path)
data['Text'].append(text)
df = pd.DataFrame(data)
return df
# 设置根文件夹路径
root_folder = '文件夹路径'
# 创建数据框
df = create_dataframe(root_folder)
# 打印数据框
print(df)
上述代码中,首先定义了两个函数:extract_text()
用于提取文件的文本内容,create_dataframe()
用于创建数据框。extract_text()
函数接受文件路径作为参数,并使用open()
函数打开文件并读取内容,并返回文本。create_dataframe()
函数接受根文件夹路径作为参数,使用os.walk()
函数遍历文件夹中的所有文件,并调用extract_text()
函数提取文本内容。提取的文件路径和文本内容分别存储在字典data
的键File
和Text
中。最后,使用pd.DataFrame()
函数将字典转换为数据框,并返回该数据框。
你需要将root_folder
变量设置为你想要遍历的文件夹的路径。运行代码后,将会输出一个包含文件路径和文本内容的数据框。