要将HTML转换为DOCX并保留样式,可以使用Python中的python-docx库。
以下是一个示例代码,展示了如何使用python-docx库将HTML转换为DOCX文件:
from docx import Document
from bs4 import BeautifulSoup
# 读取HTML文件
with open('input.html', 'r') as f:
html_content = f.read()
# 创建一个新的DOCX文档
doc = Document()
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')
# 查找所有的段落标签
paragraphs = soup.find_all('p')
# 将每个段落标签的内容添加到DOCX文档中
for p in paragraphs:
doc.add_paragraph(p.get_text())
# 保存DOCX文件
doc.save('output.docx')
在此示例中,我们首先使用python-docx库创建了一个新的DOCX文档。然后,我们使用BeautifulSoup库解析HTML内容。接下来,我们查找所有的段落标签,并使用get_text()
方法获取每个段落标签的文本内容。最后,我们将每个段落的文本内容添加到DOCX文档中,并将其保存为output.docx文件。
要运行此代码,您需要先安装python-docx和beautifulsoup4库。您可以使用以下命令通过pip安装它们:
pip install python-docx beautifulsoup4
请注意,此示例仅提供了将HTML中的段落转换为DOCX的基本示例。如果您的HTML包含其他元素(如标题、表格、列表等),您需要相应地修改代码以处理这些元素。