是的,BeautifulSoup非常适合解析HTML和XML文档。以下是一个使用BeautifulSoup解析HTML文档的示例代码:
from bs4 import BeautifulSoup
# 假设我们有一个HTML文档,名为index.html
html_doc = """
示例页面
欢迎来到示例页面
这是一个示例页面的正文内容。
- 列表项1
- 列表项2
- 列表项3
"""
# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')
# 输出页面标题
print("页面标题:", soup.title.string)
# 输出页面正文内容
content = soup.find('p', class_='content').text
print("正文内容:", content)
# 输出列表项
list_items = soup.find_all('li')
print("列表项:")
for item in list_items:
print(item.text)
在上述示例中,我们使用BeautifulSoup库将HTML文档解析成一个BeautifulSoup对象。然后,我们可以使用该对象的各种方法来提取所需的信息。在这个例子中,我们通过soup.title.string
获取页面标题,通过soup.find('p', class_='content').text
获取正文内容,通过soup.find_all('li')
获取所有的列表项。