子标题
这是另一个段落。
BeautifulSoup是一个Python库,用于从HTML和XML文件中解析数据。它提供了多种搜索方法来查找特定的标签或内容。
要使用BeautifulSoup进行通配符搜索,可以使用CSS选择器或正则表达式来指定要搜索的标签或内容。
以下是使用BeautifulSoup进行通配符搜索的示例代码:
使用CSS选择器:
from bs4 import BeautifulSoup
html = """
标题
这是一个段落。
子标题
这是另一个段落。
"""
soup = BeautifulSoup(html, 'html.parser')
# 使用通配符*查找所有标签
tags = soup.select('*')
for tag in tags:
print(tag)
# 使用通配符*查找所有class属性为"content"的标签
tags = soup.select('.content *')
for tag in tags:
print(tag)
输出:
标题
这是一个段落。
子标题
这是另一个段落。
标题
这是一个段落。
子标题
这是另一个段落。
子标题
这是另一个段落。
使用正则表达式:
from bs4 import BeautifulSoup
import re
html = """
标题
这是一个段落。
子标题
这是另一个段落。
"""
soup = BeautifulSoup(html, 'html.parser')
# 使用正则表达式查找所有标签名以"h"开头的标签
tags = soup.find_all(re.compile('^h'))
for tag in tags:
print(tag)
# 使用正则表达式查找所有class属性为"content"的标签
tags = soup.find_all(class_=re.compile('content'))
for tag in tags:
print(tag)
输出:
标题
子标题
标题
子标题