这是一个段落
这是一个内部的段落可以使用正则表达式来匹配需要查找的标签,并忽略其中的<span>
标签。以下是示例代码:
import re
from bs4 import BeautifulSoup
html = """
这是一个段落
这是一个内部的段落
"""
soup = BeautifulSoup(html, 'lxml')
pattern = re.compile('^((?!).)*$') # 忽略标签的正则表达式
paragraph = soup.find('p', string=pattern) # 查找带有指定文本内容的标签
print(paragraph)
在上述代码中,我们使用了正则表达式^((?!).)*$
来匹配除了标签以外的所有标签。然后,我们将该正则表达式传递给
find()
方法的string
参数,以查找带有特定文本内容的标签。最终,我们将返回的标签赋值给变量paragraph
并打印它的内容。