可以使用BeautifulSoup中的.text属性或.get_text()方法获取HTML标记中的所有文本。例如:
from bs4 import BeautifulSoup
html = """
这里是第一段文字
这里是第二段文字
这里是一个span标签
"""
soup = BeautifulSoup(html, 'html.parser')
# 获取所有文本
text = soup.get_text()
print(text)
"""
这里是第一段文字
这里是第二段文字
这里是一个span标签
"""
# 获取body标记内的所有文本
body_text = soup.body.get_text()
print(body_text)
"""
这里是第一段文字
这里是第二段文字
这里是一个span标签
"""