使用BeautifulSoup4库可以很方便地获取HTML或XML文档中的数据。下面是一个示例代码,演示如何使用BeautifulSoup4来获取3行数据而不是12行。
from bs4 import BeautifulSoup
# 假设这是要解析的HTML文档
html_doc = """
示例网页
标题1
段落1
标题2
段落2
标题3
段落3
标题4
段落4
标题5
段落5
标题6
段落6
"""
# 创建BeautifulSoup对象并指定解析器
soup = BeautifulSoup(html_doc, 'html.parser')
# 使用find_all方法找到所有的标题和段落标签
tags = soup.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'p'])
# 只获取前3行的数据
selected_tags = tags[:3]
# 打印选中的标签内容
for tag in selected_tags:
print(tag.text)
运行上述代码,将输出前3行的数据(标题1、段落1和标题2):
标题1
段落1
标题2