要提取网页中的前100行表格数据,可以使用BeautifulSoup库来解析HTML,并使用切片来限制提取的行数。以下是一个示例代码:
from bs4 import BeautifulSoup
# 假设html为网页的HTML内容
html = """
标题1 标题2 标题3
数据1 数据2 数据3
数据4 数据5 数据6
数据7 数据8 数据9
数据10 数据11 数据12
"""
# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')
# 找到表格
table = soup.find('table')
# 获取表格的所有行
rows = table.find_all('tr')
# 限制提取的行数为前100行
limited_rows = rows[:100]
# 打印前100行的表格数据
for row in limited_rows:
cells = row.find_all('td')
for cell in cells:
print(cell.get_text(), end='\t')
print()
这段代码中,我们首先使用BeautifulSoup解析HTML内容,然后找到表格元素并获取所有行。接着,我们使用切片操作将行数限制为前100行,并遍历每一行提取表格数据。最后,我们使用get_text()
方法获取每个单元格的文本内容,并打印出来。