以下是一个使用BeautifulSoup库在多个页面上爬取HTML表格的示例代码:
import requests
from bs4 import BeautifulSoup
# 定义要爬取的网页链接列表
urls = ['https://example.com/page1', 'https://example.com/page2', 'https://example.com/page3']
# 遍历每个网页链接
for url in urls:
# 发送HTTP请求获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 查找HTML表格
table = soup.find('table')
# 遍历表格的每一行
for row in table.find_all('tr'):
# 遍历行中的每一列
for cell in row.find_all('td'):
# 打印单元格内容
print(cell.text)
在上面的示例中,我们首先定义了一个包含要爬取的多个页面链接的列表。然后,使用requests库发送HTTP请求获取每个页面的内容。接下来,我们使用BeautifulSoup库将网页内容解析为HTML,并使用find方法查找HTML表格。然后,我们遍历表格的每一行,再遍历行中的每一列,打印出每个单元格的内容。
请注意,上述代码是一个简单示例,实际情况可能会更加复杂。根据不同的网页结构和需求,您可能需要进行适当的修改和调整。