要解决这个问题,你可以使用一个空列表来存储所有页面的数据。然后,每次爬取一个页面后,将数据添加到列表中。
以下是一个示例代码,使用BeautifulSoup库爬取多个页面并将数据存储在列表中:
from bs4 import BeautifulSoup
import requests
# 创建一个空列表来存储页面数据
data_list = []
# 循环爬取多个页面
for page_num in range(1, 6):
# 构建URL
url = f"https://example.com/page/{page_num}"
# 发送GET请求并获取页面内容
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# 解析页面数据
# 这里假设你要提取页面中的标题
titles = soup.find_all("h1")
for title in titles:
data_list.append(title.text)
# 打印所有页面的数据
for data in data_list:
print(data)
在这个示例中,我们首先创建一个空列表data_list
来存储所有页面的数据。然后,使用一个循环来爬取多个页面。在循环中,我们根据页面编号构建URL,并发送GET请求来获取页面内容。然后,使用BeautifulSoup解析页面数据,这里假设我们要提取页面中的标题,并将标题文本添加到data_list
中。最后,我们打印所有页面的数据。
请根据你的实际需求修改代码来适应你要爬取的网站和要提取的数据。