使用Python中的requests和BeautifulSoup库来爬取静态URL页面。基本思路是使用requests获取页面源代码,然后使用BeautifulSoup解析HTML,并采用循环来遍历每个页面。以下是一个示例代码:
import requests
from bs4 import BeautifulSoup
url = "https://example.com/page/"
# 遍历 1 到 10 的页面
for i in range(1, 11):
page_url = url + str(i) # 根据页面编号构建完整的URL
response = requests.get(page_url) # 获取页面源代码
soup = BeautifulSoup(response.content, "html.parser") # 使用BeautifulSoup解析HTML
# 在这里可以对页面进行操作,比如提取数据等
在以上代码中,我们首先定义了静态URL的基础链接,然后使用循环遍历每个页码,根据页码构建完整的URL,使用requests获取页面源代码,使用BeautifulSoup解析HTML,并对页面进行操作。这个示例代码适用于静态URL中页码部分只是数字的情况。您可以根据具体情况进行调整。