要获取云防火墙网站的实际内容,而不是防火墙网站的内容,可以使用以下代码示例:
import requests
from bs4 import BeautifulSoup
# 网站的URL
url = "https://example.com"
# 设置请求头,伪装为浏览器请求
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36"
}
# 使用 requests 发送 GET 请求,获取网页内容
response = requests.get(url, headers=headers)
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.content, "html.parser")
# 打印网页标题
print(soup.title.text)
首先,我们使用 requests
库发送一个 GET 请求来获取网页内容。为了绕过云防火墙的限制,我们设置了一个伪装的请求头,使其看起来像是真实的浏览器请求。
然后,使用 BeautifulSoup
解析获取的网页内容。这里使用了 "html.parser"
解析器,你也可以使用其他解析器,例如 "lxml"
或 "html5lib"
。
最后,我们打印了网页的标题,你可以根据自己的需要修改和处理解析到的网页内容。