BeautifulSoup 网络爬虫 find_all( )：排除的元素追加为最后一个元素。_程序开发

BeautifulSoup 网络爬虫 find_all( )：排除的元素追加为最后一个元素。

创始人

2024-11-27 09:00:28

0次

使用BeautifulSoup库的find_all()方法可以方便地从HTML或XML文档中提取需要的元素。如果想要排除某些元素，可以将它们追加为最后一个元素。

以下是一个使用BeautifulSoup进行网络爬虫的示例代码，其中包含了排除元素的解决方法：

from bs4 import BeautifulSoup
import requests

url = "http://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# 排除的元素列表
exclude_list = ["script", "style"]

# 找到所有标签为的元素，排除exclude_list中的元素
div_tags = soup.find_all("div", recursive=True)
for tag in soup.find_all(exclude_list):
    if tag in div_tags:
        div_tags.remove(tag)

# 打印提取的元素内容
for div in div_tags:
    print(div.text)

在上面的代码中，我们首先导入了BeautifulSoup和requests库。然后，我们指定了要爬取的网页URL，并发送GET请求获取响应。接下来，我们使用BeautifulSoup解析响应文本，并指定解析器为html.parser。

定义了一个排除的元素列表exclude_list，其中包含了我们不想要提取的元素，例如