下面的代码示例演示了如何使用BeautifulSoup库进行网页爬取和HTML解析:
from bs4 import BeautifulSoup
import requests
# 发送HTTP GET请求
url = "http://example.com"
response = requests.get(url)
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, "html.parser")
# 找到所有的标签
for link in soup.find_all("a"):
# 输出链接的文本和URL
print(link.text.strip())
print(link.get("href"))
在这个示例中,我们首先使用requests
库发送一个HTTP GET请求,获取网页的内容。然后,将网页内容传递给BeautifulSoup
对象进行解析。
接下来,我们可以使用BeautifulSoup
的各种方法和属性来找到特定的HTML元素。在这个示例中,我们使用find_all
方法找到所有的标签,并使用
text
属性获取链接的文本,使用get
方法获取链接的URL。
你可以根据需要修改示例代码来适应你要爬取的网页和解析的HTML结构。