BeautifulSoup是一个Python库,用于从HTML或XML文档中提取数据。要提取src标签,可以使用BeautifulSoup的find_all()方法来查找所有具有src属性的标签,并使用get()方法获取该属性的值。
以下是一个示例代码:
from bs4 import BeautifulSoup
html_doc = """
"""
soup = BeautifulSoup(html_doc, 'html.parser')
# 查找所有具有src属性的标签
img_tags = soup.find_all('img', src=True)
# 遍历所有的img标签,并打印src属性的值
for img in img_tags:
print(img['src'])
输出结果:
image1.jpg
image2.jpg
在上述代码中,我们首先创建了一个BeautifulSoup对象,将HTML文档作为参数传递给它。然后,我们使用find_all()方法查找所有具有src属性的img标签,并将它们存储在img_tags列表中。最后,我们遍历img_tags列表,并使用get()方法获取每个img标签的src属性值。
请注意,如果某个img标签没有src属性,get()方法将返回None。因此,在使用获取到的src属性值之前,请确保对其进行判断,以避免出现错误。