以下是一个示例代码,用于遍历Microdata以提取itemprop和文本值:
from bs4 import BeautifulSoup
def extract_microdata(soup):
items = soup.find_all(itemprop=True)
data = []
for item in items:
itemprop = item['itemprop']
text = item.get_text(strip=True)
data.append((itemprop, text))
return data
# 使用示例
html = """
Product 1
Description 1
Product 2
Description 2
"""
soup = BeautifulSoup(html, 'html.parser')
data = extract_microdata(soup)
print(data)
输出结果为:
[('name', 'Product 1'), ('description', 'Description 1'), ('name', 'Product 2'), ('description', 'Description 2')]
在这个示例中,我们使用了BeautifulSoup库来解析HTML,并定义了一个函数extract_microdata
来提取Microdata信息。函数首先使用find_all
方法找到所有有itemprop
属性的元素。然后,遍历这些元素,获取itemprop
属性的值和元素的文本值,并将它们以元组的形式添加到data
列表中。最后,返回data
列表作为结果。
使用示例中的HTML代码作为输入,我们可以得到一个包含所有Microdata信息的列表。每个元素都由itemprop
属性的值和元素的文本值组成。
下一篇:遍历命名区域并更新值