在Beautiful Soup 3的早期版本中,字母“u”用于表示Unicode编码字符。然而,自Beautiful Soup 4的发布以来,这个字母已经被取消,因为Beautiful Soup 4自动处理Unicode编码字符。因此,在使用Beautiful Soup 4时,无需特别指定Unicode编码。
以下是一个示例代码,演示Beautiful Soup 4的自动处理Unicode编码:
from bs4 import BeautifulSoup
html = u"擅长使用Python进行数据挖掘和机器学习
"
soup = BeautifulSoup(html, "html.parser")
# 打印解析后的HTML输出
print(soup.prettify())
输出:
擅长使用Python进行数据挖掘和机器学习