在创建 BeautifulSoup 对象时,需要指定正确的编码方式。例如,如果 HTML 文档使用 UTF-8 编码,则应该使用以下代码:
from bs4 import BeautifulSoup
import requests
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')
如果网页使用其他编码方式,则应该将 'utf-8' 替换为正确的编码方式。这样 Beautiful Soup 就能正确地解码阿拉伯文字和其他非 ASCII 字符了。