在Beautiful Soup中,table标签可以包含thead、tbody和tfoot标签。有些网站可能会将表头信息放在thead标签中,而将数据放在tbody标签中。此时使用Beautiful Soup只能找到表格的一部分。为了解决这个问题,可以使用如下代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table')
tbody = table.find('tbody')
rows = tbody.find_all('tr')
for row in rows:
# 处理每一行数据
以上代码首先找到table标签,然后再找到其中的tbody标签。接着使用find_all方法找到tbody中的所有行(tr标签),然后逐行处理即可。这样就能避免因表头信息放在thead标签中而找不到表格的问题。