使用BeautifulSoup和pandas库来解析HTML表格数据。下面的示例代码演示了如何仅解析表头数据。
首先,导入需要的库。
from bs4 import BeautifulSoup
import pandas as pd
然后,获取HTML表格数据并将其传递给BeautifulSoup对象进行解析。
html_data = """
Name
Age
Gender
John
25
Male
Jane
30
Female
"""
soup = BeautifulSoup(html_data, 'html.parser')
接下来,使用find_all方法查找表格数据的表头部分并使用列表解析器获取表头数据。
table_head = soup.find_all('th')
headers = [th.text.strip() for th in table_head]
最后,如果仅需要解析表头数据,则可以使用pandas库中的DataFrame方法将表头数据转换为数据框。
df = pd.DataFrame(columns=headers)
print(df)
输出结果如下所示:
Empty DataFrame
Columns: [Name, Age, Gender]
Index: []