以下是一个示例,展示了如何按照变量分组以创建新表:
假设我们有一个包含学生姓名、年级和成绩的表格,我们想按照年级来创建一个新的表格,每个年级只包含相应年级的学生。
首先,我们需要导入所需的库和数据:
import pandas as pd
# 创建示例数据
data = {'姓名': ['小明', '小红', '小刚', '小李', '小花'],
'年级': ['一年级', '二年级', '一年级', '三年级', '二年级'],
'成绩': [90, 85, 95, 80, 88]}
df = pd.DataFrame(data)
接下来,我们可以使用groupby()
函数按照年级来分组数据,并使用apply()
函数将每个分组的数据放入一个新的表格:
# 按照年级分组,并创建新表格
new_df = df.groupby('年级').apply(lambda x: x.reset_index(drop=True))
# 重置索引
new_df = new_df.reset_index(drop=True)
最后,我们可以打印新的表格来查看结果:
print(new_df)
输出结果:
姓名 年级 成绩
0 小明 一年级 90
1 小刚 一年级 95
2 小红 二年级 85
3 小花 二年级 88
4 小李 三年级 80
以上代码示例演示了按照年级分组,创建了一个新的表格,其中每个年级只包含相应年级的学生。