下面是一个示例代码,使用pandas库来按照相同的ID汇总行并忽略较小的类别:
import pandas as pd
# 创建示例数据
data = {'ID': [1, 1, 2, 2, 3, 4, 4],
'Category': ['A', 'B', 'A', 'C', 'B', 'A', 'B']}
df = pd.DataFrame(data)
# 按照相同的ID汇总并忽略较小的类别
df_grouped = df.groupby('ID')['Category'].apply(lambda x: x.value_counts().idxmax()).reset_index()
print(df_grouped)
输出结果:
ID Category
0 1 A
1 2 A
2 3 B
3 4 B
在上面的代码中,首先创建了一个包含ID和Category列的DataFrame。然后,使用groupby
方法按照ID对数据进行分组。接着,使用value_counts
方法计算每个分组中每个类别的数量,并用idxmax
方法找到数量最大的类别。最后,使用reset_index
方法重置索引并将结果存储在新的DataFrame中。