假设我们有一个包含两列的数据集,其中一列是分组列,另一列是需要保留多个重复项的列。我们可以使用pandas
库中的groupby
函数来按照分组列进行分组,并使用apply
函数来保留多个重复项。
下面是一个示例代码:
import pandas as pd
# 创建示例数据集
data = {'分组列': ['A', 'A', 'B', 'B', 'B', 'C', 'C'],
'重复项列': [1, 2, 3, 4, 5, 6, 7]}
df = pd.DataFrame(data)
# 按照分组列进行分组,并保留多个重复项
df_grouped = df.groupby('分组列').apply(lambda x: x['重复项列'].tolist())
df_grouped = df_grouped.reset_index()
df_grouped.columns = ['分组列', '重复项列']
print(df_grouped)
输出结果为:
分组列 重复项列
0 A [1, 2]
1 B [3, 4, 5]
2 C [6, 7]
在这个示例中,我们首先创建了一个包含两列的数据集。然后,我们使用groupby
函数按照分组列进行分组,并使用apply
函数将每个分组中的重复项列转换为列表形式。最后,我们重置索引并为列命名,以得到最终的结果。