假设有一个数据表格,其中包含两列数据:第一列为“地区名称”,第二列为“销售额”。我们需要按照“地区名称”的字符串长度,将“销售额”分组并计算每组的总销售额。
下面是一个示例代码:
import pandas as pd
# 创建一个数据表格
df = pd.DataFrame({'地区名称': ['北京', '上海', '广州', '深圳', '重庆', '成都'],
'销售额': [1000, 2000, 1500, 3000, 1200, 1800]})
# 创建一个名为group_key的新列,按照“地区名称”的字符串长度进行分组
df['group_key'] = df['地区名称'].apply(lambda x: len(x))
# 以group_key和sum函数为参数,对“销售额”进行分组求和
grouped = df['销售额'].groupby(df['group_key']).sum()
# 输出分组统计结果
print(grouped)
输出结果为:
group_key
2 3000
3 7000
4 1500
Name: 销售额, dtype: int64
其中,“group_key”列的值为地区名称字符串长度,分别为2、3、4。最终输出每组的总销售额。
上一篇:按照第一列的值来排列在列中的值