可以使用Python中的pandas库解决这个问题。假设我们有一个名为“sales”的数据框,它包含以下列:user_id
、product_id
和purchase_date
。
首先,我们需要为每个用户分类,确定他们是第一次购买,第二次购买等。我们可以使用pandas的groupby和cumcount函数来实现。
sales['user_activity'] = sales.groupby('user_id').cumcount()+1
这个代码将按user_id
分组,并为每个用户添加一个新列user_activity
。 cumcount()
函数将在每个用户的购买日期上排序,并分配给该用户的第一次购买序号为1,第二次购买为2,以此类推。
接下来,我们将按每个用户和他们的购买活跃度(第1次购买,第2次购买等)按畅销产品分类。这可以使用groupby和agg方法来完成。
top_selling_products = sales.groupby(['user_id', 'user_activity'])['product_id'].agg(lambda x: x.value_counts().index[0])
这个代码将首先按user_id
和user_activity
分组,然后在product_id
上运行一个函数,该函数计算每个产品在每个组中的出现次数,并返回具有最高出现次数的产品ID。
最后,我们只需将数据呈现在一个更方便的格式中。这里,我们将结果存储为一个名为“top_selling_products”的新数据框,其中每个行都包含用户ID,购买活动和畅销产品ID。
top_selling_products = top_selling_products.reset_index()
top_selling_products.columns = ['user_id', 'user_activity', 'top_product_id']
这些代码将结果存储在名为“top_selling_products”的数据框中,我们可以像下面这样查看前5个条目。
print(top_selling_products.head())
输出如下:
| user_id | user_activity | top_product_id |
|---------|---------------|----------------|
| 1 | 1 | 123 |
| 1 | 2 | 456 |
| 2 |
上一篇:按用户计算文档数