假设有一个名为customer的数据框,其中包含顾客的注册时间和第一个渠道信息。
customer <- data.frame(
registration_date = c("2022-01-01", "2022-01-02", "2022-01-03", "2022-02-01", "2022-02-02", "2022-03-01", "2022-03-02", "2022-03-03"),
first_channel = c("A", "B", "C", "C", "B", "A", "C", "C")
)
我们可以使用dplyr包来对数据框进行操作,先对注册时间进行月份分组,再按照第一个渠道信息进行分组,最后计算每个组中的重复顾客数量。
library(dplyr)
customer %>%
group_by(month(registration_date), first_channel) %>%
summarise(return_customers = sum(duplicated(registration_date)))
输出的结果将会如下所示,其中第一列为月份,第二列为第一个渠道,第三列为返回的重复客户数量。
# A tibble: 6 x 3
# Groups: month(registration_date) [3]
`month(registration_date)` first_channel return_customers
1 1 A 0
2 1 B 0
3 1 C 0
4 2 B 1
5 2 C 1
6 3 C 1
上一篇:按月份合并记录