我们可以使用dplyr包中的group_by和mutate函数来解决这个问题。假设我们的数据集名为df,需要计算特定值为"yes"的两行之间的案例数,可以按照下列代码操作:
library(dplyr)
df %>%
group_by(group_var) %>%
mutate(case_count = cumsum(value == "yes" & lag(value) != "yes"))
其中,group_var是数据集中的分组变量,value是需要计算的值。这段代码将分组计算“yes”值的出现次数,并将结果存储在新的列“case_count”中。
例如,如果我们有一个名为“df”的数据集,其中包含分组变量“group_var”和值“value”,我们可以使用以下代码来计算“yes”值的案例数:
df <- data.frame(group_var = c("A","A","A","B","B","C","C","C"),
value = c("no","yes","yes","no","no","yes","no","yes"))
df %>%
group_by(group_var) %>%
mutate(case_count = cumsum(value == "yes" & lag(value) != "yes"))
这将返回以下结果:
# A tibble: 8 x 3
# Groups: group_var [3]
group_var value case_count
1 A no 0
2 A yes 1
3 A yes 1
4 B no 0
5 B no 0
6 C yes 1
7 C no 1
8 C yes 2
这个结果表明,在A组中,第一次出现“yes”的案例数为1,第二次出现“yes”的案例数仍为1;在B组中没有出现“yes”,所以案例数为0;在C组中,第一次出现“yes”的案
下一篇:按组计算唯一分类特征的滚动计数