可以使用pandas库来实现按照某一列分组,计算不同的连续行的数量。下面是一个代码示例:
import pandas as pd
# 创建一个示例数据集
data = {'col1': ['A', 'A', 'B', 'B', 'B', 'A', 'A', 'C', 'C', 'C', 'C'],
'col2': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]}
df = pd.DataFrame(data)
# 将数据集按照col1列分组
groups = df.groupby((df['col1'] != df['col1'].shift()).cumsum())
# 计算不同分组的连续行数量
group_counts = groups.size()
print(group_counts)
输出结果为:
1 2
2 3
3 2
4 4
dtype: int64
这里我们首先创建了一个示例数据集,包含两列。然后使用groupby
函数将数据集按照col1
列进行分组,其中(df['col1'] != df['col1'].shift()).cumsum()
这一部分是用来在不同的连续行之间创建一个新的分组标签。最后使用size
函数计算每个分组的数量。