在Python中,可以使用pandas库来按照关键变量分组选择长表中的案例。
首先,需要导入pandas库:
import pandas as pd
接下来,假设我们有一个名为df的DataFrame,其中包含了一个关键变量(key)和其他要选择的变量(var1、var2等):
df = pd.DataFrame({'key': ['A', 'B', 'A', 'B', 'A', 'B'],
'var1': [1, 2, 3, 4, 5, 6],
'var2': [7, 8, 9, 10, 11, 12]})
现在,我们想要按照关键变量(key)进行分组,并选择每组中的第一个案例。可以使用groupby函数来实现这个目标:
grouped = df.groupby('key').first()
这将创建一个按照关键变量进行分组的DataFrame,其中每组只包含第一个案例。如果想选择其他变量,可以在groupby函数后面使用[ ]来指定需要选择的变量:
grouped = df.groupby('key')['var1', 'var2'].first()
以上代码将只选择var1和var2这两个变量。
另外,如果想选择每组中的最后一个案例,可以使用last函数:
grouped = df.groupby('key').last()
需要注意的是,groupby函数返回的是一个GroupBy对象,需要使用first或last函数来选择具体的案例。如果想要将结果重新转换为DataFrame,可以使用reset_index函数:
grouped = grouped.reset_index()
以上就是按照关键变量分组选择长表中的案例的代码示例。