要按照相同变量重新排列列,并按时间排序,可以使用Python中的pandas库。
首先,导入必要的库:
import pandas as pd
然后,创建一个DataFrame对象,包含原始数据:
data = {'时间': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
'变量A': [1, 2, 3, 4],
'变量B': [5, 6, 7, 8]}
df = pd.DataFrame(data)
接下来,使用pandas的melt函数将宽数据变为长数据,并按照时间排序:
df_long = pd.melt(df, id_vars=['时间'], value_vars=['变量A', '变量B'], var_name='变量', value_name='值')
df_long.sort_values(by=['变量', '时间'], inplace=True)
最后,得到按照相同变量重新排列列,并按时间排序的清理后的长数据:
时间 变量 值
0 2021-01-01 变量A 1
2 2021-01-02 变量A 3
1 2021-01-01 变量B 5
3 2021-01-02 变量B 7
这样,你就得到了按照相同变量重新排列列,并按时间排序的清理后的长数据。
下一篇:按照相同的表ID进行分组