以下是一个示例代码,可以按照最早的访问日期连接表格:
import pandas as pd
# 创建示例数据
data1 = {'ID': [1, 2, 3, 4],
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Access_Date': ['2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01']}
data2 = {'ID': [1, 2, 3, 4],
'Age': [25, 30, 35, 40],
'Access_Date': ['2021-01-05', '2021-02-02', '2021-03-03', '2021-04-04']}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
# 将Access_Date列转换为日期格式
df1['Access_Date'] = pd.to_datetime(df1['Access_Date'])
df2['Access_Date'] = pd.to_datetime(df2['Access_Date'])
# 按Access_Date列进行升序排序
df1 = df1.sort_values('Access_Date')
df2 = df2.sort_values('Access_Date')
# 使用merge函数按ID列连接两个表格
merged_df = pd.merge(df1, df2, on='ID')
# 打印连接后的表格
print(merged_df)
这段代码首先创建了两个示例数据表df1
和df2
,每个表都有一个ID和一个访问日期(Access_Date)列。然后,使用pd.to_datetime()
函数将访问日期列转换为日期格式,并使用sort_values()
函数按照访问日期升序排序两个表格。最后,使用merge()
函数按照ID列连接两个表格,并将结果存储在merged_df
中。最后,打印连接后的表格。
上一篇:按最新值分组的SQL
下一篇:按最早日期选择唯一ID