使用pandas库中的DataFrame的loc[]方法,指定条件,选择符合条件的列。
示例代码:
import pandas as pd
# 构造数据
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Gender': ['Female', 'Male', 'Male'],
'Salary': [5000, 6000, 7000]
}
df = pd.DataFrame(data)
# 保留符合条件的列
new_df = df.loc[:, df.dtypes == int] # 保留数据类型为整数的列
new_df = df.loc[:, 'Age'] >= 30 # 保留年龄大于等于30的列
new_df = df.loc[:, ['Name', 'Salary']] # 保留姓名和薪水两列的数据
其中,第一行代码构造了一个包含姓名、年龄、性别、薪水的数据表格(DataFrame)。
第二行代码中,指定df中数据类型为int的列,通过loc[]方法选择符合条件的列。其实现逻辑为:通过df.dtypes == int先筛选出符合条件的列名(即返回一个布尔型的Series),然后传递给loc[]方法,选择是True的列。
第三行代码中,选择年龄大于等于30的列。
第四行代码中,选择姓名和薪水两列的数据。需要注意的是,这里需要传递一个包含要保留列名的列表给loc[]方法。
上一篇:保留浮点数小数点后两位
下一篇:保留符合条件的列中的数值