要保留具有特定格式的列,可以使用正则表达式(Regex)来筛选数据。
以下是一个使用Python pandas库进行数据处理的示例代码:
import pandas as pd
# 创建示例数据
data = {'Name': ['John', 'Mike', 'Sarah'],
'Email': ['john@example.com', 'mike@gmail.com', 'sarah@example.com'],
'Phone': ['123-456-7890', '555-123-4567', '987-654-3210']}
df = pd.DataFrame(data)
# 使用正则表达式筛选符合特定格式的列
df['Phone'] = df['Phone'].str.extract(r'(\d{3}-\d{3}-\d{4})')
# 打印筛选后的数据
print(df)
在上述代码中,我们创建了一个包含姓名、电子邮件和电话号码的示例数据。然后,我们使用正则表达式(\d{3}-\d{3}-\d{4})
来提取符合特定格式(即3个数字-3个数字-4个数字)的电话号码,并将其更新到原始数据中的“Phone”列。
运行该代码将输出如下结果:
Name Email Phone
0 John john@example.com 123-456-7890
1 Mike mike@gmail.com 555-123-4567
2 Sarah sarah@example.com 987-654-3210
通过提取符合特定格式的数据,我们成功保留了具有特定格式的列。
下一篇:保留具有特定结尾的行。