pandas中的数据去重处理的实现方法
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset=None,keep=‘first')返回booleanSeries表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
- first:标记重复,True除了第一次出现。
- last:标记重复,True除了最后一次出现。
- 错误:将所有重复项标记为True。
importnumpyasnp
importpandasaspd
frompandasimportSeries,DataFrame
df=pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique())#[0.1.]
#使用duplicated查看重复值
#参数keep可以标记重复值{'first','last',False}
print(df['Seqno'].duplicated())
'''
0False
1True
2True
3True
4False
Name:Seqno,dtype:bool
'''
#删除series重复数据
print(df['Seqno'].drop_duplicates())
'''
00.0
41.0
Name:Seqno,dtype:float64
'''
#删除dataframe重复数据
print(df.drop_duplicates(['Seqno']))#按照Seqno来去重
'''
PriceSeqnoSymboltime
01623.00.0APPL1473411962
41649.01.0APPL1473411963
'''
#drop_dujplicates()第二个参数keep包含的值有:first、last、False
print(df.drop_duplicates(['Seqno'],keep='last'))#保存最后一个
'''
PriceSeqnoSymboltime
31623.00.0APPL1473411963
41649.01.0APPL1473411963
'''
pandas去除重复行
DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
subset : 指定列,默认情况下使用所有列
keep : {'first','last',False},默认'first'
first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。
inplace : 布尔值,默认为False 是否删除重复项或返回副本
栗子:
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。