pandas中的数据去重处理的实现方法
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset=None,keep=‘first')返回booleanSeries表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
- first:标记重复,True除了第一次出现。
- last:标记重复,True除了最后一次出现。
- 错误:将所有重复项标记为True。
importnumpyasnp importpandasaspd frompandasimportSeries,DataFrame df=pd.read_csv('./demo_duplicate.csv') print(df) print(df['Seqno'].unique())#[0.1.] #使用duplicated查看重复值 #参数keep可以标记重复值{'first','last',False} print(df['Seqno'].duplicated()) ''' 0False 1True 2True 3True 4False Name:Seqno,dtype:bool ''' #删除series重复数据 print(df['Seqno'].drop_duplicates()) ''' 00.0 41.0 Name:Seqno,dtype:float64 ''' #删除dataframe重复数据 print(df.drop_duplicates(['Seqno']))#按照Seqno来去重 ''' PriceSeqnoSymboltime 01623.00.0APPL1473411962 41649.01.0APPL1473411963 ''' #drop_dujplicates()第二个参数keep包含的值有:first、last、False print(df.drop_duplicates(['Seqno'],keep='last'))#保存最后一个 ''' PriceSeqnoSymboltime 31623.00.0APPL1473411963 41649.01.0APPL1473411963 '''
pandas去除重复行
DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
subset : 指定列,默认情况下使用所有列
keep : {'first','last',False},默认'first'
first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。
inplace : 布尔值,默认为False 是否删除重复项或返回副本
栗子:
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。