微客导航 » 文章资讯 » pandas中的数据去重处理的实现方法

pandas中的数据去重处理的实现方法

2023-08-01 21:07:03 258

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated（subset=None，keep=‘first'）返回booleanSeries表示重复行

参数：
subset：列标签或标签序列，可选
仅考虑用于标识重复项的某些列，默认情况下使用所有列
keep：{‘first'，‘last'，False}，默认'first'

first：标记重复，True除了第一次出现。
last：标记重复，True除了最后一次出现。
错误：将所有重复项标记为True。

importnumpyasnp
importpandasaspd
frompandasimportSeries,DataFrame

df=pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique())#[0.1.]

#使用duplicated查看重复值
#参数keep可以标记重复值{'first'，'last'，False}
print(df['Seqno'].duplicated())
'''
0False
1True
2True
3True
4False
Name:Seqno,dtype:bool
'''

#删除series重复数据
print(df['Seqno'].drop_duplicates())
'''
00.0
41.0
Name:Seqno,dtype:float64
'''

#删除dataframe重复数据
print(df.drop_duplicates(['Seqno']))#按照Seqno来去重
'''
PriceSeqnoSymboltime
01623.00.0APPL1473411962
41649.01.0APPL1473411963
'''
#drop_dujplicates()第二个参数keep包含的值有：first、last、False
print(df.drop_duplicates(['Seqno'],keep='last'))#保存最后一个
'''
PriceSeqnoSymboltime
31623.00.0APPL1473411963
41649.01.0APPL1473411963
'''

pandas去除重复行

DataFrame.drop_duplicates（subset=None，keep='first'，inplace=False）

subset ：指定列，默认情况下使用所有列

keep ： {'first'，'last'，False}，默认'first'

first ：删除重复项保留第一次出现的。last ：删除重复项保留最后一次出现的。false：删除所有重复项。

inplace ：布尔值，默认为False 是否删除重复项或返回副本

栗子：

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas数据去重内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票！

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

pandas中的数据去重处理的实现方法

热门推荐

随机推荐