Python Pandas –缺少数据
使用熊猫时,如果缺少数据点,熊猫将自动使用NULL或NAN填充该缺失点。
首先让我们使用Numpy和Pandas定义一个dataFrame。
import numpy as np
import pandas as pd
d = {'A':[1,2,np.nan],'B':[3,np.nan,np.nan],'C':[4,5,6]}
df = pd.DataFrame(d)
print(df)输出结果
A B C 0 1.0 3.0 4 1 2.0 NaN 5 2 NaN NaN 6
熊猫提供以下选项来处理丢失的数据,
降低NAN值
#删除具有null或NAN值的行
print(df.dropna())
'''
A B C
0 1.0 3.0 4
'''#删除具有null或NAN值的列 print(df.dropna(axis=1)) ''' C 0 4 1 5 2 6 '''
指定一个阈值,以不丢弃任何数量的非NA值。
#不删除第二行,因为,
#它具有小于2的NAN值。
print(df.dropna(thresh=2))
'''
A B C
0 1.0 3.0 4
1 2.0 NaN 5
'''填写缺失值
print(df.fillna('empty'))
'''
A B C
0 1 3 4
1 2 empty 5
2 empty empty 6
'''