Python Pandas –缺少数据
使用熊猫时,如果缺少数据点,熊猫将自动使用NULL或NAN填充该缺失点。
首先让我们使用Numpy和Pandas定义一个dataFrame。
import numpy as np import pandas as pd d = {'A':[1,2,np.nan],'B':[3,np.nan,np.nan],'C':[4,5,6]} df = pd.DataFrame(d) print(df)
输出结果
A B C 0 1.0 3.0 4 1 2.0 NaN 5 2 NaN NaN 6
熊猫提供以下选项来处理丢失的数据,
降低NAN值
#删除具有null或NAN值的行 print(df.dropna()) ''' A B C 0 1.0 3.0 4 '''
#删除具有null或NAN值的列 print(df.dropna(axis=1)) ''' C 0 4 1 5 2 6 '''
指定一个阈值,以不丢弃任何数量的非NA值。
#不删除第二行,因为, #它具有小于2的NAN值。 print(df.dropna(thresh=2)) ''' A B C 0 1.0 3.0 4 1 2.0 NaN 5 '''
填写缺失值
print(df.fillna('empty')) ''' A B C 0 1 3 4 1 2 empty 5 2 empty empty 6 '''