python数据预处理之将类别数据转换为数值的方法
在进行python数据分析的时候,首先要进行数据预处理。
有时候不得不处理一些非数值类别的数据,嗯,今天要说的就是面对这些数据该如何处理。
目前了解到的大概有三种方法:
1,通过LabelEncoder来进行快速的转换;
2,通过mapping方式,将类别映射为数值。不过这种方法适用范围有限;
3,通过get_dummies方法来转换。
importpandasaspd fromioimportStringIO csv_data='''A,B,C,D 1,2,3,4 5,6,,8 0,11,12,''' df=pd.read_csv(StringIO(csv_data)) print(df) #统计为空的数目 print(df.isnull().sum()) print(df.values) #丢弃空的 print(df.dropna()) print('after',df) fromsklearn.preprocessingimportImputer #axis=0列axis=1行 imr=Imputer(missing_values='NaN',strategy='mean',axis=0) imr.fit(df)#fit构建得到数据 imputed_data=imr.transform(df.values)#transform将数据进行填充 print(imputed_data) df=pd.DataFrame([['green','M',10.1,'class1'], ['red','L',13.5,'class2'], ['blue','XL',15.3,'class1']]) df.columns=['color','size','price','classlabel'] print(df) size_mapping={'XL':3,'L':2,'M':1} df['size']=df['size'].map(size_mapping) print(df) ##遍历Series foridx,labelinenumerate(df['classlabel']): print(idx,label) #1,利用LabelEncoder类快速编码,但此时对color并不适合, #看起来,好像是有大小的 fromsklearn.preprocessingimportLabelEncoder class_le=LabelEncoder() color_le=LabelEncoder() df['classlabel']=class_le.fit_transform(df['classlabel'].values) #df['color']=color_le.fit_transform(df['color'].values) print(df) #2,映射字典将类标转换为整数 importnumpyasnp class_mapping={label:idxforidx,labelinenumerate(np.unique(df['classlabel']))} df['classlabel']=df['classlabel'].map(class_mapping) print('2,',df) #3,处理1不适用的 #利用创建一个新的虚拟特征 fromsklearn.preprocessingimportOneHotEncoder pf=pd.get_dummies(df[['color']]) df=pd.concat([df,pf],axis=1) df.drop(['color'],axis=1,inplace=True) print(df)
以上这篇python数据预处理之将类别数据转换为数值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。