关于pandas的离散化,面元划分详解
pd.cut
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)
x:要分箱的输入数组,必须是一维的
bins:int或标量序列
若bins是一个int,它定义在x范围内的等宽单元的数量。然而,在这种情况下,x的范围在每一侧延伸0.1%以包括x的最小值或最大值
若bins是一个序列,它定义了允许非均匀bin宽度的bin边缘。在这种情况下不进行x的范围的扩展
right:bool,可选:决定区间的开闭,如果right==True(默认),则区间[1,2,3,4]指示(1,2],(2,3],(3,4]
labels:array或boolean,默认值为无:用作生成的区间的标签。必须与生成的区间的长度相同。如果为False,则只返回bin的整数指示符
retbins:bool,可选:是否返回bin。如果bin作为标量给出,则可能有用
precision:int:存储和显示容器标签的精度,默认保留三位小数
include_lowest:bool:第一个间隔是否应该包含左边
importnumpyasnp importpandasaspd #使用pandas的cut函数划分年龄组 ages=[20,22,25,27,21,23,37,31,61,45,32] bins=[18,25,35,60,100] cats=pd.cut(ages,bins) print(cats)#分类时,当数据不在区间中将变为nan #统计落在各个区间的值数量 print(pd.value_counts(cats)) #使用codes为年龄数据进行标号 print(cats.codes) #设置自己想要的面元名称 group_names=['Youth','YoungAdult','MiddleAged','Senior'] print(pd.cut(ages,bins,labels=group_names)) #设置区间数学符号为左闭右开 print(pd.cut(ages,bins,right=False)) #向cut传入面元的数量,则会根据数据的最小值和最大值计算等长面元 print(pd.cut(ages,4,precision=2))#precision=2表示设置的精度
pd.qcut
与cut类似,它可以根据样本分位数对数据进行面元划分
pandas.qcut(x,q,labels=None,retbins=False,precision=3)
x:ndarray或Series
q:整数或分位数阵列分位数。十分位数为10,四分位数为4或者,分位数阵列,例如[0,.25,.5,.75,1.]四分位数
labels:array或boolean,默认值为无:用作生成的区间的标签。必须与生成的区间的长度相同。如果为False,则只返回bin的整数指示符。
retbins:bool,可选:是否返回bin。如果bin作为标量给出,则可能有用。
precision:int:存储和显示容器标签的精度
importnumpyasnp importpandasaspd #qcut可以根据样本分位数对数据进行面元划分 #data=np.random.randn(20)#正态分布 data=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20] cats=pd.qcut(data,4)#按四分位数进行切割 print(cats) print(pd.value_counts(cats)) print("-------------------------------------------------") #通过指定分位数(0到1之间的数值,包含端点)进行面元划分 cats_2=pd.qcut(data,[0,0.5,0.8,0.9,1]) print(cats_2) print(pd.value_counts(cats_2))
以上这篇关于pandas的离散化,面元划分详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。