关于pandas的离散化,面元划分详解

2023-08-08 10:56:04 457

pd.cut

pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)

x：要分箱的输入数组，必须是一维的

bins：int或标量序列

若bins是一个int，它定义在x范围内的等宽单元的数量。然而，在这种情况下，x的范围在每一侧延伸0.1％以包括x的最小值或最大值

若bins是一个序列，它定义了允许非均匀bin宽度的bin边缘。在这种情况下不进行x的范围的扩展

right：bool，可选：决定区间的开闭，如果right==True（默认），则区间[1,2,3,4]指示（1,2]，（2,3]，（3,4]

labels：array或boolean，默认值为无：用作生成的区间的标签。必须与生成的区间的长度相同。如果为False，则只返回bin的整数指示符

retbins：bool，可选：是否返回bin。如果bin作为标量给出，则可能有用

precision：int：存储和显示容器标签的精度，默认保留三位小数

include_lowest：bool：第一个间隔是否应该包含左边

importnumpyasnp
importpandasaspd
#使用pandas的cut函数划分年龄组
ages=[20,22,25,27,21,23,37,31,61,45,32]
bins=[18,25,35,60,100]
cats=pd.cut(ages,bins)
print(cats)#分类时，当数据不在区间中将变为nan
#统计落在各个区间的值数量
print(pd.value_counts(cats))
#使用codes为年龄数据进行标号
print(cats.codes)
#设置自己想要的面元名称
group_names=['Youth','YoungAdult','MiddleAged','Senior']
print(pd.cut(ages,bins,labels=group_names))
#设置区间数学符号为左闭右开
print(pd.cut(ages,bins,right=False))
#向cut传入面元的数量，则会根据数据的最小值和最大值计算等长面元
print(pd.cut(ages,4,precision=2))#precision=2表示设置的精度

pd.qcut

与cut类似，它可以根据样本分位数对数据进行面元划分

pandas.qcut(x,q,labels=None,retbins=False,precision=3)

x：ndarray或Series

q：整数或分位数阵列分位数。十分位数为10，四分位数为4或者，分位数阵列，例如[0，.25，.5，.75，1.]四分位数

labels：array或boolean，默认值为无：用作生成的区间的标签。必须与生成的区间的长度相同。如果为False，则只返回bin的整数指示符。

retbins：bool，可选：是否返回bin。如果bin作为标量给出，则可能有用。

precision：int：存储和显示容器标签的精度

importnumpyasnp
importpandasaspd

#qcut可以根据样本分位数对数据进行面元划分
#data=np.random.randn(20)#正态分布
data=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]
cats=pd.qcut(data,4)#按四分位数进行切割
print(cats)
print(pd.value_counts(cats))
print("-------------------------------------------------")
#通过指定分位数（0到1之间的数值，包含端点）进行面元划分
cats_2=pd.qcut(data,[0,0.5,0.8,0.9,1])
print(cats_2)
print(pd.value_counts(cats_2))

以上这篇关于pandas的离散化,面元划分详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

关于pandas的离散化,面元划分详解

热门推荐

随机推荐