微客导航 » 文章资讯 » 基于python 等频分箱qcut问题的解决

基于python 等频分箱qcut问题的解决

2023-07-29 22:05:04 407

在python较新的版本中，pandas.qcut()这个函数中是有duplicates这个参数的，它能解决在等频分箱中遇到的重复值过多引起报错的问题；

在比较旧版本的python中，提供一下解决办法：

importpandasaspd

defpct_rank_qcut(series,n):
'''
series：要分箱的列
n：箱子数
'''
edages=pd.series([i/nforiinrange(n)]#转换成百分比
func=lambdax:(edages>=x).argmax()#函数：(edages>=x)返回fasle/true列表中第一次出现true的索引值
returnseries.rank(pct=1).astype(float).apply(func)#series.rank(pct=1)每个值对应的百分位数，最终返回对应的组数;rank()函数传入的数据类型若为object，结果会有问题，因此进行了astype

补充拓展：Python数据离散化:等宽及等频

在处理数据时，我们往往需要将连续性变量进行离散化，最常用的方式便是等宽离散化，等频离散化，在此处我们讨论离散化的概念，只给出在python中的实现以供参考

1.等宽离散化

使用pandas中的cut()函数进行划分

importnumpyasnp
importpandasaspd

#Discretization:EqualWidth#
#Datas:Sample*Feature
defDiscretization_EqualWidth(K,Datas,FeatureNumber):
DisDatas=np.zeros_like(Datas)
foriinrange(FeatureNumber):
DisOneFeature=pd.cut(Datas[:,i],K,labels=range(1,K+1))
DisDatas[:,i]=DisOneFeature
returnDisDatas

2.等频离散化

pandas中有qcut()可以使用，但是边界易出现重复值，如果为了删除重复值设置duplicates=‘drop'，则易出现于分片个数少于指定个数的问题，因此在此处不使用qcut()

importnumpyasnp
importpandasaspd

#Discretization:EqualFrequency#
#vector:singlefeature
defRank_qcut(vector,K):
quantile=np.array([float(i)/Kforiinrange(K+1)])#Quantile:K+1values
funBounder=lambdax:(quantile>=x).argmax()
returnvector.rank(pct=True).apply(funBounder)

#Discretization:EqualFrequency#
#Datas:Sample*Feature
defDiscretization_EqualFrequency(K,Datas,FeatureNumber):
DisDatas=np.zeros_like(Datas)
w=[float(i)/Kforiinrange(K+1)]
foriinrange(FeatureNumber):
DisOneFeature=Rank_qcut(pd.Series(Datas[:,i]),K)
#print(DisOneFeature)
DisDatas[:,i]=DisOneFeature
returnDisDatas

以上这篇基于python等频分箱qcut问题的解决就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

基于python 等频分箱qcut问题的解决

热门推荐

随机推荐