浅谈pandas.cut与pandas.qcut的使用方法及区别
pandas.cut:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)
参数:
1.x,类array对象,且必须为一维,待切割的原形式
2.bins,整数、序列尺度、或间隔索引。如果bins是一个整数,它定义了x宽度范围内的等宽面元数量,但是在这种情况下,x的范围在每个边上被延长1%,以保证包括x的最小值或最大值。如果bin是序列,它定义了允许非均匀bin宽度的bin边缘。在这种情况下没有x的范围的扩展。
3.right,布尔值。是否是左开右闭区间
4.labels,用作结果箱的标签。必须与结果箱相同长度。如果FALSE,只返回整数指标面元。
5.retbins,布尔值。是否返回面元
6.precision,整数。返回面元的小数点几位
7.include_lowest,布尔值。第一个区间的左端点是否包含
返回值:
若labels为False则返回整数填充的Categorical或数组或Series
若retbins为True还返回用浮点数填充的N维数组
demo:
>>>pd.cut(np.array([.2,1.4,2.5,6.2,9.7,2.1]),3,retbins=True) ... ([(0.19,3.367],(0.19,3.367],(0.19,3.367],(3.367,6.533],... Categories(3,interval[float64]):[(0.19,3.367]<(3.367,6.533]... ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ >>>pd.cut(np.array([.2,1.4,2.5,6.2,9.7,2.1]), ...3,labels=["good","medium","bad"]) ... [good,good,good,medium,bad,good] Categories(3,object):[good>>pd.cut(np.ones(5),4,labels=False) array([1,1,1,1,1])
pandas.qcut
pandas.qcut(x,q,labels=None,retbins=False,precision=3,duplicates='raise')
参数:
1.x
2.q,整数或分位数组成的数组。
3.labels,
4.retbins
5.precisoon
6.duplicates
结果中超过边界的值将会变成NA
demo:
>>>pd.qcut(range(5),4) ... [(-0.001,1.0],(-0.001,1.0],(1.0,2.0],(2.0,3.0],(3.0,4.0]] Categories(4,interval[float64]):[(-0.001,1.0]<(1.0,2.0]... ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ >>>pd.qcut(range(5),3,labels=["good","medium","bad"]) ... [good,good,medium,bad,bad] Categories(3,object):[good补充拓展:解决Python中qcut()运行报错:Binedgesmustbeunique和dropduplicateedgesbysetting'duplicates'kwarg
本次纠错背景,来源于互金领域信用风控建模中的变量分箱处理。(附在文末)
解决Python中qcut()函数运行报错:
Binedgesmustbeunique和Youcandropduplicateedgesbysettingthe‘duplicates'kwarg首先,报错如下:
然后,在qcut()函数中设置duplicates参数为“drop”(不能设置为“raise”),解决(如下)。
本次纠错背景,来源于互金领域信用风控建模中的变量分箱处理。如下:
#五、变量选择 #特征变量选择(排序)对于数据分析、机器学习从业者来说非常重要。 #好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 #至于Python的变量选择代码实现可以参考结合Scikit-learn介绍几种常用的特征选择方法。 #在本文中,我们采用信用评分模型的变量选择方法,通过WOE分析方法,即是通过比较指标分箱和对应分箱的违约概率来确定指标是否符合经济意义。 #首先我们对变量进行离散化(分箱)处理。#5.1分箱处理 #变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。 #信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。 #其中等距分段(Equvallengthintervals)是指分段的区间是一致的,比如年龄以十年作为一个分段; #等深分段(Equalfrequencyintervals)是先确定分段数量,然后令每个分段中数据数量大致相等; #最优分段(OptimalBinning)又叫监督离散化(superviseddiscretizaion),使用递归划分(RecursivePartitioning)将连续变量分为分段,背后是一种基于条件推断查找较佳分组的算法。#我们首先选择对连续变量进行最优分段,在连续变量的分布不满足最优分段的要求时,再考虑对连续变量进行等距分段。最优分箱的代码如下:
#定义自动分箱函数 fromscipyimportstats defmono_bin(Y,X,n=20): r=0 good=Y.sum() bad=Y.count()-good whilenp.abs(r)<1: d1=pd.DataFrame({"X":X,"Y":Y,"Bucket":pd.qcut(X,n,duplicates="drop")}) #后面报错Youcandropduplicateedgesbysettingthe'duplicates'kwarg,所以回到这里补充duplicates参数 #pandas中使用qcut(),边界易出现重复值,如果为了删除重复值设置duplicates=‘drop',则易出现于分片个数少于指定个数的问题 d2=d1.groupby('Bucket',as_index=True) r,p=stats.spearmanr(d2.mean().X,d2.mean().Y) n=n-1 d3=pd.DataFrame(d2.X.min(),columns=['min']) d3['min']=d2.min().X d3['max']=d2.max().X d3['sum']=d2.sum().Y d3['total']=d2.count().Y d3['rate']=d2.mean().Y d3['woe']=np.log((d3['rate']/(1-d3['rate']))/(good/bad)) d4=(d3.sort_index(by='min')).reset_index(drop=True) print("="*60) print(d4) returnd4 #此定义函数暂未理解通透,暂且保留。这里先直接使用。 #原帖代码没有导入scipy.stats模块,会导致下一条语句运行报错,上面补上,搞定。 #原帖代码qcut()函数中没有设置duplicates参数,上面补上,搞定。#自定义函数分箱RevolvingUtilizationOfUnsecuredLines时报错Youcandropduplicateedgesbysettingthe'duplicates'kwarg #所以先回来删除重复值。删除后发现没有解决问题,真正解决问题是在qcut()函数中没有设置duplicates参数为“drop”(不能设置为“raise”) data=data.drop_duplicates(subset=None,keep='first',inplace=False) data.shape(119703,11)
#针对我们将使用最优分段对于数据集中的RevolvingUtilizationOfUnsecuredLines、age、DebtRatio和MonthlyIncome进行分类。
mono_bin(data.SeriousDlqin2yrs,data.RevolvingUtilizationOfUnsecuredLines)
============================================================ minmaxsumtotalratewoe 00.0000000.03503429333299260.9801841.298275 10.0350370.17677129205299260.9759071.098457 20.1767770.57703628305299250.9458650.257613 30.57704050708.00000024607299260.822262-1.071254min max sum total rate woe 0 0.000000 0.035034 29333 29926 0.980184 1.298275 1 0.035037 0.176771 29205 29926 0.975907 1.098457 2 0.176777 0.577036 28305 29925 0.945865 0.257613 3 0.577040 50708.000000 24607 29926 0.822262 -1.071254 mono_bin(data.SeriousDlqin2yrs,data.age)
============================================================ minmaxsumtotalratewoe 02130791388850.890602-0.506093 13134664073830.899363-0.412828 23538759483860.905557-0.342447 33941713178490.908523-0.307262 44243489053620.911973-0.265031 54446816388680.920501-0.153830 64748577662740.920625-0.152133 74951854592800.920797-0.149768 85253545459010.924250-0.101453 95456792284630.9360750.080980 105759751779460.9460110.260466 116061494252000.9503850.349567 126264746477760.9598770.571844 136568696872120.9661670.748916 146975791181410.9717480.934931 1576103662067770.9768331.138606min max sum total rate woe 0 21 30 7913 8885 0.890602 -0.506093 1 31 34 6640 7383 0.899363 -0.412828 2 35 38 7594 8386 0.905557 -0.342447 3 39 41 7131 7849 0.908523 -0.307262 4 42 43 4890 5362 0.911973 -0.265031 5 44 46 8163 8868 0.920501 -0.153830 6 47 48 5776 6274 0.920625 -0.152133 7 49 51 8545 9280 0.920797 -0.149768 8 52 53 5454 5901 0.924250 -0.101453 9 54 56 7922 8463 0.936075 0.080980 10 57 59 7517 7946 0.946011 0.260466 11 60 61 4942 5200 0.950385 0.349567 12 62 64 7464 7776 0.959877 0.571844 13 65 68 6968 7212 0.966167 0.748916 14 69 75 7911 8141 0.971748 0.934931 15 76 103 6620 6777 0.976833 1.138606 mono_bin(data.SeriousDlqin2yrs,data.MonthlyIncome)
============================================================ minmaxsumtotalratewoe 00.03400.027355300730.909620-0.293996 13401.05400.027655300080.921588-0.138884 25401.08200.027925297250.9394450.138736 38201.049750.028515298970.9537750.423899min max sum total rate woe 0 0.0 3400.0 27355 30073 0.909620 -0.293996 1 3401.0 5400.0 27655 30008 0.921588 -0.138884 2 5401.0 8200.0 27925 29725 0.939445 0.138736 3 8201.0 49750.0 28515 29897 0.953775 0.423899 以上这篇浅谈pandas.cut与pandas.qcut的使用方法及区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。