利用Python计算KS的实例详解
在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。
一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的,KS正好是有效性指标中的区分能力指标:KS用于模型风险区分能力进行评估,KS指标衡量的是好坏样本累计分布之间的差值。
好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
1、crosstab实现,计算ks的核心就是好坏人的累积概率分布,我们采用pandas.crosstab函数来计算累积概率分布。
2、roc_curve实现,sklearn库中的roc_curve函数计算roc和auc时,计算过程中已经得到好坏人的累积概率分布,同时我们利用sklearn.metrics.roc_curve来计算ks值
3、ks_2samp实现,调用stats.ks_2samp()函数来计算。链接scipy.stats.ks_2samp¶为ks_2samp()实现源码,这里实现了详细过程
4、直接调用stats.ks_2samp()计算ks
importpandasaspd importnumpyasnp fromsklearn.metricsimportroc_curve fromscipy.statsimportks_2samp defks_calc_cross(data,pred,y_label): ''' 功能:计算KS值,输出对应分割点和累计分布函数曲线图 输入值: data:二维数组或dataframe,包括模型得分和真实的标签 pred:一维数组或series,代表模型得分(一般为预测正类的概率) y_label:一维数组或series,代表真实的标签({0,1}或{-1,1}) 输出值: 'ks':KS值,'crossdens':好坏客户累积概率分布以及其差值gap ''' crossfreq=pd.crosstab(data[pred[0]],data[y_label[0]]) crossdens=crossfreq.cumsum(axis=0)/crossfreq.sum() crossdens['gap']=abs(crossdens[0]-crossdens[1]) ks=crossdens[crossdens['gap']==crossdens['gap'].max()] returnks,crossdens defks_calc_auc(data,pred,y_label): ''' 功能:计算KS值,输出对应分割点和累计分布函数曲线图 输入值: data:二维数组或dataframe,包括模型得分和真实的标签 pred:一维数组或series,代表模型得分(一般为预测正类的概率) y_label:一维数组或series,代表真实的标签({0,1}或{-1,1}) 输出值: 'ks':KS值 ''' fpr,tpr,thresholds=roc_curve(data[y_label[0]],data[pred[0]]) ks=max(tpr-fpr) returnks defks_calc_2samp(data,pred,y_label): ''' 功能:计算KS值,输出对应分割点和累计分布函数曲线图 输入值: data:二维数组或dataframe,包括模型得分和真实的标签 pred:一维数组或series,代表模型得分(一般为预测正类的概率) y_label:一维数组或series,代表真实的标签({0,1}或{-1,1}) 输出值: 'ks':KS值,'cdf_df':好坏客户累积概率分布以及其差值gap ''' Bad=data.loc[data[y_label[0]]==1,pred[0]] Good=data.loc[data[y_label[0]]==0,pred[0]] data1=Bad.values data2=Good.values n1=data1.shape[0] n2=data2.shape[0] data1=np.sort(data1) data2=np.sort(data2) data_all=np.concatenate([data1,data2]) cdf1=np.searchsorted(data1,data_all,side='right')/(1.0*n1) cdf2=(np.searchsorted(data2,data_all,side='right'))/(1.0*n2) ks=np.max(np.absolute(cdf1-cdf2)) cdf1_df=pd.DataFrame(cdf1) cdf2_df=pd.DataFrame(cdf2) cdf_df=pd.concat([cdf1_df,cdf2_df],axis=1) cdf_df.columns=['cdf_Bad','cdf_Good'] cdf_df['gap']=cdf_df['cdf_Bad']-cdf_df['cdf_Good'] returnks,cdf_df data={'y_label':[1,1,1,1,1,1,0,0,0,0,0,0], 'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]} data=pd.DataFrame(data) ks1,crossdens=ks_calc_cross(data,['pred'],['y_label']) ks2=ks_calc_auc(data,['pred'],['y_label']) ks3=ks_calc_2samp(data,['pred'],['y_label']) get_ks=lambday_pred,y_true:ks_2samp(y_pred[y_true==1],y_pred[y_true!=1]).statistic ks4=get_ks(data['pred'],data['y_label']) print('KS1:',ks1['gap'].values) print('KS2:',ks2) print('KS3:',ks3[0]) print('KS4:',ks4)
输出结果:
KS1:[0.83333333] KS2:0.833333333333 KS3:0.833333333333 KS4:0.833333333333
当数据中存在NAN数据时,有一些问题需要注意!
例如,我们在原数据中增加了y_label=0,pred=np.nan这样一组数据
data={'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],
'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}
此时执行
ks1,crossdens=ks_calc_cross(data,['pred'],['y_label'])
输出结果
KS1:[0.83333333]
执行
ks2=ks_calc_auc(data,['pred'],['y_label'])
将会报以下错误
ValueError:InputcontainsNaN,infinityoravaluetoolargefordtype('float64').
执行
ks3=ks_calc_2samp(data,['pred'],['y_label'])
输出结果
KS3:0.714285714286
执行
ks4=get_ks(data['pred'],data['y_label'])
输出结果
KS4:0.714285714286
我们从上述结果中可以看出
三种方法计算得到的ks值均不相同。
ks_calc_cross计算时忽略了NAN,计算得到了数据正确的概率分布,计算的ks与我们手算的ks相同
ks_calc_auc函数由于内置函数无法处理NAN值,直接报错了,所以如果需要ks_calc_auc计算ks值时,需要提前去除NAN值。
ks_calc_2samp计算得到的ks因为searchsorted()函数(有兴趣的同学可以自己模拟数据看下这个函数),会将Nan值默认排序为最大值,从而改变了数据的原始累积分布概率,导致计算得到的ks和真实的ks有误差。
总结
在实际情况下,我们一般计算违约概率的ks值,这时是不存在NAN值的。所以以上三种方法计算ks值均可。但是当我们计算单变量的ks值时,有时数据质量不好,存在NAN值时,继续采用ks_calc_auc和ks_calc_2samp就会存在问题。
解决办法有两个
1.提前去除数据中的NAN值
2.直接采用ks_calc_cross计算。
以上这篇利用Python计算KS的实例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。