R语言实现LASSO回归的方法
Lasso回归又称为套索回归,是RobertTibshirani于1996年提出的一种新的变量选择技术。Lasso是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,进一步得到可以解释的模型。R语言中有多个包可以实现Lasso回归,这里使用lars包实现。
1.利用lars函数实现lasso回归并可视化显示
x=as.matrix(data5[,2:7])#data5为自己的数据集 y=as.matrix(data5[,1]) lar1<-lars(x,y,type="lasso") lar1#查看得到的结果
从图1可以看出通过lasso回归得到的R^2为0.426,较低。标红的部分是在进行lasso回归时,自变量被选入的顺序。下面用图表的形式显示。
plot(lar1)
2.选取cp值最小时对应的模型,获取模型对应系数
对于选取最小cp值对应的模型可以通过两种方式实现:
(1)显示所有cp值,从中挑选最小的
summary(lar1)#输出lasso对象的细节,包括Df、RSS和Cp,其中Cp是MallowsCp统计量,通常选取Cp最小的那个模型
图3显示了lasso回归中所有的cp值,选择最小的,即上图标红的部分,对应的df=3,最前面一列对应迭代次数(即步数),step=2。
(2)直接选取最小的cp值
lar1$Cp[which.min(lar$Cp)]#选择最小Cp,结果如下:
与图3中标红的部分结果一样,但是要注意,2表示的是step大小。
3.选取cp值最小时对应的模型系数
(1)获取所有迭代系数,根据step大小选择cp值最小对应的自变量系数值
lar1$beta#可以得到每一步对应的自变量对应的系数
(2)获取指定迭代次数(即步数)对应的自变量的系数,可以通过下面的代码实现:
coef<-coef.lars(lar,mode="step",s=3)#s为step+1,也比图2中竖线为2的迭代次数对应,与图3中df值相等;s取值范围1-7. coef[coef!=0]#获取系数值不为零的自变量对应的系数值
与图4中标红部分一样。
4.获取截距的系数
通过第4部分可以获取cp值最小时对应的自变量的系数,但是没有办法获取对应模型的截距值,下面的代码可以获取对应模型的截距值。
上面的代码就是求取cp值最小时对应的模型的截距值,结果如下:
总结:
通过上面的4步可以利用R语言实现Lasso回归,并可以获取模型相应的系数和截距值。
到此这篇关于R语言实现LASSO回归的方法的文章就介绍到这了,更多相关R语言LASSO回归内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。