R语言多元Logistic逻辑回归应用实例
可以使用逐步过程确定多元逻辑回归。此函数选择模型以最小化AIC。
如何进行多元逻辑回归
可以使用阶梯函数通过逐步过程确定多元逻辑回归。此函数选择模型以最小化AIC。
通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较模型,或者根据生物学或科学上合理的可用变量建立模型。
多元相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。
多元相关
创建数值变量的数据框
Data.num$Status=as.numeric(Data.num$Status) Data.num$Length=as.numeric(Data.num$Length) Data.num$Migr=as.numeric(Data.num$Migr) Data.num$Insect=as.numeric(Data.num$Insect) Data.num$Diet=as.numeric(Data.num$Diet) Data.num$Broods=as.numeric(Data.num$Broods) Data。num$Wood=as.numeric(Data.num$Wood) Data.num$Upland=as.numeric(Data.num$Upland) Data.num$Water=as.numeric(Data.num$Water) Data.num$Release=as.numeric(Data.num$Release) Data.num$Indiv=as.numeric(Data.num$Indiv) ###检查新数据框 headtail(Data.num) 1115209600.01.2111226.01001629 2112505000.00.561016.010011085 318703360.00.071014.0100138 77017031.00.5531224.0NA10012 78021036.92.002823.7100112 790225106.51.2021224.8200012 ###检查变量之间的相关性 ###这里使用了Spearman相关性
多元逻辑回归的例子
在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。
尽管二项式和poission系列中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。
用逐步回归确定模型
最终模型
summary(model.final) Coefficients: EstimateStd.ErrorzvaluePr(>|z|) (Intercept)-3.54964822.0827400-1.7040.088322. Upland-4.54842892.0712502-2.1960.028093* Migr-1.81840490.8325702-2.1840.028956* Mass0.00190290.00070482.7000.006940** Indiv0.01370610.00387033.5410.000398*** Insect0.23947200.13734561.7440.081234. Wood1.81344451.31059111.3840.166455
伪R方
$Pseudo.R.squared.for.model.vs.null Pseudo.R.squared McFadden0.700475 CoxandSnell(ML)0.637732 Nagelkerke(CraggandUhler)0.833284
模型总体p值
在最终模型中创建包含变量的数据框,并省略NA。
偏差表分析
AnalysisofDevianceTable Model1:Status~Upland+Migr+Mass+Indiv+Insect+Wood Model2:Status~1 Resid.DfResid.DevDfDeviancePr(>Chi) 16330.392 26993.351-6-62.9591.125e-11***
似然比检验
Likelihoodratiotest #DfLogLikDfChisqPr(>Chisq) 17-15.196 21-46.675-662.9591.125e-11***
标准化残差图
简单的预测值图
在最终模型中创建包含变量的数据框,并在NA中省略
过度离散检验
过度离散是glm的deviance残差相对于自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果deviance残差与剩余自由度的比率超过1.5,则模型过度离散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是在glm中使用quasibinomialfamily选项。
Nulldeviance:93.351on69degreesoffreedom Residualdeviance:30.392on63degreesoffreedom deviance/df.residual [1]0.482417
评估模型的替代方法
使用逐步程序的替代或补充是将模型与拟合统计进行比较。我的compare.glm函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都拟合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,您希望在最终模型中使用较少的术语,我可能会推荐AICc或BIC。
一系列模型可以与标准的anova功能进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中;和模型应该拟合相同的数据。在比较多个回归模型时,通常放宽p值为0.10或0.15。
在以下示例中,使用通过逐步过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。
compareGLM(model.1,model.2,model.3,model.4,model.5,model.6, model.7,model.8,model.9) $Models Formula 1"Status~1" 2"Status~Release" 3"Status~Release+Upland" 4"Status~Release+Upland+Migr" 5"Status~Release+Upland+Migr+Mass" 6"Status~Release+Upland+Migr+Mass+Indiv" 7"Status~Release+Upland+Migr+Mass+Indiv+Insect" 8"Status~Upland+Migr+Mass+Indiv+Insect" 9"Status~Upland+Migr+Mass+Indiv+Insect+Wood" $Fit.criteria RankDf.resAICAICcBICMcFaddenCox.and.SnellNagelkerkep.value 116694.3494.5398.750.00000.00000.0000Inf 226562.1362.5168.740.37870.39990.54012.538e-09 336456.0256.6764.840.46840.46830.63253.232e-10 446351.6352.6162.650.53920.51670.69797.363e-11 556250.6452.0463.870.57230.53770.72637.672e-11 666149.0750.9764.500.61180.56180.75885.434e-11 776046.4248.9064.050.66330.59120.79852.177e-11 866144.7146.6160.140.66010.58940.79616.885e-12 976044.0346.5161.670.68970.60550.81787.148e-12 AnalysisofDevianceTable Model1:Status~1 Model2:Status~Release Model3:Status~Release+Upland Model4:Status~Release+Upland+Migr Model5:Status~Release+Upland+Migr+Mass Model6:Status~Release+Upland+Migr+Mass+Indiv Model7:Status~Release+Upland+Migr+Mass+Indiv+Insect Model8:Status~Upland+Migr+Mass+Indiv+Insect Model9:Status~Upland+Migr+Mass+Indiv+Insect+Wood Resid.DfResid.DevDfDeviancePr(>Chi) 16690.343 26556.130134.2134.94e-09*** 36448.02418.1060.004412** 46341.63116.3930.011458* 56238.64312.9880.083872. 66135.07013.5730.058721. 76030.41514.6550.030970* 86130.710-1-0.2950.587066 96028.03112.6790.101686
总结
到此这篇关于R语言多元Logistic逻辑回归应用的文章就介绍到这了,更多相关R语言多元逻辑回归内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。