欢迎来到代码驿站!

当前位置:首页 >

R语言实现岭回归的示例代码

时间:2022-08-04 10:02:52|栏目:|点击:

岭参数的一般选择原则

  • 选择k(或lambda)值,使得:
  • 各回归系数的岭估计基本稳定
  • 用最小二乘估计时符号不合理的回归系数,其岭回归的符号变得合理
  • 回归系数没有不合乎实际意义的绝对值
  • 残差平方和增大的不多

image

用R语言进行岭回归

这里使用MASS包中的longley数据集,进行岭回归分析(longley数据集中的变量具有显著的多重共线性)。从而分析使用岭回归进行多重共线性的解决。

image

首相将longley数据集中的第一列数据命名为“y”,并使用岭回归创建线性模型

image

显示当y为因变量,其余各个变量为自变量时,直接构建线性模型的统计结果如下:

image

可见,虽然线性回归的Multiple R-squared: 0.9926是一个很高的值。但各个变量的显著性检验却很差,同样说明直接使用线性模型的拟合效果并不是很理想。

制定岭参数lamdba从0-0.1,每次变化的长度为0.001,并绘制岭迹图,如下:

image

详细岭回归的岭迹图如下:

image

从岭迹图中可以看出,当lambda=0时,图像不稳定。因此,可以说明这里的变量存在多重共线性。

现在需要对岭参数lambda进行选择:

image

可以看出,这里由于使用了不同的估计方法,从而可以得到几个不同的岭参数的估计。通常取GCV估计,或者结合几个结果进行取值。这里取lambda=0.006。

使用R的ridge包的时候,出现如下问题:

image

岭回归的问题

  • 岭参数计算方法太多,差异太大
  • 根据岭迹图进行变量筛选,随意性太大
  • 岭回归返回的模型(如果没哟经过变量筛选)包含所有的变量
  • 而且,对于使用岭回归进行变量的筛选,目前只能作为一个扩展计算视野的方法,而在实际使用中,会出现很多问题。

上一篇:使用postman操作ElasticSearch的方法

栏    目:

下一篇:只有两个字段用一个sql语句查询出某个学生的姓名、成绩以及在表中的排名

本文标题:R语言实现岭回归的示例代码

本文地址:http://www.codeinn.net/misctech/209784.html

推荐教程

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:914707363 | 邮箱:codeinn#126.com(#换成@)

Copyright © 2020 代码驿站 版权所有