【R语言 数据分析】多重共线性问题

1、什么是多重共线性?
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

2、多重共线性对回归模型的影响

@1、完全共线性下参数估计量不存在
@2、近似共线性下OLS估计量非有效
@3、参数估计量经济含义不合理
@4、变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
@5、模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

3、利用计算特征根发现多重共线性
4、Kappa()函数

5、多重共线性解决办法
(1)排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。
(2)差分法
时间序列数据、线性模型:将原模型变换为差分模型。
(3)减小参数估计量的方差:岭回归法(Ridge Regression)。

##########################R语言分析##############################

rm(list=ls())
gc()

head(longley)

View(longley)
str(longley)
summary(longley)

################研究变量之间是否存在共线性######################
xx <- cor(longley[2:7])

#如果以GNP.deflator作为因变量y ,研究其余6个变量是否存在多重共线性
# 在R中我们通过cor和kappa函数来研究数据框中某些变量之间是否存在多重共线性,
# 基本原理是通过研究矩阵的最大特征值和最小特征值之间的比值。具体如下:
kappa(xx,exact =TRUE)

#####这个比值如果大于1000,变量之间存在严重的多重共线性################


#################计算特征值和特征向量################

####################利用计算特征根发现多重共线性#############
eigen(xx)

####可将其中一个线性相关的变量提出,解决多重线性回归##########
已标记关键词 清除标记
各位少侠&女侠们: 我在看贾平俊的《统计学---基于R》(第二版)时候发现了一个现象:P272 关于共线性识别书中列举了4中方法: 其中第1种: 检验自变量之间的关系系数(书中内容如下) ![图片说明](https://img-ask.csdn.net/upload/201906/21/1561109805_368211.png) ![图片说明](https://img-ask.csdn.net/upload/201906/21/1561109819_20841.png) 按照文中的说法:“由上图种的P值显示,这5个变量种,只有X5 与其他4个自变量之间的关系不显著,而其他4个自变量两辆之间均显著相关&rdquo; 继而得出结论:“多元线性回归种可能存在多重多重共线性。的情形 而书中接下来介绍了另一种检验方法:容忍度 & 方差膨胀因子(书中结果如下) ![图片说明](https://img-ask.csdn.net/upload/201906/21/1561110290_981964.png) 继而书中得出结论&rdquo;容忍度均大于0.1,VIF均小于10,这说明本例建立的回归模型共线性并不严重 针对书中的表述,由以下困惑: 1.在方法一中,作者是因何断言“由上图种的P值显示,这5个变量种,只有X5 与其他4个自变量之间的关系不显著,而其他4个自变量两辆之间均显著相关&rdquo;的? 判断“显著&rdquo;的标准是什么? 2.两种判断方法之间存在一定的矛盾性:一个说存在共线性问题,(言外之意需要修正模型);另一个则说模型共线性并不严重(言外之意:可以不修改模型),那么作为模型的使用者,我们该怎么应对? 感谢!报拳!
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页