线性回归多重共线性

Catalogue

问题

在多元线性回归中，自变量间的多重共线性问题如何判断和处理？

【定义】
当自变量之间存在某种线性关系或高度相关的时候，就会发生多重共线性问题。

多重共线性问题的两种情形都会给回归模型的参数估计带来困难。完全多重共线性问题指矩阵 X’X 严格不可逆的情形，造成了模型的不可估计；近似多重共线性问题即数据矩阵中的一个或几个列向量可以近似地表达为其他列向量的线性组合的情形，会导致参数估计值的标准误过大。

【判断】
一个判断是否存在严重近似共线性问题的经验性原则是:（1）自变量中最大的方差膨胀因子 VIF 大于 10；（2）平均方差膨胀因子 VIF 明显大于 1。

【解决】
当多重共线性问题发生时，我们需要对其进行处理才能保证模型本身的有效性。

如果发生的是完全多重共线性问题，则直接删除在数据中不必要的变量即可。这些变量可能是虚拟变量中的参照组，也可是包含了某些变量或其线性组合而生成的新变量。只要保证删除变量后无完全多重共线性问题即可。

如果发生的是近似多重共线性问题，就没有特别简单的方法来解决。如果在理论上我们可以识别某些自变量，即自变量在理论上都是有意义且意义不重复或每个自变量都不可以被其他自变量线性解释，那么当在实际中出现近似多重共线性问题时，我们可以通过增大样本量来解决多重共线性问题。

但是当没有明确的理论，不能在理论上识别某些自变量的时候，可以利用一些技术上的处理方法来减少自变量的数目。比较典型的方法是把彼此之间存在一定相关性的变量综合成较少的几个变量。这种综合变量信息的方法包括偏最小二乘回归分析、主成分分析法以及由主成分分析法推广得到的因子分析。

【参考】
谢宇《回归分析》