3 Multikollinearität in multipler Regression

Kollinearität tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem statistischen Modell stark korreliert sind, d. h., sie enthalten ähnliche Informationen über die Varianz der abhängigen Variablen. Multikollinearität ist der Fall, wenn mehr als zwei solche Variablen involviert sind.

(#tab:Modell1_VIF)VIF und Toleranzwerte des Modells
Variable VIF Tolerance
Lernaufwand Lernaufwand 1.02 0.984
Anwesenheit_Tut Anwesenheit_Tut 1.02 0.984

3.1 Problematiken:

3.1.1 Instabilität der Koeffizienten

Die Schätzungen der Regressionskoeffizienten können sehr empfindlich gegenüber kleinen Änderungen in den Daten oder Modellspezifikationen sein. Dies führt zu hohen Standardfehlern, was die statistische Signifikanz der Prädiktoren verringert.

3.1.2 Interpretationsschwierigkeiten

Es wird schwieriger zu bestimmen, welcher Prädiktor einen tatsächlichen Einfluss auf die abhängige Variable hat, da stark korrelierte Prädiktoren tendenziell multivariat ähnliche Beziehungen teilen.

3.1.3 Identifikationsproblem

Die Fähigkeit, die Effekte einzelner Prädiktoren auseinanderzuhalten, wird abgeschwächt, was zu ineinandergreifenden Erklärungen führt.

3.1.4 Variance Inflation Factor (VIF)

Der VIF quantifiziert, wie stark die Varianz eines geschätzten Regressionskoeffizienten durch Multikollinearität mit anderen Prädiktoren im Modell angehoben wird.

Grenzwerte

  • VIF = 1: Keine Korrelation zwischen Prädiktoren, keine Inflationswirkung auf Varianz.
  • VIF > 5: Weist auf problematische Multikollinearität hin und schlägt vor, die Prädiktoren zu überprüfen.
  • VIF > 10: Starke Multikollinearität, was ein ernsthaftes Problem für die Schätzpräzision und Interpretierbarkeit bedeutet.

3.1.5 Toleranz

Die Toleranz ist das Reziproke des VIF und gibt den Anteil der Varianz eines Prädiktors an, der unabhängig von anderen Prädiktoren erklärt wird. Sie wird als \((1 - R^2)\) der Regression eines Prädiktors gegen alle anderen berechnet.

  • Eine Toleranz nahe 1 zeigt an, dass der Prädiktor wenig mit anderen Prädiktoren korreliert ist, wobei die Varianz weitgehend unabhängig erklärt wird.
  • Eine Toleranz nahe 0 legt nahe, dass ein Großteil der Varianz von anderen Prädiktoren erklärt wird, was auf Multikollinearität hindeutet.

Grenzwerte:

  • Toleranz < 0.2: Häufig verwendeter Schwellenwert, der eine Besorgnis um Multikollinearität andeutet.
  • Toleranz < 0.1: Deutlicher Hinweis auf ernste Multikollinearität.

3.2 Zusammenfassend

Multikollinearität kann

  • die Schätzung von Regressionsparametern instabil machen und
  • die Rolle einzelner Prädiktoren verzerren.

Das Verstehen und Erkennen von Multikollinearität durch VIF und Toleranz sind wesentliche Schritte, um die Interpretierbarkeit eines Modells zu sichern und sicherzustellen, dass die Schlussfolgerungen über die Daten und das Modell robust sind.