Korrelation und lineare Regression
Die grafische Darstellung von Wertepaaren zweier Größen X und Y führt häufig zu einer Menge von Punkten, die nicht ohne Weiteres einer Funktion bzw. einer Kurve zugeordnet werden können.
Es stellt sich die Frage, ob zwischen den Größen eine Abhängigkeit besteht.
Oftmals ist in solchen Fällen eine Funktion gesucht, deren Graph möglichst nahe an allen Punkten liegt.
Dies führt zur Definition der Korrelation sowie der Regression.
Wir betrachten die grafische Darstellung von Wertepaaren zweier Größen X und Y. Die Abhängigkeit dieser Größen voneinander nennt man Korrelation. Ein Maß für die Korrelation ist der sogenannte Korrelationskoeffizient:
Ist so heißen die Zufallsgrößen unkorreliert, wird ein hoher Korrelationskoeffizient ermittelt, kann ein kausaler Zusammenhang zwischen den Zufallsgrößen angenommen werden.
Die Ermittlung eines funktionalen Zusammenhangs zwischen X und Y führt zu einer Funktion, deren Graph möglichst nahe an allen Punkten liegt. Eine solche Funktion nennt man Regressionsfunktion, das Verfahren zu ihrer Ermittlung Regression.
Ist die Regressionsfunktion eine lineare Funktion, liegt eine lineare Regression vor, der dazugehörige Graph heißt dann Regressionsgerade.
Für eine lineare Regressionsfunktion gilt:
Damit besteht die Möglichkeit, die Regressionsfunktion auch ohne vorherige Berechnung des Korrelationskoeffizienten zu bestimmen.
Beispiel: In einem Sportverein werden Körpergröße (Zufallsgröße X) und Körpergewicht (Zufallsgröße Y) von jugendlichen Sportlern (gleichen Geschlechts) gemessen. Dabei ergeben sich die folgenden Messwerte:
181 | 167 | 180 | 174 | 184 | 181 | 179 | 183 | 173 | 180 | |
70,5 | 68,3 | 75,0 | 69,2 | 90,0 | 78,8 | 76,6 | 82,7 | 74,0 | 78,1 |
In der Annahme, dass zwischen Größe und Gewicht ein linearer Zusammenhang besteht, soll die Regressionsfunktion ermittelt und dargestellt werden.