v1 · padrão canônico

Lição 105 — Regressão linear simples

Modelo OLS, estimadores de mínimos quadrados, R², resíduos, inferência sobre a inclinação. Fundamento do aprendizado supervisionado e da econometria.

Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§14) · Math B japonês

\hat{Y} = \hat\beta_0 + \hat\beta_1 X, \qquad \hat\beta_1 = \frac{S_{xy}}{S_{xx}}

Choose your door

Rigorous notation, full derivation, hypotheses

Rigorose Definition

Modell der einfachen linearen Regression

"The regression equation is written as $\hat{y} = a + bx$ , where $b$ is the slope and $a$ is the $y$ -intercept." — OpenStax Statistics, §12.3

Definition· Kleinste-Quadrate-Schätzer (OLS)

Die OLS-Schätzer minimieren $SSE = \sum_{i=1}^n (Y_i - \hat Y_i)^2$ . Die geschlossene Lösung ist:

\hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2}

what this means · Steigung der Stichprobe: Kovarianz von X und Y dividiert durch Varianz von X.

\hat\beta_0 = \bar Y - \hat\beta_1 \bar X

what this means · Achsenabschnitt: Zwingt die Gerade durch den Schwerpunkt der Daten.

Das Residuum $e_i = Y_i - \hat Y_i$ ist der vertikale Abstand jedes Punktes von der angepassten Geraden.

Zerlegung der Varianz und R²

"The coefficient of determination $r^2$ is the square of the correlation coefficient $r$ . It tells you the fraction of total variability in the response that is explained by the least-squares line." — OpenIntro Statistics, §7.2, S. 331

Inferenz über die Steigung

Definition· Schätzung von Sigma und t-Test für die Steigung

Erwartungstreue Schätzung von $\sigma^2$ :

\hat\sigma^2 = MSE = \frac{SSE}{n-2}

what this means · Restvarianz mit n-2 Freiheitsgraden (wir verlieren zwei: einen für beta0, einen für beta1).

Standardfehler von $\hat\beta_1$ :

SE(\hat\beta_1) = \frac{\hat\sigma}{\sqrt{S_{xx}}}

what this means · Je kleiner die Streuung der X-Werte und je größer n, desto kleiner ist der SE der Steigung.

Teststatistik für $H_0: \beta_1 = 0$ :

T = \frac{\hat\beta_1}{SE(\hat\beta_1)} \sim t_{n-2}

what this means · Unter H0 folgt die Teststatistik einer t-Verteilung mit n-2 Freiheitsgraden.

Kleinste-Quadrate-Gerade (golden) minimiert die Summe der Quadrate der Residuen (orange). Jedes Residuum e ist der vertikale Abstand des Punktes von der Geraden.

Gelöste Beispiele

Example— 105.1· Berechnung der Regressionslinie mit kleinen Daten

Problem. Fünf Gemeinden im Inneren von São Paulo registrierten BIP pro Kopf $X$ (in tausend R$/Jahr) und HDI $Y$ :

$X$	18	24	30	36	42
$Y$	0,62	0,68	0,72	0,78	0,84

Finden Sie die Kleinste-Quadrate-Gerade und interpretieren Sie die Koeffizienten.

Strategie. Berechnen Sie $\bar X$ , $\bar Y$ , $S_{xx}$ , $S_{xy}$ , dann wenden Sie die Schätzerformeln an.

Lösung.

$\bar X = (18+24+30+36+42)/5 = 30$ ; $\bar Y = (0{,}62+0{,}68+0{,}72+0{,}78+0{,}84)/5 = 0{,}728$ .

$S_{xx} = (18-30)^2+(24-30)^2+(30-30)^2+(36-30)^2+(42-30)^2 = 144+36+0+36+144 = 360$ .

$S_{xy} = (18-30)(0{,}62-0{,}728)+\ldots = (-12)(-0{,}108)+(-6)(-0{,}048)+0+(6)(0{,}052)+(12)(0{,}112)$ $= 1{,}296+0{,}288+0+0{,}312+1{,}344 = 3{,}24$ .

$\hat\beta_1 = 3{,}24/360 = 0{,}009$ (HDI-Punkt pro tausend R$ BIP pro Kopf).

$\hat\beta_0 = 0{,}728 - 0{,}009 \times 30 = 0{,}458$ .

Gerade: $\hat Y = 0{,}458 + 0{,}009 X$ .

Verifikation. Für $X=30$ : $\hat Y = 0{,}458+0{,}009\times30 = 0{,}728 = \bar Y$ . Richtig — die Gerade verläuft durch den Schwerpunkt.

Quelle. OpenStax Statistics, §12.3, Example 12.5 — CC-BY

Example— 105.2· Berechnung und Interpretation von R²

Problem. Mit den Daten aus dem vorherigen Beispiel, berechnen Sie $SST$ , $SSE$ , $SSR$ und $R^2$ .

Strategie. Berechnen Sie $\hat Y_i$ für jeden Punkt, dann die drei Summen der Quadrate.

Lösung.

$X$	$Y$	$\hat Y$	$e = Y-\hat Y$	$e^2$	$(Y-\bar Y)^2$
18	0,62	0,620	0	0	0,01166
24	0,68	0,674	0,006	0,000036	0,00230
30	0,72	0,728	-0,008	0,000064	0,000064
36	0,78	0,782	-0,002	0,000004	0,00274
42	0,84	0,836	0,004	0,000016	0,01254

$SSE = 0{,}000120$ ; $SST = 0{,}02930$ ; $SSR = 0{,}02918$ .

$R^2 = 0{,}02918/0{,}02930 \approx 0{,}996$ .

Verifikation. $R^2$ sehr nahe bei 1 — macht Sinn: Die Punkte sind fast perfekt ausgerichtet.

Quelle. OpenIntro Statistics, §7.2, Exercise 7.9 — CC-BY-SA

Example— 105.3· t-Test für die Steigung

Problem. Mit $n=25$ Beobachtungspaaren erhielten wir $\hat\beta_1 = 3{,}42$ und $SE(\hat\beta_1) = 1{,}14$ . Testen Sie $H_0: \beta_1 = 0$ auf 5% Niveau (zweiseitig).

Strategie. Berechnen Sie die Teststatistik $T$ und vergleichen Sie mit dem kritischen Wert $t_{23;\,0{,}025}$ .

Lösung.

$T = \hat\beta_1 / SE(\hat\beta_1) = 3{,}42/1{,}14 = 3{,}00$ .

Freiheitsgrade: $n-2 = 23$ . Kritischer Wert $t_{23;\,0{,}025} \approx 2{,}069$ .

Da $|T| = 3{,}00 > 2{,}069$ , lehnen wir $H_0$ auf dem 5%-Niveau ab.

Verifikation. p-Wert: $P(|t_{23}| > 3{,}00) \approx 0{,}006 < 0{,}05$ . Konsistent mit Ablehnung.

Quelle. OpenStax Statistics, §12.4, Example 12.8 — CC-BY

Example— 105.4· Punktvorhersage und Konfidenzintervall

Problem. Die angepasste Gerade ist $\hat Y = 42{,}6 + 1{,}8 X$ mit $n=20$ , $MSE = 9{,}61$ , $\bar X = 15$ , $S_{xx} = 280$ . Besorgen Sie: (a) Punktvorhersage für $X^* = 20$ ; (b) 95% KI für den mittleren Wert von $Y$ , wenn $X = 20$ .

Strategie. Substituieren Sie $X^*$ in die angepasste Gerade. Verwenden Sie die KI-Formel für den bedingten Mittelwert.

Lösung.

(a) $\hat Y^* = 42{,}6 + 1{,}8 \times 20 = 42{,}6 + 36 = 78{,}6$ .

(b) $SE(\hat Y^*) = \hat\sigma\sqrt{\frac{1}{n} + \frac{(X^*-\bar X)^2}{S_{xx}}} = \sqrt{9{,}61}\sqrt{\frac{1}{20}+\frac{25}{280}} = 3{,}10 \times \sqrt{0{,}0500+0{,}0893} = 3{,}10 \times 0{,}373 = 1{,}156$ .

$t_{18;\,0{,}025} \approx 2{,}101$ .

95% KI: $78{,}6 \pm 2{,}101 \times 1{,}156 = 78{,}6 \pm 2{,}43 = (76{,}2;\; 81{,}0)$ .

Verifikation. Je weiter $X^*$ von $\bar X$ entfernt ist, desto größer ist der SE — das KI dehnt sich an den Extremen aus.

Quelle. OpenIntro Statistics, §7.3 — CC-BY-SA

Example— 105.5· Residuendiagnose und Annahmeverletzung

Problem. Eine Regression des Energieverbrauchs $(Y)$ gegen Temperatur $(X)$ ergab das Residuen-vs.- $\hat Y$ -Diagramm mit U-Form (negative Residuen in der Mitte, positive an den Rändern). Welche Annahme wurde verletzt und was tun?

Strategie. Identifizieren Sie das Muster im Residuendiagramm und beziehen Sie es auf die Linearitätsannahme.

Lösung.

U-förmiges Muster (systematische Krümmung) im Residuendiagramm vs. $\hat Y$ zeigt Verletzung der Linearitätsannahme: Die echte Beziehung zwischen $X$ und $Y$ ist nicht linear.

Korrekturmaßnahme: Fügen Sie $X^2$ zum Modell hinzu (Polynomregression) oder wenden Sie Transformation auf $X$ an (z.B. $\log X$ , $\sqrt{X}$ ).

Andere häufige Muster:

Trichter (wachsende Varianz mit $\hat Y$ ) → Homoskedastizität verletzt → transformieren Sie $Y$ (z.B. $\log Y$ ) oder verwenden Sie robuste Fehler.
Diagonale Bänder → diskrete oder gruppierte Daten → Mischeffekt.

Verifikation. Nachdem Sie $X^2$ hinzugefügt haben, sollte das neue Residuendiagramm zufällig um Null sein.

Quelle. OpenIntro Statistics, §7.4, Figure 7.17 — CC-BY-SA

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 4Modeling 5Challenge 4Proof 2

Ex. 105.1Application
Daten: $n=6$ , $\bar X = 4$ , $\bar Y = 10$ , $S_{xx} = 20$ , $S_{xy} = 30$ . Berechnen Sie $\hat\beta_0$ und $\hat\beta_1$ .
Solve online
Ex. 105.2Application
Paare $(X,Y)$ : $(2,5)$ , $(4,9)$ , $(6,11)$ , $(8,15)$ , $(10,20)$ . Berechnen Sie die Kleinste-Quadrate-Gerade.
Solve online
Ex. 105.3Application
Verwenden Sie $\hat Y = 1{,}2 + 1{,}8X$ (vorherige Übung), um $Y$ für $X=7$ und $X=12$ vorherzusagen. Identifizieren Sie, welche Vorhersage eine Extrapolation ist.
Solve online
Ex. 105.4Application
Für die Daten von Übung 105.1: $\bar X=4$ , $\bar Y=10$ , $S_{xx}=20$ , $S_{xy}=30$ , $S_{yy}=52$ . Berechnen Sie $R^2$ und interpretieren Sie.
Solve online
Ex. 105.5ApplicationAnswer key
Der Pearson-Korrelationskoeffizient zwischen zwei Variablen ist $r = 0{,}87$ . Wie groß ist das $R^2$ der einfachen Regression von $Y$ auf $X$ ?
Solve online
Ex. 105.6ApplicationAnswer key
Regression des Jahresgehalts (in tausend R$) auf Berufserfahrung ergab $\hat Y = 32{,}4 + 2{,}5X$ . Interpretieren Sie $\hat\beta_0$ und $\hat\beta_1$ .
Solve online
Ex. 105.7Application
Verwenden Sie $\hat Y = 32{,}4 + 2{,}5X$ . Ein Mitarbeiter mit 14 Jahren Erfahrung verdient R$ 72.000/Jahr. Berechnen Sie das Residuum.
Solve online
Ex. 105.8ApplicationAnswer key
Fünf beobachtete Werte von $Y$ : $(8, 10, 12, 9, 11)$ mit $\bar Y = 10$ . Das SSE der Regression ist 3,2. Berechnen Sie SST, SSR und $R^2$ .
Solve online
Ex. 105.9Application
Eine Regression mit $n=20$ erbrachte $SSE = 48{,}6$ . Berechnen Sie $MSE$ und $\hat\sigma$ und interpretieren Sie.
Solve online
Ex. 105.10Application
$\hat\beta_1 = 3{,}6$ , $\hat\sigma = 2{,}1$ , $S_{xx} = 144$ . Berechnen Sie $SE(\hat\beta_1)$ und die Teststatistik $T$ .
Solve online
Ex. 105.11Application
$n=30$ , $\hat\beta_1 = 1{,}4$ , $SE(\hat\beta_1) = 0{,}38$ . Konstruieren Sie 95% KI für $\beta_1$ und interpretieren Sie.
Solve online
Ex. 105.12Application
$r = -0{,}73$ , $s_X = 4$ , $s_Y = 6$ . Wie ist das Vorzeichen von $\hat\beta_1$ ? Berechnen Sie $\hat\beta_1$ mit der Relation $\hat\beta_1 = r(s_Y/s_X)$ .
Solve online
Ex. 105.13UnderstandingAnswer key
Welche der folgenden Aussagen zur Kleinste-Quadrate-Geraden ist RICHTIG?
Solve online
Ex. 105.14Understanding
Welche ist die richtige Interpretation von $R^2 = 0$ in einfacher linearer Regression?
Solve online
Ex. 105.15Understanding
Eine Regression erbrachte $R^2 = 0{,}85$ und $\hat\beta_1 = 2{,}3 > 0$ . Was kann man schließen?
Solve online
Ex. 105.16Modeling
Ein Immobilienmakler in Curitiba sammelte Daten von 10 Wohnungen: Fläche ( $X$ , in m²) und Mietkosten ( $Y$ , in R$/Monat). $\bar X=80$ , $\bar Y=1600$ , $S_{xx}=3200$ , $S_{xy}=64000$ . Passen Sie die Gerade an und prognostizieren Sie die Miete für eine Wohnung von 95 m².
Solve online
Ex. 105.17Modeling
Kinder von 10 bis 25 Jahren: $\bar X = 22$ Jahre, $\bar Y = 74$ kg, $s_X = 2{,}3$ , $s_Y = 8{,}5$ , $r = 0{,}82$ . Passen Sie die Gerade mit $\hat\beta_1 = r(s_Y/s_X)$ an und prognostizieren Sie das Gewicht eines 30-jährigen Kindes.
Solve online
Ex. 105.18ModelingAnswer key
Regression mit $n=25$ , $SST=1200$ , $R^2=0{,}72$ . Erstellen Sie die ANOVA-Tabelle (SSR, SSE, MSR, MSE, F) und testen Sie $H_0: \beta_1 = 0$ auf dem 5%-Niveau.
Solve online
Ex. 105.19Modeling
Eine Regression des Wasseverbrauchs (Liter/Tag) gegen Temperatur (°C) ergab $\hat Y = 50 + 8X$ mit $R^2=0{,}91$ für $n=30$ Punkte. Der Punkt $(15; 430)$ liegt weit entfernt. Welches Verfahren verwenden, um seinen Einfluss zu bewerten?
Solve online
Ex. 105.20Modeling
Ein Transportunternehmen registrierte Bestellmenge $X$ und monatliche Logistikkosten $Y$ (in R$ tausend) für 5 Filialen: $(10,100)$ , $(20,180)$ , $(30,270)$ , $(40,340)$ , $(50,400)$ . Passen Sie die Gerade an.
Solve online
Ex. 105.21Application
Verwenden Sie $\hat Y = 30 + 7{,}6X$ , berechnen Sie die Vorhersage und das Residuum für eine Filiale mit $X=35$ Bestellungen und beobachtete Kosten von R$ 310.000.
Solve online
Ex. 105.22Application
Für die Regression von Übung 105.20, berechnen Sie die 5 Residuen, das SSE und die Residuenstandardabweichung $\hat\sigma$ .
Solve online
Ex. 105.23Understanding
Das Residuendiagramm vs. $\hat Y$ hat Trichterform (wachsende Varianz). Was zeigt das an?
Solve online
Ex. 105.24Application
Für die Regression von Übung 105.20 ( $\hat Y = 30 + 7{,}6X$ , $n=5$ , $\bar X=30$ , $S_{xx}=1000$ , $\hat\sigma \approx 10{,}95$ ), konstruieren Sie 95% KI für die durchschnittlichen Kosten einer Filiale mit $X^*=40$ Bestellungen. Verwenden Sie $t_{3;\,0{,}025} = 3{,}182$ .
Solve online
Ex. 105.25ChallengeAnswer key
Beweisen Sie algebraisch, dass für einfache lineare Regression $R^2 = r^2$ (Quadrat des Pearson-Korrelationskoeffizienten) gilt.
Solve online
Ex. 105.26ChallengeAnswer key
Leiten Sie die Formeln für $\hat\beta_0$ und $\hat\beta_1$ durch Minimierung von $SSE = \sum (Y_i - \beta_0 - \beta_1 X_i)^2$ mittels Differentialrechnung (Normalgleichungen) her.
Solve online
Ex. 105.27Proof
Beweisen Sie, dass für eine beliebige Kleinste-Quadrate-Gerade die Summe der Residuen null ist: $\sum_{i=1}^n e_i = 0$ .
Solve online
Ex. 105.28Challenge
Zusammengefasste Daten: $n=15$ , $\bar X=12$ , $\bar Y=45$ , $S_{xx}=420$ , $S_{xy}=1260$ , $S_{yy}=4800$ . Berechnen Sie: angepasste Gerade, $R^2$ , teste $H_0:\beta_1=0$ auf dem 5%-Niveau.
Solve online
Ex. 105.29Challenge
Warum schadet die Verringerung der Variabilität von $X$ (Verengung des abgetasteten Intervalls) der Schätzung von $\beta_1$ ? Beziehen Sie sich auf die Formel für $SE(\hat\beta_1)$ .
Solve online
Ex. 105.30Proof
Beweisen Sie, dass die OLS-Schätzer $\hat\beta_0$ und $\hat\beta_1$ erwartungstreu sind, d.h. $E[\hat\beta_j] = \beta_j$ .
Solve online

Quellen

Statistics — OpenStax — Illowsky, Dean · CC-BY · Kapitel 12 (Linear Regression and Correlation). Primäre Quelle für Beispiele, Gleichungen und Übungen dieser Lektion.
OpenIntro Statistics (4. Aufl.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Kapitel 7 (Introduction to linear regression). Primäre Quelle für Residuendiagnose, Inferenz und Übungen mit realen Daten.
Probabilidade e Estatística — Wikilivros — kollaborativ · CC-BY-SA · Sektion lineare Regression. Referenz in PT-BR mit Notation kompatibel zum nationalen Lehrplan.