v1 · padrão canônico

Lição 105 — Regressão linear simples

Modelo OLS, estimadores de mínimos quadrados, R², resíduos, inferência sobre a inclinação. Fundamento do aprendizado supervisionado e da econometria.

Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§14) · Math B japonês

\hat{Y} = \hat\beta_0 + \hat\beta_1 X, \qquad \hat\beta_1 = \frac{S_{xy}}{S_{xx}}

Choose your door

Rigorous notation, full derivation, hypotheses

Definicja ścisła

Model regresji liniowej prostej

"The regression equation is written as $\hat{y} = a + bx$ , where $b$ is the slope and $a$ is the $y$ -intercept." — OpenStax Statistics, §12.3

Definition· Estymatory najmniejszych kwadratów (OLS)

Estymatory OLS minimalizują $SSE = \sum_{i=1}^n (Y_i - \hat Y_i)^2$ . Rozwiązanie w postaci zamkniętej to:

\hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2}

what this means · Nachylenie próbkowe: kowariancja między X i Y podzielona przez wariancję X.

\hat\beta_0 = \bar Y - \hat\beta_1 \bar X

what this means · Wyraz wolny: zmusza linię przechodzić przez centroidę danych.

Reszta $e_i = Y_i - \hat Y_i$ to odległość pionowa każdego punktu od dostosowanej linii.

Rozkład wariancji i R²

"The coefficient of determination $r^2$ is the square of the correlation coefficient $r$ . It tells you the fraction of total variability in the response that is explained by the least-squares line." — OpenIntro Statistics, §7.2, p. 331

Wnioskowanie o nachyleniu

Linia najmniejszych kwadratów (złota) minimalizująca sumę kwadratów reszt (pomarańczowe). Każda reszta e to odległość pionowa punktu od linii.

Rozwiązane przykłady

Example— 105.1· Oblicz linię regresji z małymi danymi

Problem. Pięć gmin w głębi São Paulo zanotowało PKB per capita $X$ (w tysiącach R$/rok) i IDH $Y$ :

$X$	18	24	30	36	42
$Y$	0,62	0,68	0,72	0,78	0,84

Znajdź linię najmniejszych kwadratów i zinterpretuj współczynniki.

Strategia. Oblicz $\bar X$ , $\bar Y$ , $S_{xx}$ , $S_{xy}$ , potem zastosuj formuły estymatorów.

Rozwiązanie.

$\bar X = (18+24+30+36+42)/5 = 30$ ; $\bar Y = (0{,}62+0{,}68+0{,}72+0{,}78+0{,}84)/5 = 0{,}728$ .

$S_{xx} = (18-30)^2+(24-30)^2+(30-30)^2+(36-30)^2+(42-30)^2 = 144+36+0+36+144 = 360$ .

$S_{xy} = (18-30)(0{,}62-0{,}728)+\ldots = (-12)(-0{,}108)+(-6)(-0{,}048)+0+(6)(0{,}052)+(12)(0{,}112)$ $= 1{,}296+0{,}288+0+0{,}312+1{,}344 = 3{,}24$ .

$\hat\beta_1 = 3{,}24/360 = 0{,}009$ (punkt IDH na tysiąc R$ PKB per capita).

$\hat\beta_0 = 0{,}728 - 0{,}009 \times 30 = 0{,}458$ .

Linia: $\hat Y = 0{,}458 + 0{,}009 X$ .

Weryfikacja. Dla $X=30$ : $\hat Y = 0{,}458+0{,}009\times30 = 0{,}728 = \bar Y$ . Poprawnie — linia przechodzi przez centroidę.

Źródło. OpenStax Statistics, §12.3, Przykład 12.5 — CC-BY

Example— 105.2· Oblicz i interpretuj R²

Problem. Z danymi z poprzedniego przykładu oblicz $SST$ , $SSE$ , $SSR$ i $R^2$ .

Strategia. Oblicz $\hat Y_i$ dla każdego punktu, potem trzy sumy kwadratów.

Rozwiązanie.

$X$	$Y$	$\hat Y$	$e = Y-\hat Y$	$e^2$	$(Y-\bar Y)^2$
18	0,62	0,620	0	0	0,01166
24	0,68	0,674	0,006	0,000036	0,00230
30	0,72	0,728	-0,008	0,000064	0,000064
36	0,78	0,782	-0,002	0,000004	0,00274
42	0,84	0,836	0,004	0,000016	0,01254

$SSE = 0{,}000120$ ; $SST = 0{,}02930$ ; $SSR = 0{,}02918$ .

$R^2 = 0{,}02918/0{,}02930 \approx 0{,}996$ .

Weryfikacja. $R^2$ bardzo blisko 1 — ma sens: punkty są prawie doskonale wyrównane.

Źródło. OpenIntro Statistics, §7.2, Ćwiczenie 7.9 — CC-BY-SA

Example— 105.3· Test t dla nachylenia

Problem. Z $n=25$ parami obserwacji otrzymałeś $\hat\beta_1 = 3{,}42$ i $SE(\hat\beta_1) = 1{,}14$ . Testuj $H_0: \beta_1 = 0$ na poziomie 5% (dwustronnie).

Strategia. Oblicz statystykę $T$ i porównaj z wartością krytyczną $t_{23;\,0{,}025}$ .

Rozwiązanie.

$T = \hat\beta_1 / SE(\hat\beta_1) = 3{,}42/1{,}14 = 3{,}00$ .

Stopnie swobody: $n-2 = 23$ . Wartość krytyczna $t_{23;\,0{,}025} \approx 2{,}069$ .

Ponieważ $|T| = 3{,}00 > 2{,}069$ , odrzucamy $H_0$ na poziomie 5%.

Weryfikacja. p-wartość: $P(|t_{23}| > 3{,}00) \approx 0{,}006 < 0{,}05$ . Spójne z odrzuceniem.

Źródło. OpenStax Statistics, §12.4, Przykład 12.8 — CC-BY

Example— 105.4· Prognoza punktowa i przedział ufności

Problem. Dostosowana linia to $\hat Y = 42{,}6 + 1{,}8 X$ z $n=20$ , $MSE = 9{,}61$ , $\bar X = 15$ , $S_{xx} = 280$ . Uzyskaj: (a) prognozę punktową dla $X^* = 20$ ; (b) PU 95% dla średniej wartości $Y$ , gdy $X = 20$ .

Strategia. Podstaw $X^*$ do dostosowanej linii. Użyj formuły PU dla warunkowej średniej.

Rozwiązanie.

(a) $\hat Y^* = 42{,}6 + 1{,}8 \times 20 = 42{,}6 + 36 = 78{,}6$ .

(b) $SE(\hat Y^*) = \hat\sigma\sqrt{\frac{1}{n} + \frac{(X^*-\bar X)^2}{S_{xx}}} = \sqrt{9{,}61}\sqrt{\frac{1}{20}+\frac{25}{280}} = 3{,}10 \times \sqrt{0{,}0500+0{,}0893} = 3{,}10 \times 0{,}373 = 1{,}156$ .

$t_{18;\,0{,}025} \approx 2{,}101$ .

PU 95%: $78{,}6 \pm 2{,}101 \times 1{,}156 = 78{,}6 \pm 2{,}43 = (76{,}2;\; 81{,}0)$ .

Weryfikacja. Im dalej $X^*$ od $\bar X$ , tym większy SE — PU się powiększa na końcach.

Źródło. OpenIntro Statistics, §7.3 — CC-BY-SA

Example— 105.5· Diagnostyka reszt i naruszenie założenia

Problem. Regresja zużycia energii $(Y)$ vs. temperatura $(X)$ dała wykres reszt vs. $\hat Y$ w kształcie „U" (reszty ujemne pośrodku, dodatnie na końcach). Które założenie było naruszane i co zrobić?

Strategia. Identyfikuj wzór na wykresie reszt i powiąż z założeniem liniowości.

Rozwiązanie.

Wzór w kształcie „U" (systematyczna krzywizna) na wykresie reszt vs. $\hat Y$ wskazuje naruszenie założenia liniowości: rzeczywisty związek między $X$ i $Y$ nie jest liniowy.

Działanie korygujące: dołączyć $X^2$ do modelu (regresja wielomianowa) lub zastosować transformację $X$ (np. $\log X$ , $\sqrt{X}$ ).

Inne powszechne wzory:

Lejek (rosnąca wariancja z $\hat Y$ ) → homoskedastyczność naruszana → transformować $Y$ (np. $\log Y$ ) lub użyć błędów solidnych.
Diagonalne pasma → dane dyskretne lub zgrupowane → efekt mieszany.

Weryfikacja. Po włączeniu $X^2$ , nowy wykres reszt powinien być losowy wokół zera.

Źródło. OpenIntro Statistics, §7.4, Rysunek 7.17 — CC-BY-SA

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 4Modeling 5Challenge 4Proof 2

Ex. 105.1Application
Dane: $n=6$ , $\bar X = 4$ , $\bar Y = 10$ , $S_{xx} = 20$ , $S_{xy} = 30$ . Oblicz $\hat\beta_0$ i $\hat\beta_1$ .
Solve online
Ex. 105.2Application
Pary $(X,Y)$ : $(2,5)$ , $(4,9)$ , $(6,11)$ , $(8,15)$ , $(10,20)$ . Oblicz linię najmniejszych kwadratów.
Solve online
Ex. 105.3Application
Używając $\hat Y = 1{,}2 + 1{,}8X$ (poprzednie ćwiczenie), przewidź $Y$ dla $X=7$ i $X=12$ . Zidentyfikuj, która prognoza jest ekstrapolacją.
Solve online
Ex. 105.4Application
Dla danych z Ćwiczenia 105.1: $\bar X=4$ , $\bar Y=10$ , $S_{xx}=20$ , $S_{xy}=30$ , $S_{yy}=52$ . Oblicz $R^2$ i zinterpretuj.
Solve online
Ex. 105.5ApplicationAnswer key
Współczynnik korelacji Pearsona między dwiema zmiennymi to $r = 0{,}87$ . Jaki jest $R^2$ prostej regresji $Y$ na $X$ ?
Solve online
Ex. 105.6ApplicationAnswer key
Regresja rocznego wynagrodzenia (w tysiącach R$) na lata doświadczenia dała $\hat Y = 32{,}4 + 2{,}5X$ . Zinterpretuj $\hat\beta_0$ i $\hat\beta_1$ .
Solve online
Ex. 105.7Application
Używając $\hat Y = 32{,}4 + 2{,}5X$ , pracownik z 14 latami doświadczenia zarabia R$ 72 tys./rok. Oblicz resztę.
Solve online
Ex. 105.8ApplicationAnswer key
Pięć obserwowanych wartości $Y$ : $(8, 10, 12, 9, 11)$ z $\bar Y = 10$ . SSE regresji to 3,2. Oblicz SST, SSR i $R^2$ .
Solve online
Ex. 105.9Application
Regresja z $n=20$ dała $SSE = 48{,}6$ . Oblicz $MSE$ i $\hat\sigma$ i zinterpretuj.
Solve online
Ex. 105.10Application
$\hat\beta_1 = 3{,}6$ , $\hat\sigma = 2{,}1$ , $S_{xx} = 144$ . Oblicz $SE(\hat\beta_1)$ i statystykę $T$ .
Solve online
Ex. 105.11Application
$n=30$ , $\hat\beta_1 = 1{,}4$ , $SE(\hat\beta_1) = 0{,}38$ . Skonstruuj PU 95% dla $\beta_1$ i zinterpretuj.
Solve online
Ex. 105.12Application
$r = -0{,}73$ , $s_X = 4$ , $s_Y = 6$ . Jaki jest znak $\hat\beta_1$ ? Oblicz $\hat\beta_1$ używając relacji $\hat\beta_1 = r(s_Y/s_X)$ .
Solve online
Ex. 105.13UnderstandingAnswer key
Które stwierdzenie o linii najmniejszych kwadratów jest POPRAWNE?
Solve online
Ex. 105.14Understanding
Jaka jest poprawna interpretacja $R^2 = 0$ w prostej regresji liniowej?
Solve online
Ex. 105.15Understanding
Regresja dała $R^2 = 0{,}85$ i $\hat\beta_1 = 2{,}3 > 0$ . Co można wnioskować?
Solve online
Ex. 105.16Modeling
Agent nieruchomości z Kurytyby zebrał dane z 10 apartamentów: powierzchnia ( $X$ , w m²) i koszt wynajmu ( $Y$ , w R$/miesiąc). $\bar X=80$ , $\bar Y=1600$ , $S_{xx}=3200$ , $S_{xy}=64000$ . Dostosuj linię i przewidź czynsz dla apartamentu 95 m².
Solve online
Ex. 105.17Modeling
Dzieci w wieku 10 do 25 lat: $\bar X = 22$ lat, $\bar Y = 74$ kg, $s_X = 2{,}3$ , $s_Y = 8{,}5$ , $r = 0{,}82$ . Dostosuj linię używając $\hat\beta_1 = r(s_Y/s_X)$ i przewidź wagę dziecka w wieku 30 lat.
Solve online
Ex. 105.18ModelingAnswer key
Regresja z $n=25$ , $SST=1200$ , $R^2=0{,}72$ . Skonstruuj tabelę ANOVA (SSR, SSE, MSR, MSE, F) i testuj $H_0: \beta_1 = 0$ na poziomie 5%.
Solve online
Ex. 105.19Modeling
Regresja zużycia wody (litrów/dzień) vs. temperatura (°C) dała $\hat Y = 50 + 8X$ z $R^2=0{,}91$ dla $n=30$ punktów. Punkt $(15; 430)$ wygląda znacznie poza innymi. Jaką procedurę użyć do oceny jego wpływu?
Solve online
Ex. 105.20Modeling
Firma transportowa zanotowała liczbę zamówień $X$ i miesięczny koszt logistyki $Y$ (w R$ tys.) dla 5 filii: $(10,100)$ , $(20,180)$ , $(30,270)$ , $(40,340)$ , $(50,400)$ . Dostosuj linię.
Solve online
Ex. 105.21Application
Używając $\hat Y = 30 + 7{,}6X$ , oblicz prognozę i resztę dla filii z $X=35$ zamówieniami i obserwowanym kosztem R$ 310 tys.
Solve online
Ex. 105.22Application
Dla regresji z Ćwiczenia 105.20, oblicz 5 reszt, SSE i resztkowe odchylenie standardowe $\hat\sigma$ .
Solve online
Ex. 105.23Understanding
Wykres reszt vs. $\hat Y$ ma kształt lejka (rosnąca wariancja). Co to wskazuje?
Solve online
Ex. 105.24Application
Dla regresji z Ćwiczenia 105.20 ( $\hat Y = 30 + 7{,}6X$ , $n=5$ , $\bar X=30$ , $S_{xx}=1000$ , $\hat\sigma \approx 10{,}95$ ), skonstruuj PU 95% dla średniego kosztu filii z $X^*=40$ zamówieniami. Użyj $t_{3;\,0{,}025} = 3{,}182$ .
Solve online
Ex. 105.25ChallengeAnswer key
Udowodnij algebraicznie, że dla prostej regresji liniowej $R^2 = r^2$ (kwadrat współczynnika korelacji Pearsona).
Solve online
Ex. 105.26ChallengeAnswer key
Wyprowadź formuły dla $\hat\beta_0$ i $\hat\beta_1$ przez minimalizację $SSE = \sum (Y_i - \beta_0 - \beta_1 X_i)^2$ za pomocą rachunku różniczkowego (równania normalne).
Solve online
Ex. 105.27Proof
Udowodnij, że dla każdej linii najmniejszych kwadratów suma reszt wynosi zero: $\sum_{i=1}^n e_i = 0$ .
Solve online
Ex. 105.28Challenge
Dane podsumowane: $n=15$ , $\bar X=12$ , $\bar Y=45$ , $S_{xx}=420$ , $S_{xy}=1260$ , $S_{yy}=4800$ . Oblicz: dopasowaną linię, $R^2$ , test $H_0:\beta_1=0$ na poziomie 5%.
Solve online
Ex. 105.29Challenge
Dlaczego zmniejszenie zmienności $X$ (zawężenie próbkowanego przedziału) pogarsza szacowanie $\beta_1$ ? Powiąż z formułą $SE(\hat\beta_1)$ .
Solve online
Ex. 105.30Proof
Udowodnij, że estymatory OLS $\hat\beta_0$ i $\hat\beta_1$ są nieobciążone, tzn. $E[\hat\beta_j] = \beta_j$ .
Solve online

Źródła

Statistics — OpenStax — Illowsky, Dean · CC-BY · Rozdziały 12 (Linear Regression and Correlation). Źródło podstawowe dla przykładów, równań i ćwiczeń tej lekcji.
OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Rozdział 7 (Introduction to linear regression). Źródło podstawowe do diagnostyki reszt, wnioskowania i ćwiczeń z rzeczywistymi danymi.
Probabilidade e Estatística — Wikilivros — współpracownicy · CC-BY-SA · Sekcja regresji liniowej. Odniesienie w PT-BR z notacją kompatybilną z krajowym programem nauczania.