v1 · padrão canônico

Lição 105 — Regressão linear simples

Modelo OLS, estimadores de mínimos quadrados, R², resíduos, inferência sobre a inclinação. Fundamento do aprendizado supervisionado e da econometria.

Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§14) · Math B japonês

\hat{Y} = \hat\beta_0 + \hat\beta_1 X, \qquad \hat\beta_1 = \frac{S_{xy}}{S_{xx}}

A reta de mínimos quadrados passa pelo centroide $(\bar X, \bar Y)$ e tem inclinação igual à covariância amostral dividida pela variância de $X$ . O intercepto $\hat\beta_0 = \bar Y - \hat\beta_1 \bar X$ é determinado a partir daí.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Modelo de regressão linear simples

"The regression equation is written as $\hat{y} = a + bx$ , where $b$ is the slope and $a$ is the $y$ -intercept." — OpenStax Statistics, §12.3

Definition· Estimadores de mínimos quadrados (OLS)

Os estimadores de OLS minimizam $SSE = \sum_{i=1}^n (Y_i - \hat Y_i)^2$ . A solução de forma fechada é:

\hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2}

what this means · Inclinação amostral: covariância de X e Y dividida pela variância de X.

\hat\beta_0 = \bar Y - \hat\beta_1 \bar X

what this means · Intercepto: força a reta a passar pelo centroide dos dados.

O resíduo $e_i = Y_i - \hat Y_i$ é a distância vertical de cada ponto à reta ajustada.

Decomposição da variância e R²

"The coefficient of determination $r^2$ is the square of the correlation coefficient $r$ . It tells you the fraction of total variability in the response that is explained by the least-squares line." — OpenIntro Statistics, §7.2, p. 331

Inferência sobre a inclinação

Reta de mínimos quadrados (dourada) minimizando a soma dos quadrados dos resíduos (laranjas). Cada resíduo e é a distância vertical do ponto à reta.

Exemplos resolvidos

Example— 105.1· Calcular a reta de regressao com dados pequenos

Problema. Cinco municípios do interior de São Paulo registraram PIB per capita $X$ (em mil R$/ano) e IDH $Y$ :

$X$	18	24	30	36	42
$Y$	0,62	0,68	0,72	0,78	0,84

Encontre a reta de mínimos quadrados e interprete os coeficientes.

Estratégia. Calcular $\bar X$ , $\bar Y$ , $S_{xx}$ , $S_{xy}$ , depois aplicar as fórmulas dos estimadores.

Resolução.

$\bar X = (18+24+30+36+42)/5 = 30$ ; $\bar Y = (0{,}62+0{,}68+0{,}72+0{,}78+0{,}84)/5 = 0{,}728$ .

$S_{xx} = (18-30)^2+(24-30)^2+(30-30)^2+(36-30)^2+(42-30)^2 = 144+36+0+36+144 = 360$ .

$S_{xy} = (18-30)(0{,}62-0{,}728)+\ldots = (-12)(-0{,}108)+(-6)(-0{,}048)+0+(6)(0{,}052)+(12)(0{,}112)$ $= 1{,}296+0{,}288+0+0{,}312+1{,}344 = 3{,}24$ .

$\hat\beta_1 = 3{,}24/360 = 0{,}009$ (ponto de IDH por mil R$ de PIB per capita).

$\hat\beta_0 = 0{,}728 - 0{,}009 \times 30 = 0{,}458$ .

Reta: $\hat Y = 0{,}458 + 0{,}009 X$ .

Verificação. Para $X=30$ : $\hat Y = 0{,}458+0{,}009\times30 = 0{,}728 = \bar Y$ . Correto — a reta passa pelo centroide.

Fonte. OpenStax Statistics, §12.3, Exemplo 12.5 — CC-BY

Example— 105.2· Calcular e interpretar R²

Problema. Com os dados do exemplo anterior, calcule $SST$ , $SSE$ , $SSR$ e $R^2$ .

Estratégia. Calcular $\hat Y_i$ para cada ponto, depois as três somas de quadrados.

Resolução.

$X$	$Y$	$\hat Y$	$e = Y-\hat Y$	$e^2$	$(Y-\bar Y)^2$
18	0,62	0,620	0	0	0,01166
24	0,68	0,674	0,006	0,000036	0,00230
30	0,72	0,728	-0,008	0,000064	0,000064
36	0,78	0,782	-0,002	0,000004	0,00274
42	0,84	0,836	0,004	0,000016	0,01254

$SSE = 0{,}000120$ ; $SST = 0{,}02930$ ; $SSR = 0{,}02918$ .

$R^2 = 0{,}02918/0{,}02930 \approx 0{,}996$ .

Verificação. $R^2$ muito próximo de 1 — faz sentido: os pontos estão quase perfeitamente alinhados.

Fonte. OpenIntro Statistics, §7.2, Exercício 7.9 — CC-BY-SA

Example— 105.3· Teste t para a inclinacao

Problema. Com $n=25$ pares de observações, obteve-se $\hat\beta_1 = 3{,}42$ e $SE(\hat\beta_1) = 1{,}14$ . Teste $H_0: \beta_1 = 0$ ao nível de 5% (bicaudal).

Estratégia. Calcular a estatística $T$ e comparar com o valor crítico $t_{23;\,0{,}025}$ .

Resolução.

$T = \hat\beta_1 / SE(\hat\beta_1) = 3{,}42/1{,}14 = 3{,}00$ .

Graus de liberdade: $n-2 = 23$ . Valor crítico $t_{23;\,0{,}025} \approx 2{,}069$ .

Como $|T| = 3{,}00 > 2{,}069$ , rejeitamos $H_0$ ao nível de 5%.

Verificação. p-valor: $P(|t_{23}| > 3{,}00) \approx 0{,}006 < 0{,}05$ . Consistente com a rejeição.

Fonte. OpenStax Statistics, §12.4, Exemplo 12.8 — CC-BY

Example— 105.4· Previsao pontual e intervalo de confianca

Problema. A reta ajustada é $\hat Y = 42{,}6 + 1{,}8 X$ com $n=20$ , $MSE = 9{,}61$ , $\bar X = 15$ , $S_{xx} = 280$ . Obtenha: (a) previsão pontual para $X^* = 20$ ; (b) IC 95% para o valor médio de $Y$ quando $X = 20$ .

Estratégia. Substituir $X^*$ na reta ajustada. Usar fórmula do IC para a média condicional.

Resolução.

(a) $\hat Y^* = 42{,}6 + 1{,}8 \times 20 = 42{,}6 + 36 = 78{,}6$ .

(b) $SE(\hat Y^*) = \hat\sigma\sqrt{\frac{1}{n} + \frac{(X^*-\bar X)^2}{S_{xx}}} = \sqrt{9{,}61}\sqrt{\frac{1}{20}+\frac{25}{280}} = 3{,}10 \times \sqrt{0{,}0500+0{,}0893} = 3{,}10 \times 0{,}373 = 1{,}156$ .

$t_{18;\,0{,}025} \approx 2{,}101$ .

IC 95%: $78{,}6 \pm 2{,}101 \times 1{,}156 = 78{,}6 \pm 2{,}43 = (76{,}2;\; 81{,}0)$ .

Verificação. Quanto mais longe $X^*$ está de $\bar X$ , maior o SE — IC se alarga nos extremos.

Fonte. OpenIntro Statistics, §7.3 — CC-BY-SA

Example— 105.5· Diagnostico de residuos e violacao de pressuposto

Problema. Uma regressão de consumo de energia $(Y)$ vs. temperatura $(X)$ produziu o gráfico de resíduos vs. $\hat Y$ com formato de "U" (resíduos negativos no centro, positivos nas extremidades). Que pressuposto foi violado e o que fazer?

Estratégia. Identificar o padrão no gráfico de resíduos e relacionar ao pressuposto de linearidade.

Resolução.

Padrão em "U" (curvatura sistemática) nos resíduos vs. $\hat Y$ indica violação do pressuposto de linearidade: a relação real entre $X$ e $Y$ não é linear.

Ação corretiva: incluir $X^2$ no modelo (regressão polinomial) ou aplicar transformação em $X$ (e.g., $\log X$ , $\sqrt{X}$ ).

Outros padrões comuns:

Funil (variância crescente com $\hat Y$ ) → homocedasticidade violada → transformar $Y$ (e.g., $\log Y$ ) ou usar erros robustos.
Bandas diagonais → dados discretos ou agrupados → efeito misto.

Verificação. Após incluir $X^2$ , o novo gráfico de resíduos deve ser aleatório em torno de zero.

Fonte. OpenIntro Statistics, §7.4, Figura 7.17 — CC-BY-SA

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 4Modeling 5Challenge 4Proof 2

Fontes

Statistics — OpenStax — Illowsky, Dean · CC-BY · Capítulos 12 (Linear Regression and Correlation). Fonte primária para exemplos, equações e exercícios desta lição.
OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Capítulo 7 (Introduction to linear regression). Fonte primária para diagnóstico de resíduos, inferência e exercícios com dados reais.
Probabilidade e Estatística — Wikilivros — colaborativo · CC-BY-SA · Seção de regressão linear. Referência em PT-BR com notação compatível com o currículo nacional.