v1 · padrão canônico

Lição 105 — Regressão linear simples

Modelo OLS, estimadores de mínimos quadrados, R², resíduos, inferência sobre a inclinação. Fundamento do aprendizado supervisionado e da econometria.

Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§14) · Math B japonês

\hat{Y} = \hat\beta_0 + \hat\beta_1 X, \qquad \hat\beta_1 = \frac{S_{xy}}{S_{xx}}

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Modelo de regressão linear simples

"The regression equation is written as $\hat{y} = a + bx$ , where $b$ is the slope and $a$ is the $y$ -intercept." — OpenStax Statistics, §12.3

Definition· Estimadores de mínimos quadrados (OLS)

Os estimadores de OLS minimizam $SSE = \sum_{i=1}^n (Y_i - \hat Y_i)^2$ . A solução de forma fechada é:

\hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2}

what this means · Inclinação amostral: covariância de X e Y dividida pela variância de X.

\hat\beta_0 = \bar Y - \hat\beta_1 \bar X

what this means · Intercepto: força a reta a passar pelo centroide dos dados.

O resíduo $e_i = Y_i - \hat Y_i$ é a distância vertical de cada ponto à reta ajustada.

Decomposição da variância e R²

"The coefficient of determination $r^2$ is the square of the correlation coefficient $r$ . It tells you the fraction of total variability in the response that is explained by the least-squares line." — OpenIntro Statistics, §7.2, p. 331

Inferência sobre a inclinação

Reta de mínimos quadrados (dourada) minimizando a soma dos quadrados dos resíduos (laranjas). Cada resíduo e é a distância vertical do ponto à reta.

Exemplos resolvidos

Example— 105.1· Calcular a reta de regressao com dados pequenos

Problema. Cinco municípios do interior de São Paulo registraram PIB per capita $X$ (em mil R$/ano) e IDH $Y$ :

$X$	18	24	30	36	42
$Y$	0,62	0,68	0,72	0,78	0,84

Encontre a reta de mínimos quadrados e interprete os coeficientes.

Estratégia. Calcular $\bar X$ , $\bar Y$ , $S_{xx}$ , $S_{xy}$ , depois aplicar as fórmulas dos estimadores.

Resolução.

$\bar X = (18+24+30+36+42)/5 = 30$ ; $\bar Y = (0{,}62+0{,}68+0{,}72+0{,}78+0{,}84)/5 = 0{,}728$ .

$S_{xx} = (18-30)^2+(24-30)^2+(30-30)^2+(36-30)^2+(42-30)^2 = 144+36+0+36+144 = 360$ .

$S_{xy} = (18-30)(0{,}62-0{,}728)+\ldots = (-12)(-0{,}108)+(-6)(-0{,}048)+0+(6)(0{,}052)+(12)(0{,}112)$ $= 1{,}296+0{,}288+0+0{,}312+1{,}344 = 3{,}24$ .

$\hat\beta_1 = 3{,}24/360 = 0{,}009$ (ponto de IDH por mil R$ de PIB per capita).

$\hat\beta_0 = 0{,}728 - 0{,}009 \times 30 = 0{,}458$ .

Reta: $\hat Y = 0{,}458 + 0{,}009 X$ .

Verificação. Para $X=30$ : $\hat Y = 0{,}458+0{,}009\times30 = 0{,}728 = \bar Y$ . Correto — a reta passa pelo centroide.

Fonte. OpenStax Statistics, §12.3, Exemplo 12.5 — CC-BY

Example— 105.2· Calcular e interpretar R²

Problema. Com os dados do exemplo anterior, calcule $SST$ , $SSE$ , $SSR$ e $R^2$ .

Estratégia. Calcular $\hat Y_i$ para cada ponto, depois as três somas de quadrados.

Resolução.

$X$	$Y$	$\hat Y$	$e = Y-\hat Y$	$e^2$	$(Y-\bar Y)^2$
18	0,62	0,620	0	0	0,01166
24	0,68	0,674	0,006	0,000036	0,00230
30	0,72	0,728	-0,008	0,000064	0,000064
36	0,78	0,782	-0,002	0,000004	0,00274
42	0,84	0,836	0,004	0,000016	0,01254

$SSE = 0{,}000120$ ; $SST = 0{,}02930$ ; $SSR = 0{,}02918$ .

$R^2 = 0{,}02918/0{,}02930 \approx 0{,}996$ .

Verificação. $R^2$ muito próximo de 1 — faz sentido: os pontos estão quase perfeitamente alinhados.

Fonte. OpenIntro Statistics, §7.2, Exercício 7.9 — CC-BY-SA

Example— 105.3· Teste t para a inclinacao

Problema. Com $n=25$ pares de observações, obteve-se $\hat\beta_1 = 3{,}42$ e $SE(\hat\beta_1) = 1{,}14$ . Teste $H_0: \beta_1 = 0$ ao nível de 5% (bicaudal).

Estratégia. Calcular a estatística $T$ e comparar com o valor crítico $t_{23;\,0{,}025}$ .

Resolução.

$T = \hat\beta_1 / SE(\hat\beta_1) = 3{,}42/1{,}14 = 3{,}00$ .

Graus de liberdade: $n-2 = 23$ . Valor crítico $t_{23;\,0{,}025} \approx 2{,}069$ .

Como $|T| = 3{,}00 > 2{,}069$ , rejeitamos $H_0$ ao nível de 5%.

Verificação. p-valor: $P(|t_{23}| > 3{,}00) \approx 0{,}006 < 0{,}05$ . Consistente com a rejeição.

Fonte. OpenStax Statistics, §12.4, Exemplo 12.8 — CC-BY

Example— 105.4· Previsao pontual e intervalo de confianca

Problema. A reta ajustada é $\hat Y = 42{,}6 + 1{,}8 X$ com $n=20$ , $MSE = 9{,}61$ , $\bar X = 15$ , $S_{xx} = 280$ . Obtenha: (a) previsão pontual para $X^* = 20$ ; (b) IC 95% para o valor médio de $Y$ quando $X = 20$ .

Estratégia. Substituir $X^*$ na reta ajustada. Usar fórmula do IC para a média condicional.

Resolução.

(a) $\hat Y^* = 42{,}6 + 1{,}8 \times 20 = 42{,}6 + 36 = 78{,}6$ .

(b) $SE(\hat Y^*) = \hat\sigma\sqrt{\frac{1}{n} + \frac{(X^*-\bar X)^2}{S_{xx}}} = \sqrt{9{,}61}\sqrt{\frac{1}{20}+\frac{25}{280}} = 3{,}10 \times \sqrt{0{,}0500+0{,}0893} = 3{,}10 \times 0{,}373 = 1{,}156$ .

$t_{18;\,0{,}025} \approx 2{,}101$ .

IC 95%: $78{,}6 \pm 2{,}101 \times 1{,}156 = 78{,}6 \pm 2{,}43 = (76{,}2;\; 81{,}0)$ .

Verificação. Quanto mais longe $X^*$ está de $\bar X$ , maior o SE — IC se alarga nos extremos.

Fonte. OpenIntro Statistics, §7.3 — CC-BY-SA

Example— 105.5· Diagnostico de residuos e violacao de pressuposto

Problema. Uma regressão de consumo de energia $(Y)$ vs. temperatura $(X)$ produziu o gráfico de resíduos vs. $\hat Y$ com formato de "U" (resíduos negativos no centro, positivos nas extremidades). Que pressuposto foi violado e o que fazer?

Estratégia. Identificar o padrão no gráfico de resíduos e relacionar ao pressuposto de linearidade.

Resolução.

Padrão em "U" (curvatura sistemática) nos resíduos vs. $\hat Y$ indica violação do pressuposto de linearidade: a relação real entre $X$ e $Y$ não é linear.

Ação corretiva: incluir $X^2$ no modelo (regressão polinomial) ou aplicar transformação em $X$ (e.g., $\log X$ , $\sqrt{X}$ ).

Outros padrões comuns:

Funil (variância crescente com $\hat Y$ ) → homocedasticidade violada → transformar $Y$ (e.g., $\log Y$ ) ou usar erros robustos.
Bandas diagonais → dados discretos ou agrupados → efeito misto.

Verificação. Após incluir $X^2$ , o novo gráfico de resíduos deve ser aleatório em torno de zero.

Fonte. OpenIntro Statistics, §7.4, Figura 7.17 — CC-BY-SA

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 4Modeling 5Challenge 4Proof 2

Ex. 105.1Application
Dados: $n=6$ , $\bar X = 4$ , $\bar Y = 10$ , $S_{xx} = 20$ , $S_{xy} = 30$ . Calcule $\hat\beta_0$ e $\hat\beta_1$ .
Solve online
Ex. 105.2Application
Pares $(X,Y)$ : $(2,5)$ , $(4,9)$ , $(6,11)$ , $(8,15)$ , $(10,20)$ . Calcule a reta de mínimos quadrados.
Solve online
Ex. 105.3Application
Usando $\hat Y = 1{,}2 + 1{,}8X$ (exercício anterior), preveja $Y$ para $X=7$ e $X=12$ . Identifique qual previsão é extrapolação.
Solve online
Ex. 105.4Application
Para os dados do Exercício 105.1: $\bar X=4$ , $\bar Y=10$ , $S_{xx}=20$ , $S_{xy}=30$ , $S_{yy}=52$ . Calcule $R^2$ e interprete.
Solve online
Ex. 105.5ApplicationAnswer key
O coeficiente de correlação de Pearson entre duas variáveis é $r = 0{,}87$ . Qual é o $R^2$ da regressão simples de $Y$ em $X$ ?
Solve online
Ex. 105.6ApplicationAnswer key
Regressão de salário anual (em mil R$) em anos de experiência produziu $\hat Y = 32{,}4 + 2{,}5X$ . Interprete $\hat\beta_0$ e $\hat\beta_1$ .
Solve online
Ex. 105.7Application
Usando $\hat Y = 32{,}4 + 2{,}5X$ , um funcionário com 14 anos de experiência ganha R$ 72 mil/ano. Calcule o resíduo.
Solve online
Ex. 105.8ApplicationAnswer key
Cinco valores observados de $Y$ : $(8, 10, 12, 9, 11)$ com $\bar Y = 10$ . O SSE da regressão é 3,2. Calcule SST, SSR e $R^2$ .
Solve online
Ex. 105.9Application
Uma regressão com $n=20$ produziu $SSE = 48{,}6$ . Calcule $MSE$ e $\hat\sigma$ e interprete.
Solve online
Ex. 105.10Application
$\hat\beta_1 = 3{,}6$ , $\hat\sigma = 2{,}1$ , $S_{xx} = 144$ . Calcule $SE(\hat\beta_1)$ e a estatística $T$ .
Solve online
Ex. 105.11Application
$n=30$ , $\hat\beta_1 = 1{,}4$ , $SE(\hat\beta_1) = 0{,}38$ . Construa IC 95% para $\beta_1$ e interprete.
Solve online
Ex. 105.12Application
$r = -0{,}73$ , $s_X = 4$ , $s_Y = 6$ . Qual o sinal de $\hat\beta_1$ ? Calcule $\hat\beta_1$ usando a relação $\hat\beta_1 = r(s_Y/s_X)$ .
Solve online
Ex. 105.13UnderstandingAnswer key
Qual das afirmações sobre a reta de mínimos quadrados é CORRETA?
Solve online
Ex. 105.14Understanding
Qual é a interpretação correta de $R^2 = 0$ em regressão linear simples?
Solve online
Ex. 105.15Understanding
Uma regressão produziu $R^2 = 0{,}85$ e $\hat\beta_1 = 2{,}3 > 0$ . O que se pode concluir?
Solve online
Ex. 105.16Modeling
Um imobiliário de Curitiba coletou dados de 10 apartamentos: área ( $X$ , em m²) e custo de aluguel ( $Y$ , em R$/mês). $\bar X=80$ , $\bar Y=1600$ , $S_{xx}=3200$ , $S_{xy}=64000$ . Ajuste a reta e preveja o aluguel para um apartamento de 95 m².
Solve online
Ex. 105.17Modeling
Crianças de 10 a 25 anos: $\bar X = 22$ anos, $\bar Y = 74$ kg, $s_X = 2{,}3$ , $s_Y = 8{,}5$ , $r = 0{,}82$ . Ajuste a reta usando $\hat\beta_1 = r(s_Y/s_X)$ e preveja o peso de uma criança de 30 anos.
Solve online
Ex. 105.18ModelingAnswer key
Regressão com $n=25$ , $SST=1200$ , $R^2=0{,}72$ . Monte a tabela ANOVA (SSR, SSE, MSR, MSE, F) e teste $H_0: \beta_1 = 0$ ao nível 5%.
Solve online
Ex. 105.19Modeling
Uma regressão de consumo de água (litros/dia) em temperatura (°C) produziu $\hat Y = 50 + 8X$ com $R^2=0{,}91$ para $n=30$ pontos. O ponto $(15; 430)$ aparece muito longe dos demais. Que procedimento usar para avaliar sua influência?
Solve online
Ex. 105.20Modeling
Uma transportadora registrou número de pedidos $X$ e custo logístico mensal $Y$ (em R$ mil) para 5 filiais: $(10,100)$ , $(20,180)$ , $(30,270)$ , $(40,340)$ , $(50,400)$ . Ajuste a reta.
Solve online
Ex. 105.21Application
Usando $\hat Y = 30 + 7{,}6X$ , calcule a previsão e o resíduo para uma filial com $X=35$ pedidos e custo observado de R$ 310 mil.
Solve online
Ex. 105.22Application
Para a regressão do Exercício 105.20, calcule os 5 resíduos, o SSE e o desvio padrão residual $\hat\sigma$ .
Solve online
Ex. 105.23Understanding
O gráfico de resíduos vs. $\hat Y$ tem formato de funil (variância crescente). O que isso indica?
Solve online
Ex. 105.24Application
Para a regressão do Exercício 105.20 ( $\hat Y = 30 + 7{,}6X$ , $n=5$ , $\bar X=30$ , $S_{xx}=1000$ , $\hat\sigma \approx 10{,}95$ ), construa IC 95% para o custo médio de uma filial com $X^*=40$ pedidos. Use $t_{3;\,0{,}025} = 3{,}182$ .
Solve online
Ex. 105.25ChallengeAnswer key
Prove algebricamente que, para regressão linear simples, $R^2 = r^2$ (quadrado do coeficiente de correlação de Pearson).
Ex. 105.26ChallengeAnswer key
Derive as fórmulas de $\hat\beta_0$ e $\hat\beta_1$ por minimização de $SSE = \sum (Y_i - \beta_0 - \beta_1 X_i)^2$ via cálculo diferencial (equações normais).
Solve online
Ex. 105.27Proof
Prove que, para qualquer reta de mínimos quadrados, a soma dos resíduos é zero: $\sum_{i=1}^n e_i = 0$ .
Ex. 105.28Challenge
Dados resumidos: $n=15$ , $\bar X=12$ , $\bar Y=45$ , $S_{xx}=420$ , $S_{xy}=1260$ , $S_{yy}=4800$ . Calcule: reta ajustada, $R^2$ , teste $H_0:\beta_1=0$ ao nível 5%.
Solve online
Ex. 105.29Challenge
Por que reduzir a variabilidade de $X$ (estreitar o intervalo amostrado) prejudica a estimação de $\beta_1$ ? Relacione com a fórmula de $SE(\hat\beta_1)$ .
Solve online
Ex. 105.30Proof
Prove que os estimadores OLS $\hat\beta_0$ e $\hat\beta_1$ são não-viesados, i.e., $E[\hat\beta_j] = \beta_j$ .

Fontes

Statistics — OpenStax — Illowsky, Dean · CC-BY · Capítulos 12 (Linear Regression and Correlation). Fonte primária para exemplos, equações e exercícios desta lição.
OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Capítulo 7 (Introduction to linear regression). Fonte primária para diagnóstico de resíduos, inferência e exercícios com dados reais.
Probabilidade e Estatística — Wikilivros — colaborativo · CC-BY-SA · Seção de regressão linear. Referência em PT-BR com notação compatível com o currículo nacional.