Lição 105 — Regressão linear simples
Modelo OLS, estimadores de mínimos quadrados, R², resíduos, inferência sobre a inclinação. Fundamento do aprendizado supervisionado e da econometria.
Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§14) · Math B japonês
A reta de mínimos quadrados passa pelo centroide e tem inclinação igual à covariância amostral dividida pela variância de . O intercepto é determinado a partir daí.
Rigorous notation, full derivation, hypotheses
Definição rigorosa
Modelo de regressão linear simples
"The regression equation is written as , where is the slope and is the -intercept." — OpenStax Statistics, §12.3
Decomposição da variância e R²
"The coefficient of determination is the square of the correlation coefficient . It tells you the fraction of total variability in the response that is explained by the least-squares line." — OpenIntro Statistics, §7.2, p. 331
Inferência sobre a inclinação
Reta de mínimos quadrados (dourada) minimizando a soma dos quadrados dos resíduos (laranjas). Cada resíduo e é a distância vertical do ponto à reta.
Exemplos resolvidos
Exercise list
30 exercises · 7 with worked solution (25%)
- Ex. 105.1Application
Dados: , , , , . Calcule e .
Show solution
Com pares, , , , . ; . Reta: . - Ex. 105.2Application
Pares : , , , , . Calcule a reta de mínimos quadrados.
Show solution
. A reta passa pelo centroide .Show step-by-step (with the why)
- Calcule as médias: e .
- Calcule .
- Calcule .
- ; .
- Macete: sempre verifique que a reta passa por : . Correto.
- Ex. 105.3Application
Usando (exercício anterior), preveja para e . Identifique qual previsão é extrapolação.
Show solution
. Para : . Obs.: está fora do intervalo dos dados originais (extrapolação). - Ex. 105.4Application
Para os dados do Exercício 105.1: , , , , . Calcule e interprete.
Show solution
; ; . ; . . Precisa calcular com os dados completos. - Ex. 105.5ApplicationAnswer key
O coeficiente de correlação de Pearson entre duas variáveis é . Qual é o da regressão simples de em ?
Show solution
. Aproximadamente 75,7% da variabilidade em é explicada pela regressão em . - Ex. 105.6ApplicationAnswer key
Regressão de salário anual (em mil R$) em anos de experiência produziu . Interprete e .
Show solution
indica que, em média, cada ano adicional de experiência está associado a um aumento de R\$ 2.500 no salário anual. é o salário previsto (em mil R\$) para zero anos de experiência — interpretação prática somente dentro do intervalo dos dados. - Ex. 105.7Application
Usando , um funcionário com 14 anos de experiência ganha R$ 72 mil/ano. Calcule o resíduo.
Show solution
mil R\. O funcionário ganha R\ 4.600 a mais do que o previsto pelo modelo para 14 anos de experiência. - Ex. 105.8ApplicationAnswer key
Cinco valores observados de : com . O SSE da regressão é 3,2. Calcule SST, SSR e .
Show solution
. Com e dados : . Se , então e . - Ex. 105.9Application
Uma regressão com produziu . Calcule e e interprete.
Show solution
. . Desvio padrão residual: um ponto típico está a cerca de 1,64 unidades da reta ajustada. - Ex. 105.10Application
, , . Calcule e a estatística .
Show solution
. . Com graus de liberdade, esse valor é altamente significativo. - Ex. 105.11Application
, , . Construa IC 95% para e interprete.
Show solution
IC 95%: . IC: . Como o IC não inclui 0, a inclinação é significativa ao nível de 5%. - Ex. 105.12Application
, , . Qual o sinal de ? Calcule usando a relação .
Show solution
Correlação e inclinação têm o mesmo sinal: . , onde e são os desvios padrão amostrais. Com , , : . - Ex. 105.13UnderstandingAnswer key
Qual das afirmações sobre a reta de mínimos quadrados é CORRETA?
Show solution
A reta de mínimos quadrados sempre passa pelo centroide — isso é consequência direta da equação . A soma dos resíduos é sempre zero (não positiva). R² pode ser calculado para qualquer . - Ex. 105.14Understanding
Qual é a interpretação correta de em regressão linear simples?
Show solution
significa que o modelo não explica nenhuma variabilidade de ; equivale a . Não implica que o modelo seja totalmente inútil (pode haver relação não-linear). A afirmação correta é que correlação linear é zero. - Ex. 105.15Understanding
Uma regressão produziu e . O que se pode concluir?
Show solution
Regressão mede associação, não causalidade. é forte evidência de associação linear positiva (se ), mas causalidade exige desenho experimental ou raciocínio causal adicional. - Ex. 105.16Modeling
Um imobiliário de Curitiba coletou dados de 10 apartamentos: área (, em m²) e custo de aluguel (, em R$/mês). , , , . Ajuste a reta e preveja o aluguel para um apartamento de 95 m².
Show solution
Reta: . Previsão para 95 m²: R\ 1.900/mês. Cada metro quadrado adicional custa, em média, R\ 20 a mais.Show step-by-step (with the why)
- Identifique variável resposta (custo mensal) e preditora (área em m²).
- Com os dados: , , , .
- (R\$ por m²). .
- Reta: . Para : reais.
- Observação: intercepto zero indica custo proporcional à área — plausível se não há taxa fixa.
- Ex. 105.17Modeling
Crianças de 10 a 25 anos: anos, kg, , , . Ajuste a reta usando e preveja o peso de uma criança de 30 anos.
Show solution
. . Reta: . Para : kg. Atenção: 30 anos é extrapolação se os dados vão até 25 anos. - Ex. 105.18ModelingAnswer key
Regressão com , , . Monte a tabela ANOVA (SSR, SSE, MSR, MSE, F) e teste ao nível 5%.
Show solution
Tabela ANOVA: ; ; ; ; . Valor crítico : rejeita . - Ex. 105.19Modeling
Uma regressão de consumo de água (litros/dia) em temperatura (°C) produziu com para pontos. O ponto aparece muito longe dos demais. Que procedimento usar para avaliar sua influência?
Show solution
O ponto está muito distante da reta — pode ser outlier influente. Para verificar: calcular distância de Cook ou leverage . Se , o ponto exerce influência excessiva e deve ser investigado (dado incorreto? caso especial?). Não se remove automaticamente — precisa de justificativa substantiva. - Ex. 105.20Modeling
Uma transportadora registrou número de pedidos e custo logístico mensal (em R$ mil) para 5 filiais: , , , , . Ajuste a reta.
Show solution
Reta: . Cada pedido adicional eleva o custo logístico em R\$ 7,60 em média.Show step-by-step (with the why)
- Primeiro, confirme que o gráfico de dispersão mostra relação linear antes de ajustar qualquer reta.
- Calcule médias: ; .
- .
- .
- ; . Reta: .
- Curiosidade: o intercepto de 30 representa o custo fixo mensal estimado (R\$ 30) independente do número de pedidos.
- Ex. 105.21Application
Usando , calcule a previsão e o resíduo para uma filial com pedidos e custo observado de R$ 310 mil.
Show solution
mil R\$. Resíduo: mil R\. A filial gastou R\ 14 mil a mais do que o previsto para 35 pedidos. - Ex. 105.22Application
Para a regressão do Exercício 105.20, calcule os 5 resíduos, o SSE e o desvio padrão residual .
Show solution
Para os dados do Exercício 105.20: calcular para cada e os resíduos . . Com e : . Se , então e mil R\$. - Ex. 105.23Understanding
O gráfico de resíduos vs. tem formato de funil (variância crescente). O que isso indica?
Show solution
Padrão em funil no gráfico de resíduos vs. indica homocedasticidade violada: a variância dos resíduos aumenta com o nível ajustado. Soluções: transformar (ex.: ) ou usar erros padrão robustos (HC). - Ex. 105.24Application
Para a regressão do Exercício 105.20 (, , , , ), construa IC 95% para o custo médio de uma filial com pedidos. Use .
Show solution
IC 95% para : . Com , , , , : . IC: . - Ex. 105.25ChallengeAnswer key
Prove algebricamente que, para regressão linear simples, (quadrado do coeficiente de correlação de Pearson).
Show solution
. A identidade vale apenas para regressão simples.Show step-by-step (with the why)
- Lembre que e .
- Para regressão simples: .
- .
- Mas pela definição de .
- Portanto . Macete: isso vale apenas para regressão simples — em regressão múltipla, não é o quadrado de um único coeficiente de correlação.
- Ex. 105.26ChallengeAnswer key
Derive as fórmulas de e por minimização de via cálculo diferencial (equações normais).
Show solution
Minimizar . Derivar em relação a e e igualar a zero (equações normais): implica . Substituindo na segunda equação normal: . - Ex. 105.27Proof
Prove que, para qualquer reta de mínimos quadrados, a soma dos resíduos é zero: .
Show solution
Devemos mostrar que . . Da equação normal: , portanto . Analogamente, segue da segunda equação normal. - Ex. 105.28Challenge
Dados resumidos: , , , , , . Calcule: reta ajustada, , teste ao nível 5%.
Show solution
Com , , : ; . ; ; . — precisamos de . Se : ; ; com 13 df — altamente significativo. - Ex. 105.29Challenge
Por que reduzir a variabilidade de (estreitar o intervalo amostrado) prejudica a estimação de ? Relacione com a fórmula de .
Show solution
Reduzir desvio padrão de (i.e., estreitar o intervalo de ) aumenta pois diminui. Para estimar com precisão, deve-se maximizar — isso é feito cobrindo a maior amplitude possível dos valores de no experimento (planejamento de experimentos — design of experiments). - Ex. 105.30Proof
Prove que os estimadores OLS e são não-viesados, i.e., .
Show solution
Não-viés de : escreva com . Sob o modelo: . Como e , segue . Analogamente para .
Fontes
- Statistics — OpenStax — Illowsky, Dean · CC-BY · Capítulos 12 (Linear Regression and Correlation). Fonte primária para exemplos, equações e exercícios desta lição.
- OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Capítulo 7 (Introduction to linear regression). Fonte primária para diagnóstico de resíduos, inferência e exercícios com dados reais.
- Probabilidade e Estatística — Wikilivros — colaborativo · CC-BY-SA · Seção de regressão linear. Referência em PT-BR com notação compatível com o currículo nacional.