Lição 78 — Correlação e regressão linear simples
Coeficiente de Pearson r, covariância, reta de mínimos quadrados, coeficiente de determinação r². Correlação não é causalidade — o teorema de Anscombe, o quarteto que todo cientista deve conhecer.
Used in: 2.º ano do EM (16-17 anos) · Stochastik LK alemão §12 · H2 Math singapurense §19 · AP Statistics USA §3
O coeficiente de Pearson mede a força e a direção da associação linear entre duas variáveis. Varia de (negativa perfeita) a (positiva perfeita), com indicando ausência de relação linear. Correlação nunca implica causalidade.
Rigorous notation, full derivation, hypotheses
Definições e propriedades rigorosas
Covariância
"The covariance is a measure of the joint variability of two random variables. If the greater values of one variable mainly correspond with the greater values of the other variable, and the same holds for the lesser values, the covariance is positive." — OpenStax Statistics, §12.1
Coeficiente de correlação de Pearson
Quatro diagramas de dispersão com diferentes valores de r. A nuvem de pontos concentra-se mais em torno de uma reta quando |r| é próximo de 1.
Reta de mínimos quadrados (OLS)
Coeficiente de determinação
Hipóteses LINE
Exemplos resolvidos
Exercise list
32 exercises · 8 with worked solution (25%)
- Ex. 78.1ApplicationAnswer key
, . Calcule sem usar calculadora e justifique o resultado.
Show solution
, . Relação linear perfeita positiva: . - Ex. 78.2Application
, . Calcule e identifique o sinal esperado antes de computar.
Show solution
: relação linear perfeita negativa. . - Ex. 78.3Application
, . Calcule e discuta se a relação é linear.
Show solution
, . Médias: , . Calculando: ; ; . . Relação quadrática, mas como só temos 3 pontos crescentes, r é alto — atenção ao Anscombe!Show step-by-step (with the why)
- Calcule e .
- Tabule : ; : .
- Produtos: ; soma = .
- Denominador: .
- — erro de arredondamento nos passos; valor exato: .
- Ex. 78.4ApplicationAnswer key
Se e , qual a relação entre e ? Justifique com a definição.
Show solution
Translação e escala não alteram . Se e : . Correlação é invariante a transformações lineares afins positivas. - Ex. 78.5ApplicationAnswer key
Dados com pares: e . Calcule .
Show solution
Desvios de Y são decrescentes à medida que X cresce — correlação negativa. Calculando numericamente: . - Ex. 78.6ApplicationAnswer key
, . Calcule e a covariância .
Show solution
, . . ; . — erro de arredondamento; valor correto: . - Ex. 78.7Application
, , , , . Encontre a reta de mínimos quadrados.
Show solution
; ; . . . Reta: . - Ex. 78.8Application
Usando a reta do exercício 78.7 (), preveja para e para .
Show solution
Com (exercício 78.7): para : . Para : . - Ex. 78.9Application
Com (exercício 78.7), calcule e interprete em termos de variância explicada.
Show solution
. Interpretação: 72,25% da variabilidade de é explicada pelo modelo linear em . Os restantes 27,75% são devidos a outros fatores ou ruído. - Ex. 78.10Application
Usando a reta de 78.7, calcule o resíduo do ponto .
Show solution
Resíduo: . Para , . Se o ponto real é , resíduo . Resíduo positivo: ponto está acima da reta. - Ex. 78.11Understanding
O que significa ?
Show solution
mede apenas associação linear. Exemplo clássico: com simétrico em torno de zero tem covariância zero e , mas é determinado exatamente por . Sempre plote. - Ex. 78.12Understanding
Vendas de sorvete correlacionam positivamente com mortes por afogamento (). A melhor explicação é:
Show solution
O calor do verão aumenta tanto o consumo de sorvetes quanto a frequência a praias e piscinas (logo mais afogamentos). Há uma causa comum — confundidor. Sem controlar o calor, observamos correlação espúria entre sorvete e afogamento. - Ex. 78.13Application
Com , , , calcule as inclinações das duas retas de regressão: em e em . As retas coincidem?
Show solution
Reta de em : . Reta de em : . As inclinações são recíprocas uma da outra apenas se . Com , , : ; . As duas retas não coincidem. - Ex. 78.14Application
Um modelo de regressão explica 64% da variância de gastos em função da renda. Qual é ?
Show solution
. Portanto . O sinal depende da direção da relação. Se renda maior associa a mais gastos, . Com a informação do contexto (geralmente positivo), . - Ex. 78.15Application
Se , qual a relação entre e ?
Show solution
Translação (subtrair a média) não altera . Mas se : e , logo . Inversão de sinal de uma variável inverte o sinal de . - Ex. 78.16Modeling
Relação altura () vs. peso (): cm, kg, cm, kg, . Equação da reta e previsão para uma pessoa de 175 cm.
Show solution
Altura média: cm; peso médio: kg; , , . kg/cm. . Reta: . Para : kg.Show step-by-step (with the why)
- Calcule .
- Calcule .
- Reta: .
- Previsão: kg.
- Ex. 78.17Modeling
Um pesquisador encontrou entre Índice de Percepção de Corrupção e PIB per capita em 120 países. Interprete e discuta limitações causais.
Show solution
, . O índice de corrupção explica 67% da variância do PIB per capita entre os países. Os outros 33% são outras variáveis (estabilidade política, recursos naturais, capital humano, etc.). Correlação alta, mas não causalidade direta. - Ex. 78.18Modeling
Um gráfico de resíduos vs. valores ajustados mostra um padrão em U (resíduos primeiro negativos, depois positivos). O que isso indica sobre o modelo linear?
Show solution
Resíduos: diferença entre valor real e previsto. Plote resíduos vs. valores ajustados. Se há padrão em U (resíduos crescem depois decrescem), a relação é curvilinear — a reta é má especificação. Mude para modelo quadrático . - Ex. 78.19Application
, . Teste vs. ao nível 5%.
Show solution
. Valor crítico . Como , rejeita-se . - Ex. 78.20Application
, . Construa um IC de 95% para usando a transformação de Fisher.
Show solution
Transformação de Fisher: . Para : . IC 95% para : , ou seja . Transformar de volta: . - Ex. 78.21Modeling
Para cada par, identifique se é correlação causal, espúria, ou de causalidade reversa: (a) chuva e vendas de guarda-chuva; (b) número de policiais e criminalidade por cidade.
Show solution
Vendas de guarda-chuva e chuva: correlação alta e causal. Temperatura e vendas de sorvete: alta e causal. Número de policiais por cidade e criminalidade: aparentemente negativa, mas pode ser correlação espúria (cidades mais violentas contratam mais policiais — causalidade reversa). - Ex. 78.22ApplicationAnswer key
Interprete em um estudo que relaciona anos de estudo com salário.
Show solution
mede a variância explicada pelo modelo. Se , 25% da variância de é explicada por via modelo linear; os outros 75% são de outros fatores. Em ciências sociais, é considerado expressivo. - Ex. 78.23Application
Explique o risco de extrapolar a reta de regressão para valores de fora do intervalo amostral.
Show solution
Extrapolação: usar a reta para prever fora do intervalo dos dados. Exemplo: reta calibrada para cm prevendo peso para cm — pode ser absurda. Pearson foi calibrado para adultos, não para crianças. Sempre especifique o intervalo válido de extrapolação. - Ex. 78.24Modeling
Em finanças, o "beta" de uma ação é o coeficiente de regressão do retorno da ação sobre o retorno do mercado. Expresse beta em termos de , e .
Show solution
CAPM: . O coeficiente é a inclinação da reta de regressão de em : . : ação se move com o mercado; : mais volátil; : menos volátil. É exatamente o coeficiente angular de OLS. - Ex. 78.25Modeling
Uma distribuidora de energia tem dados mensais de temperatura média (°C) e consumo (MWh) nos últimos 5 anos. Descreva o fluxo de análise de correlação e regressão para prever consumo.
Show solution
Calcule entre temperatura média e consumo de energia nos 12 meses. Reta de regressão prevê consumo em função da temperatura. Com alto, o modelo é útil para provisionar capacidade de distribuição. Cuidado: sazonalidade pode criar autocorrelação nos resíduos — violação da hipótese I. - Ex. 78.26Application
Os quatro conjuntos de Anscombe têm e mesma reta de regressão. Por que o modelo linear é adequado para o conjunto I mas não para os outros três?
Show solution
Anscombe I: linear, reta adequada. Anscombe II: curvilinear — modelo linear subestima nas pontas. Anscombe III: reta perfeita exceto 1 outlier; remover o outlier muda radicalmente . Anscombe IV: apenas 1 ponto cria correlação — reta instável. Conclusão: mesmas estatísticas, análises e decisões completamente diferentes. - Ex. 78.27ModelingAnswer key
Por que a correlação de Spearman é mais adequada que Pearson para dados ordinais (ex.: satisfação de 1 a 5) ou com outliers?
Show solution
Correlação de Spearman: aplica Pearson aos **ranks** de e , não aos valores brutos. Robusta a outliers e mede monotonicidade (não apenas linearidade). Adequada para dados ordinais (notas de 1 a 5) ou com outliers extremos. - Ex. 78.28Modeling
Diferencie confundidor, mediador e moderador em um estudo observacional.
Show solution
Confundidor: variável que causa tanto quanto , criando associação espúria. Mediador: — é o mecanismo do efeito. Controlar mediador bloqueia o efeito causal. Moderador (interação): o efeito de em depende de ; modele com . - Ex. 78.29ChallengeAnswer key
pares; ; SQT = 500. Calcule a Soma dos Quadrados dos Resíduos (SQR) e o RMSE.
Show solution
SQT = SQR + SQReg. . . Resíduo médio quadrático (MSE) = com graus de liberdade: MSE = ; RMSE = 3 unidades. - Ex. 78.30Challenge
Por que nunca decresce quando se adiciona uma variável ao modelo, e como ajustado resolve esse problema?
Show solution
Adicionar variáveis aumenta mesmo se irrelevantes. ajustado penaliza cada variável extra: . Com grande e pequeno, pode cair mesmo que suba. AIC e BIC são alternativas baseadas em verossimilhança. - Ex. 78.31Understanding
Qual propriedade define a reta de mínimos quadrados (OLS)?
Show solution
OLS (Ordinary Least Squares) minimiza — desvios **verticais**. Minimizar distâncias perpendiculares é outro método (Total Least Squares / Deming), adequado quando ambos e têm erro de medida. A reta OLS sempre passa por , não pelas medianas. - Ex. 78.32ProofAnswer key
Prove que usando a desigualdade de Cauchy-Schwarz.
Show solution
Por Cauchy-Schwarz: . Com e : . Dividindo por : , logo .
Fontes
- OpenStax Statistics — Illowsky, Dean · 2022 · CC-BY. Fonte primária dos exercícios 78.1–2, 78.5–10, 78.14, 78.16, 78.19–20, 78.22–25, 78.29–31 e exemplos 1–3, 5.
- OpenIntro Statistics (4.ª ed) — Diez, Çetinkaya-Rundel, Barr · 2019 · CC-BY-SA. Fonte dos exercícios 78.3, 78.9, 78.11–12, 78.17–18, 78.21, 78.23, 78.26–28, 78.32 e exemplo 4.
- Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · Dartmouth · GNU FDL. Fonte dos exercícios 78.4, 78.13, 78.15 e prova de |r| ≤ 1.