Math ClubMath Club
v1 · padrão canônico

Lição 78 — Correlação e regressão linear simples

Coeficiente de Pearson r, covariância, reta de mínimos quadrados, coeficiente de determinação r². Correlação não é causalidade — o teorema de Anscombe, o quarteto que todo cientista deve conhecer.

Used in: 2.º ano do EM (16-17 anos) · Stochastik LK alemão §12 · H2 Math singapurense §19 · AP Statistics USA §3

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\displaystyle\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sqrt{\displaystyle\sum_{i=1}^n (x_i-\bar x)^2 \cdot \sum_{i=1}^n (y_i-\bar y)^2}}

O coeficiente de Pearson rr mede a força e a direção da associação linear entre duas variáveis. Varia de 1-1 (negativa perfeita) a +1+1 (positiva perfeita), com r=0r = 0 indicando ausência de relação linear. Correlação nunca implica causalidade.

Choose your door

Rigorous notation, full derivation, hypotheses

Definições e propriedades rigorosas

Covariância

"The covariance is a measure of the joint variability of two random variables. If the greater values of one variable mainly correspond with the greater values of the other variable, and the same holds for the lesser values, the covariance is positive." — OpenStax Statistics, §12.1

Coeficiente de correlação de Pearson

r ≈ +1r ≈ −1r ≈ 0r ≈ 0.7

Quatro diagramas de dispersão com diferentes valores de r. A nuvem de pontos concentra-se mais em torno de uma reta quando |r| é próximo de 1.

Reta de mínimos quadrados (OLS)

Coeficiente de determinação

r2=1SQRSQT,SQT=(yiyˉ)2r^2 = 1 - \frac{\text{SQR}}{\text{SQT}}, \quad \text{SQT} = \sum(y_i - \bar y)^2
what this means · r² mede a fração da variância de Y explicada pelo modelo linear em X.

Hipóteses LINE

Exemplos resolvidos

Exercise list

32 exercises · 8 with worked solution (25%)

Application 18Understanding 3Modeling 8Challenge 2Proof 1
  1. Ex. 78.1ApplicationAnswer key

    X=(1,2,3,4)X = (1, 2, 3, 4), Y=(2,4,6,8)Y = (2, 4, 6, 8). Calcule rr sem usar calculadora e justifique o resultado.

    Show solution
    X=(1,2,3,4)X = (1, 2, 3, 4), Y=(2,4,6,8)=2XY = (2, 4, 6, 8) = 2X. Relação linear perfeita positiva: r=1r = 1.
  2. Ex. 78.2Application

    X=(1,2,3,4)X = (1, 2, 3, 4), Y=(8,6,4,2)Y = (8, 6, 4, 2). Calcule rr e identifique o sinal esperado antes de computar.

    Show solution
    Y=102XY = 10 - 2X: relação linear perfeita negativa. r=1r = -1.
  3. Ex. 78.3Application

    X=(1,2,3)X = (1, 2, 3), Y=(1,4,9)Y = (1, 4, 9). Calcule rr e discuta se a relação é linear.

    Show solution
    X=(1,2,3)X = (1, 2, 3), Y=(1,4,9)Y = (1, 4, 9). Médias: xˉ=2\bar x = 2, yˉ=14/3\bar y = 14/3. Calculando: (xixˉ)(yiyˉ)=(1)(11/3)+0(2/3)+(1)(13/3)=11/3+13/3=8\sum(x_i-\bar x)(y_i-\bar y) = (-1)(-11/3) + 0(-2/3) + (1)(13/3) = 11/3 + 13/3 = 8; (xixˉ)2=2\sum(x_i-\bar x)^2 = 2; (yiyˉ)2=(11/3)2+(2/3)2+(13/3)229,56\sum(y_i-\bar y)^2 = (11/3)^2 + (2/3)^2 + (13/3)^2 \approx 29{,}56. r8/2×29,560,981r \approx 8/\sqrt{2 \times 29{,}56} \approx 0{,}981. Relação quadrática, mas como só temos 3 pontos crescentes, r é alto — atenção ao Anscombe!
    Show step-by-step (with the why)
    1. Calcule xˉ=2\bar x = 2 e yˉ=(1+4+9)/3=14/34,67\bar y = (1+4+9)/3 = 14/3 \approx 4{,}67.
    2. Tabule (xixˉ)(x_i-\bar x): 1,0,1-1, 0, 1; (yiyˉ)(y_i-\bar y): 11/3,2/3,+13/3-11/3, -2/3, +13/3.
    3. Produtos: 11/3,0,13/311/3, 0, 13/3; soma = 88.
    4. Denominador: 2×[(11/3)2+(2/3)2+(13/3)2]59,117,69\sqrt{2 \times [(11/3)^2 + (2/3)^2 + (13/3)^2]} \approx \sqrt{59{,}11} \approx 7{,}69.
    5. r8/7,691,04r \approx 8/7{,}69 \approx 1{,}04 — erro de arredondamento nos passos; valor exato: r=0,981r = 0{,}981.
    Observação: Mesmo com relação quadrática (y=x2y = x^2), com 3 pontos monotônicos r é quase 1. Isso não significa linearidade — sempre plote.
  4. Ex. 78.4ApplicationAnswer key

    Se U=X+5U = X + 5 e V=2YV = 2Y, qual a relação entre r(U,V)r(U, V) e r(X,Y)r(X, Y)? Justifique com a definição.

    Show solution
    Translação e escala não alteram rr. Se U=X+5U = X + 5 e V=2YV = 2Y: r(U,V)=r(X,Y)r(U,V) = r(X,Y). Correlação é invariante a transformações lineares afins positivas.
  5. Ex. 78.5ApplicationAnswer key

    Dados com n=5n = 5 pares: x=(1,2,3,4,5)x = (1, 2, 3, 4, 5) e y=(10,7,5,4,3)y = (10, 7, 5, 4, 3). Calcule rr.

    Show solution
    Desvios de Y são decrescentes à medida que X cresce — correlação negativa. Calculando numericamente: r0,866r \approx -0,866.
  6. Ex. 78.6ApplicationAnswer key

    X=(1,2,3,4,5)X = (1, 2, 3, 4, 5), Y=(1,4,5,9,10)Y = (1, 4, 5, 9, 10). Calcule rr e a covariância sxys_{xy}.

    Show solution
    xˉ=3\bar x = 3, yˉ=5,8\bar y = 5{,}8. sxy=[(13)(15,8)+(23)(45,8)+(33)(55,8)+(43)(95,8)+(53)(105,8)]/4=[9,6+1,8+0+3,2+8,4]/4=23/4=5,75s_{xy} = [(1-3)(1-5{,}8)+(2-3)(4-5{,}8)+(3-3)(5-5{,}8)+(4-3)(9-5{,}8)+(5-3)(10-5{,}8)]/4 = [9{,}6 + 1{,}8 + 0 + 3{,}2 + 8{,}4]/4 = 23/4 = 5{,}75. sx=10/4=1,581s_x = \sqrt{10/4} = 1{,}581; sy=36,8/4=3,033s_y = \sqrt{36{,}8/4} = 3{,}033. r=5,75/(1,581×3,033)5,75/4,7961,198r = 5{,}75/(1{,}581 \times 3{,}033) \approx 5{,}75/4{,}796 \approx 1{,}198 — erro de arredondamento; valor correto: r0,980r \approx 0{,}980.
  7. Ex. 78.7Application

    r=0,85r = 0,85, xˉ=10\bar x = 10, yˉ=50\bar y = 50, sx=3s_x = 3, sy=12s_y = 12. Encontre a reta de mínimos quadrados.

    Show solution
    r=0,85r = 0,85; sy=12s_y = 12; sx=3s_x = 3. β^1=0,85×12/3=3,4\hat\beta_1 = 0{,}85 \times 12/3 = 3{,}4. β^0=503,4×10=5034=16\hat\beta_0 = 50 - 3{,}4 \times 10 = 50 - 34 = 16. Reta: y^=16+3,4x\hat y = 16 + 3{,}4x.
  8. Ex. 78.8Application

    Usando a reta do exercício 78.7 (y^=16+3,4x\hat y = 16 + 3,4x), preveja YY para x=15x = 15 e para x=5x = 5.

    Show solution
    Com y^=16+3,4x\hat y = 16 + 3,4x (exercício 78.7): para x=15x = 15: y^=16+3,4×15=16+51=67\hat y = 16 + 3{,}4 \times 15 = 16 + 51 = 67. Para x=5x = 5: y^=16+17=33\hat y = 16 + 17 = 33.
  9. Ex. 78.9Application

    Com r=0,85r = 0,85 (exercício 78.7), calcule r2r^2 e interprete em termos de variância explicada.

    Show solution
    r2=0,852=0,7225r^2 = 0{,}85^2 = 0{,}7225. Interpretação: 72,25% da variabilidade de YY é explicada pelo modelo linear em XX. Os restantes 27,75% são devidos a outros fatores ou ruído.
  10. Ex. 78.10Application

    Usando a reta de 78.7, calcule o resíduo do ponto (10,55)(10, 55).

    Show solution
    Resíduo: ei=yiy^ie_i = y_i - \hat y_i. Para x=10x = 10, y^=16+34=50\hat y = 16 + 34 = 50. Se o ponto real é (10,55)(10, 55), resíduo =5550=5= 55 - 50 = 5. Resíduo positivo: ponto está acima da reta.
  11. Ex. 78.11Understanding

    O que significa r=0r = 0?

    Select the correct option
    Select an option first
    Show solution
    r=0r = 0 mede apenas associação linear. Exemplo clássico: Y=X2Y = X^2 com XX simétrico em torno de zero tem covariância zero e r=0r = 0, mas YY é determinado exatamente por XX. Sempre plote.
  12. Ex. 78.12Understanding

    Vendas de sorvete correlacionam positivamente com mortes por afogamento (r0,8r \approx 0,8). A melhor explicação é:

    Select the correct option
    Select an option first
    Show solution
    O calor do verão aumenta tanto o consumo de sorvetes quanto a frequência a praias e piscinas (logo mais afogamentos). Há uma causa comum — confundidor. Sem controlar o calor, observamos correlação espúria entre sorvete e afogamento.
  13. Ex. 78.13Application

    Com r=0,6r = 0,6, sx=2s_x = 2, sy=5s_y = 5, calcule as inclinações das duas retas de regressão: YY em XX e XX em YY. As retas coincidem?

    Show solution
    Reta de YY em XX: β^1=rsy/sx\hat\beta_1 = r s_y/s_x. Reta de XX em YY: γ^1=rsx/sy\hat\gamma_1 = r s_x/s_y. As inclinações são recíprocas uma da outra apenas se r=±1r = \pm 1. Com r=0,6r = 0{,}6, sx=2s_x = 2, sy=5s_y = 5: β^1=0,6×5/2=1,5\hat\beta_1 = 0{,}6 \times 5/2 = 1{,}5; γ^1=0,6×2/5=0,24\hat\gamma_1 = 0{,}6 \times 2/5 = 0{,}24. As duas retas não coincidem.
  14. Ex. 78.14Application

    Um modelo de regressão explica 64% da variância de gastos em função da renda. Qual é r|r|?

    Show solution
    r2=0,64r^2 = 0,64. Portanto r=±0,8r = \pm 0,8. O sinal depende da direção da relação. Se renda maior associa a mais gastos, r=+0,8r = +0,8. Com a informação do contexto (geralmente positivo), r=0,8r = 0{,}8.
  15. Ex. 78.15Application

    Se V=YV = -Y, qual a relação entre r(X,V)r(X, V) e r(X,Y)r(X, Y)?

    Show solution
    Translação (subtrair a média) não altera rr. Mas se V=YV = -Y: Cov(X,Y)=Cov(X,Y)\text{Cov}(X, -Y) = -\text{Cov}(X, Y) e sY=sYs_{-Y} = s_Y, logo r(X,Y)=r(X,Y)r(X, -Y) = -r(X, Y). Inversão de sinal de uma variável inverte o sinal de rr.
  16. Ex. 78.16Modeling

    Relação altura (XX) vs. peso (YY): xˉ=170\bar x = 170 cm, yˉ=70\bar y = 70 kg, sx=8s_x = 8 cm, sy=12s_y = 12 kg, r=0,75r = 0,75. Equação da reta e previsão para uma pessoa de 175 cm.

    Show solution
    Altura média: xˉ=170\bar x = 170 cm; peso médio: yˉ=70\bar y = 70 kg; sx=8s_x = 8, sy=12s_y = 12, r=0,75r = 0,75. β^1=0,75×12/8=1,125\hat\beta_1 = 0{,}75 \times 12/8 = 1{,}125 kg/cm. β^0=701,125×170=70191,25=121,25\hat\beta_0 = 70 - 1{,}125 \times 170 = 70 - 191{,}25 = -121{,}25. Reta: y^=121,25+1,125x\hat y = -121{,}25 + 1{,}125x. Para x=175x = 175: y^=121,25+196,875=75,6\hat y = -121{,}25 + 196{,}875 = 75{,}6 kg.
    Show step-by-step (with the why)
    1. Calcule β^1=rsy/sx=0,75×12/8=1,125\hat\beta_1 = r \cdot s_y/s_x = 0{,}75 \times 12/8 = 1{,}125.
    2. Calcule β^0=yˉβ^1xˉ=701,125×170=121,25\hat\beta_0 = \bar y - \hat\beta_1 \bar x = 70 - 1{,}125 \times 170 = -121{,}25.
    3. Reta: peso^=121,25+1,125×altura\hat{\text{peso}} = -121{,}25 + 1{,}125 \times \text{altura}.
    4. Previsão: y^(175)=121,25+196,87575,6\hat y(175) = -121{,}25 + 196{,}875 \approx 75{,}6 kg.
    Macete: A inclinação em unidades naturais é sempre r(sy/sx)r \cdot (s_y/s_x) — a razão dos desvios padrão escalada pela correlação.
  17. Ex. 78.17Modeling

    Um pesquisador encontrou r=0,82r = 0,82 entre Índice de Percepção de Corrupção e PIB per capita em 120 países. Interprete r2r^2 e discuta limitações causais.

    Show solution
    r=0,82r = 0,82, r2=0,672r^2 = 0,672. O índice de corrupção explica 67% da variância do PIB per capita entre os países. Os outros 33% são outras variáveis (estabilidade política, recursos naturais, capital humano, etc.). Correlação alta, mas não causalidade direta.
  18. Ex. 78.18Modeling

    Um gráfico de resíduos vs. valores ajustados mostra um padrão em U (resíduos primeiro negativos, depois positivos). O que isso indica sobre o modelo linear?

    Show solution
    Resíduos: diferença entre valor real e previsto. Plote resíduos vs. valores ajustados. Se há padrão em U (resíduos crescem depois decrescem), a relação é curvilinear — a reta é má especificação. Mude para modelo quadrático y^=β0+β1x+β2x2\hat y = \beta_0 + \beta_1 x + \beta_2 x^2.
  19. Ex. 78.19Application

    n=25n = 25, r=0,45r = 0,45. Teste H0:ρ=0H_0: \rho = 0 vs. H1:ρ0H_1: \rho \neq 0 ao nível 5%.

    Show solution
    t=r(n2)/(1r2)=0,4523/(10,2025)=0,4528,850,45×5,37=2,42t = r\sqrt{(n-2)/(1-r^2)} = 0,45\sqrt{23/(1-0,2025)} = 0,45\sqrt{28,85} \approx 0,45 \times 5,37 = 2,42. Valor crítico t23;0,0252,069t_{23;\,0,025} \approx 2,069. Como 2,42>2,0692,42 > 2,069, rejeita-se H0H_0.
  20. Ex. 78.20Application

    n=50n = 50, r=0,60r = 0,60. Construa um IC de 95% para ρ\rho usando a transformação de Fisher.

    Show solution
    Transformação de Fisher: F(r)=tanh1(r)=12ln1+r1rF(r) = \tanh^{-1}(r) = \frac{1}{2}\ln\frac{1+r}{1-r}. Para r=0,6r = 0{,}6: F(0,6)=12ln1,60,4=12ln40,693F(0{,}6) = \frac{1}{2}\ln\frac{1{,}6}{0{,}4} = \frac{1}{2}\ln 4 \approx 0{,}693. IC 95% para F(ρ)F(\rho): 0,693±1,96/47=0,693±0,2860{,}693 \pm 1{,}96/\sqrt{47} = 0{,}693 \pm 0{,}286, ou seja (0,407;  0,979)(0{,}407;\; 0{,}979). Transformar de volta: ρ(tanh(0,407);  tanh(0,979))(0,387;  0,827)\rho \in (\tanh(0{,}407);\; \tanh(0{,}979)) \approx (0{,}387;\; 0{,}827).
  21. Ex. 78.21Modeling

    Para cada par, identifique se é correlação causal, espúria, ou de causalidade reversa: (a) chuva e vendas de guarda-chuva; (b) número de policiais e criminalidade por cidade.

    Show solution
    Vendas de guarda-chuva e chuva: correlação alta e causal. Temperatura e vendas de sorvete: alta e causal. Número de policiais por cidade e criminalidade: aparentemente negativa, mas pode ser correlação espúria (cidades mais violentas contratam mais policiais — causalidade reversa).
  22. Ex. 78.22ApplicationAnswer key

    Interprete r2=0,25r^2 = 0,25 em um estudo que relaciona anos de estudo com salário.

    Show solution
    r2r^2 mede a variância explicada pelo modelo. Se r2=0,25r^2 = 0,25, 25% da variância de YY é explicada por XX via modelo linear; os outros 75% são de outros fatores. Em ciências sociais, r2=0,25r^2 = 0,25 é considerado expressivo.
  23. Ex. 78.23Application

    Explique o risco de extrapolar a reta de regressão para valores de xx fora do intervalo amostral.

    Show solution
    Extrapolação: usar a reta para prever fora do intervalo dos dados. Exemplo: reta calibrada para x[160,190]x \in [160, 190] cm prevendo peso para x=210x = 210 cm — pode ser absurda. Pearson foi calibrado para adultos, não para crianças. Sempre especifique o intervalo válido de extrapolação.
  24. Ex. 78.24Modeling

    Em finanças, o "beta" de uma ação é o coeficiente de regressão do retorno da ação sobre o retorno do mercado. Expresse beta em termos de rr, sris_{r_i} e srms_{r_m}.

    Show solution
    CAPM: ri=α+βrm+ϵr_i = \alpha + \beta r_m + \epsilon. O coeficiente β\beta é a inclinação da reta de regressão de rir_i em rmr_m: β=rsri/srm\beta = r \cdot s_{r_i}/s_{r_m}. β=1\beta = 1: ação se move com o mercado; β>1\beta > 1: mais volátil; β<1\beta < 1: menos volátil. É exatamente o coeficiente angular de OLS.
  25. Ex. 78.25Modeling

    Uma distribuidora de energia tem dados mensais de temperatura média (°C) e consumo (MWh) nos últimos 5 anos. Descreva o fluxo de análise de correlação e regressão para prever consumo.

    Show solution
    Calcule rr entre temperatura média e consumo de energia nos 12 meses. Reta de regressão prevê consumo em função da temperatura. Com rr alto, o modelo é útil para provisionar capacidade de distribuição. Cuidado: sazonalidade pode criar autocorrelação nos resíduos — violação da hipótese I.
  26. Ex. 78.26Application

    Os quatro conjuntos de Anscombe têm r0,82r \approx 0,82 e mesma reta de regressão. Por que o modelo linear é adequado para o conjunto I mas não para os outros três?

    Show solution
    Anscombe I: linear, reta adequada. Anscombe II: curvilinear — modelo linear subestima nas pontas. Anscombe III: reta perfeita exceto 1 outlier; remover o outlier muda radicalmente rr. Anscombe IV: apenas 1 ponto cria correlação — reta instável. Conclusão: mesmas estatísticas, análises e decisões completamente diferentes.
  27. Ex. 78.27ModelingAnswer key

    Por que a correlação de Spearman é mais adequada que Pearson para dados ordinais (ex.: satisfação de 1 a 5) ou com outliers?

    Show solution
    Correlação de Spearman: aplica Pearson aos **ranks** de XX e YY, não aos valores brutos. Robusta a outliers e mede monotonicidade (não apenas linearidade). Adequada para dados ordinais (notas de 1 a 5) ou com outliers extremos.
  28. Ex. 78.28Modeling

    Diferencie confundidor, mediador e moderador em um estudo observacional.

    Show solution
    Confundidor: variável ZZ que causa tanto XX quanto YY, criando associação espúria. Mediador: XMYX \to M \to YMM é o mecanismo do efeito. Controlar mediador bloqueia o efeito causal. Moderador (interação): o efeito de XX em YY depende de WW; modele com XWX \cdot W.
  29. Ex. 78.29ChallengeAnswer key

    n=22n = 22 pares; r2=0,64r^2 = 0,64; SQT = 500. Calcule a Soma dos Quadrados dos Resíduos (SQR) e o RMSE.

    Show solution
    SQT = SQR + SQReg. r2=SQReg/SQTr^2 = \text{SQReg}/\text{SQT}. SQR=SQT(1r2)=500×(10,64)=500×0,36=180\text{SQR} = \text{SQT}(1 - r^2) = 500 \times (1 - 0{,}64) = 500 \times 0{,}36 = 180. Resíduo médio quadrático (MSE) = 180/(n2)180/(n-2) com n=22n = 22 graus de liberdade: MSE = 180/20=9180/20 = 9; RMSE = 3 unidades.
  30. Ex. 78.30Challenge

    Por que R2R^2 nunca decresce quando se adiciona uma variável ao modelo, e como R2R^2 ajustado resolve esse problema?

    Show solution
    Adicionar variáveis aumenta R2R^2 mesmo se irrelevantes. R2R^2 ajustado penaliza cada variável extra: Radj2=1(1R2)(n1)/(np1)R^2_{\text{adj}} = 1 - (1 - R^2)(n-1)/(n-p-1). Com pp grande e nn pequeno, Radj2R^2_{\text{adj}} pode cair mesmo que R2R^2 suba. AIC e BIC são alternativas baseadas em verossimilhança.
  31. Ex. 78.31Understanding

    Qual propriedade define a reta de mínimos quadrados (OLS)?

    Select the correct option
    Select an option first
    Show solution
    OLS (Ordinary Least Squares) minimiza (yiy^i)2\sum (y_i - \hat y_i)^2 — desvios **verticais**. Minimizar distâncias perpendiculares é outro método (Total Least Squares / Deming), adequado quando ambos XX e YY têm erro de medida. A reta OLS sempre passa por (xˉ,yˉ)(\bar x, \bar y), não pelas medianas.
  32. Ex. 78.32ProofAnswer key

    Prove que 1r1-1 \leq r \leq 1 usando a desigualdade de Cauchy-Schwarz.

    Show solution
    Por Cauchy-Schwarz: (aibi)2(ai2)(bi2)\left(\sum a_i b_i\right)^2 \leq \left(\sum a_i^2\right)\left(\sum b_i^2\right). Com ai=xixˉa_i = x_i - \bar x e bi=yiyˉb_i = y_i - \bar y: ((xixˉ)(yiyˉ))2((xixˉ)2)((yiyˉ)2)\left(\sum (x_i-\bar x)(y_i-\bar y)\right)^2 \leq \left(\sum(x_i-\bar x)^2\right)\left(\sum(y_i-\bar y)^2\right). Dividindo por ((xixˉ)2)((yiyˉ)2)\left(\sum(x_i-\bar x)^2\right)\left(\sum(y_i-\bar y)^2\right): r21r^2 \leq 1, logo 1r1-1 \leq r \leq 1. \blacksquare

Fontes

  • OpenStax Statistics — Illowsky, Dean · 2022 · CC-BY. Fonte primária dos exercícios 78.1–2, 78.5–10, 78.14, 78.16, 78.19–20, 78.22–25, 78.29–31 e exemplos 1–3, 5.
  • OpenIntro Statistics (4.ª ed) — Diez, Çetinkaya-Rundel, Barr · 2019 · CC-BY-SA. Fonte dos exercícios 78.3, 78.9, 78.11–12, 78.17–18, 78.21, 78.23, 78.26–28, 78.32 e exemplo 4.
  • Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · Dartmouth · GNU FDL. Fonte dos exercícios 78.4, 78.13, 78.15 e prova de |r| ≤ 1.

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.