v1 · padrão canônico

Lição 78 — Correlação e regressão linear simples

Coeficiente de Pearson r, covariância, reta de mínimos quadrados, coeficiente de determinação r². Correlação não é causalidade — o teorema de Anscombe, o quarteto que todo cientista deve conhecer.

Used in: 2.º ano do EM (16-17 anos) · Stochastik LK alemão §12 · H2 Math singapurense §19 · AP Statistics USA §3

r = \frac{\displaystyle\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sqrt{\displaystyle\sum_{i=1}^n (x_i-\bar x)^2 \cdot \sum_{i=1}^n (y_i-\bar y)^2}}

O coeficiente de Pearson $r$ mede a força e a direção da associação linear entre duas variáveis. Varia de $-1$ (negativa perfeita) a $+1$ (positiva perfeita), com $r = 0$ indicando ausência de relação linear. Correlação nunca implica causalidade.

Choose your door

Rigorous notation, full derivation, hypotheses

Definições e propriedades rigorosas

Covariância

"The covariance is a measure of the joint variability of two random variables. If the greater values of one variable mainly correspond with the greater values of the other variable, and the same holds for the lesser values, the covariance is positive." — OpenStax Statistics, §12.1

Coeficiente de correlação de Pearson

Quatro diagramas de dispersão com diferentes valores de r. A nuvem de pontos concentra-se mais em torno de uma reta quando |r| é próximo de 1.

Reta de mínimos quadrados (OLS)

Coeficiente de determinação

r^2 = 1 - \frac{\text{SQR}}{\text{SQT}}, \quad \text{SQT} = \sum(y_i - \bar y)^2

what this means · r² mede a fração da variância de Y explicada pelo modelo linear em X.

Hipóteses LINE

Exemplos resolvidos

Example— 1· Cálculo manual de r com 5 pontos

Problema. Dados: $x = (2, 4, 5, 7, 8)$ e $y = (3, 6, 5, 9, 11)$ . Calcule o coeficiente de Pearson $r$ .

Estratégia. Calcular médias, desvios e aplicar a fórmula diretamente.

Resolução.

$\bar x = (2+4+5+7+8)/5 = 26/5 = 5{,}2$ ; $\bar y = (3+6+5+9+11)/5 = 34/5 = 6{,}8$ .

$x_i$	$y_i$	$x_i - \bar x$	$y_i - \bar y$	prod	$(x_i-\bar x)^2$	$(y_i-\bar y)^2$
2	3	-3,2	-3,8	12,16	10,24	14,44
4	6	-1,2	-0,8	0,96	1,44	0,64
5	5	-0,2	-1,8	0,36	0,04	3,24
7	9	1,8	2,2	3,96	3,24	4,84
8	11	2,8	4,2	11,76	7,84	17,64
Σ				29,20	22,80	40,80

$r = 29{,}20 / \sqrt{22{,}80 \times 40{,}80} = 29{,}20 / \sqrt{930{,}24} = 29{,}20 / 30{,}50 \approx 0{,}957$ .

Verificação. $r$ próximo de 1 é compatível com a nuvem crescente dos dados.

Fonte. OpenStax Statistics, §12.1, Example 12.2 — CC-BY

Example— 2· Reta de mínimos quadrados e previsão

Problema. Usando os dados do Exemplo 1, determine a reta de regressão de $Y$ em $X$ e preveja $Y$ para $x = 6$ .

Estratégia. Calcular $\hat\beta_1$ e $\hat\beta_0$ com as fórmulas de OLS.

Resolução.

$s_{xy} = 29{,}20/(5-1) = 7{,}30$ ; $s_x^2 = 22{,}80/(5-1) = 5{,}70$ .

$\hat\beta_1 = s_{xy}/s_x^2 = 7{,}30/5{,}70 \approx 1{,}281$ .

$\hat\beta_0 = \bar y - \hat\beta_1 \bar x = 6{,}8 - 1{,}281 \times 5{,}2 \approx 6{,}8 - 6{,}66 = 0{,}14$ .

Reta: $\hat y = 0{,}14 + 1{,}28x$ .

Para $x = 6$ : $\hat y = 0{,}14 + 1{,}28 \times 6 = 7{,}82$ .

Verificação. $r = 0{,}957$ ; $\hat\beta_1 = r \cdot s_y/s_x = 0{,}957 \times \sqrt{40{,}80/4}/\sqrt{22{,}80/4} = 0{,}957 \times 3{,}19/2{,}39 \approx 1{,}28$ . Consistente.

Fonte. OpenStax Statistics, §12.3, Example 12.4 — CC-BY

Example— 3· Coeficiente de determinação e interpretacao

Problema. Em um estudo com 20 estudantes, a correlação entre horas de estudo ( $X$ ) e nota no vestibular ( $Y$ ) foi $r = 0{,}72$ . Interprete $r^2$ e estime a equação da reta sabendo que $\bar x = 8$ h/semana, $\bar y = 620$ pontos, $s_x = 3$ h, $s_y = 80$ pontos.

Estratégia. Calcular $r^2$ e usar as fórmulas de $\hat\beta_1$ e $\hat\beta_0$ .

Resolução.

$r^2 = 0{,}72^2 = 0{,}518$ — horas de estudo explicam 51,8% da variância na nota. Os outros 48,2% são outros fatores (qualidade do ensino, motivação, sono, etc.).

$\hat\beta_1 = r \cdot s_y/s_x = 0{,}72 \times 80/3 = 19{,}2$ pontos/hora.

$\hat\beta_0 = 620 - 19{,}2 \times 8 = 620 - 153{,}6 = 466{,}4$ .

Reta: $\hat y = 466{,}4 + 19{,}2x$ . Cada hora extra de estudo por semana associa-se a +19 pontos no vestibular, em média.

Verificação. Extrapolação para $x = 0$ : $\hat y = 466$ pontos — plausível como nota basal sem estudo.

Fonte. OpenIntro Statistics, §7.1, Exercise 7.3, p. 343 — CC-BY-SA

Example— 4· Correlacao nao e causalidade — variavel confundidora

Problema. Um pesquisador encontrou $r = 0{,}78$ entre número de igrejas e número de crimes num conjunto de 50 cidades dos EUA. Interprete corretamente.

Estratégia. Identificar o confundidor e explicar por que correlação não implica causalidade.

Resolução.

O confundidor óbvio é o tamanho da cidade (população). Cidades maiores têm mais igrejas E mais crimes. Controlando por tamanho da cidade, a correlação entre igrejas e crimes pode cair a zero ou até se inverter.

Formalmente: seja $P$ = população. $P \to C$ (igrejas) e $P \to K$ (crimes). Sem controlar $P$ , a correlação marginal $r(C, K) > 0$ mesmo sem relação direta entre $C$ e $K$ .

Verificação. Se fossemos estratificar por tamanho (cidades pequenas, médias, grandes), esperaríamos $r$ próximo de zero dentro de cada estrato — isso é o paradoxo de Simpson aplicado.

Fonte. OpenIntro Statistics, §7.2, p. 356–358 — CC-BY-SA

Example— 5· Teste de hipotese para correlacao — Fisher z

Problema. Em amostra de $n = 28$ pares, obteve-se $r = 0{,}45$ . Teste $H_0: \rho = 0$ vs. $H_1: \rho \neq 0$ ao nível $\alpha = 0{,}05$ .

Estratégia. Usar estatística $t$ com $n-2$ graus de liberdade.

Resolução.

$t = r\sqrt{(n-2)/(1-r^2)} = 0{,}45 \times \sqrt{26/(1-0{,}2025)} = 0{,}45 \times \sqrt{26/0{,}7975} = 0{,}45 \times \sqrt{32{,}6} \approx 0{,}45 \times 5{,}71 \approx 2{,}57$ .

Valor crítico $t_{26;\, 0{,}025} \approx 2{,}056$ . Como $|t| = 2{,}57 > 2{,}056$ , rejeitamos $H_0$ — evidência significativa de correlação positiva na população.

Verificação. Com $n = 28$ e $r = 0{,}45$ , o $p$ -valor $\approx 0{,}016 < 0{,}05$ . Consistente com rejeição.

Fonte. OpenStax Statistics, §12.4, Example 12.7 — CC-BY

Exercise list

32 exercises · 8 with worked solution (25%)

Application 18Understanding 3Modeling 8Challenge 2Proof 1

Fontes

OpenStax Statistics — Illowsky, Dean · 2022 · CC-BY. Fonte primária dos exercícios 78.1–2, 78.5–10, 78.14, 78.16, 78.19–20, 78.22–25, 78.29–31 e exemplos 1–3, 5.
OpenIntro Statistics (4.ª ed) — Diez, Çetinkaya-Rundel, Barr · 2019 · CC-BY-SA. Fonte dos exercícios 78.3, 78.9, 78.11–12, 78.17–18, 78.21, 78.23, 78.26–28, 78.32 e exemplo 4.
Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · Dartmouth · GNU FDL. Fonte dos exercícios 78.4, 78.13, 78.15 e prova de |r| ≤ 1.