v1 · padrão canônico

Lição 106 — Regressão múltipla

Modelo com p preditores, solução matricial OLS, R² ajustado, multicolinearidade, seleção de variáveis e diagnóstico de pressupostos.

Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§15) · econometria introdutória

\hat{\boldsymbol\beta} = (X^TX)^{-1}X^T\mathbf{y}

Na regressão múltipla com $p$ preditores, o estimador OLS é a solução matricial das equações normais. Cada coeficiente $\hat\beta_j$ mede o efeito de $X_j$ sobre $Y$ mantendo os demais preditores fixos — o chamado efeito parcial.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Modelo de regressão linear múltipla

Definition· Modelo e notacao matricial

Para $n$ observações e $p$ preditores:

$Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip} + \varepsilon_i, \quad \varepsilon_i \stackrel{i.i.d.}{\sim} \mathcal{N}(0,\sigma^2)$

Em forma matricial: $\mathbf{Y} = X\boldsymbol\beta + \boldsymbol\varepsilon$ , onde:

$\mathbf{Y} \in \mathbb{R}^n$ : vetor de respostas.
$X \in \mathbb{R}^{n\times(p+1)}$ : matriz de design (primeira coluna de 1s para o intercepto).
$\boldsymbol\beta \in \mathbb{R}^{p+1}$ : vetor de coeficientes.
$\boldsymbol\varepsilon \in \mathbb{R}^n$ : vetor de erros.

"The multiple regression model is $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon$ . The coefficient $\beta_i$ measures the expected change in $y$ per unit change in $x_i$ when all other predictors are held constant." — OpenIntro Statistics, §8.1, p. 362

Métricas de ajuste

Inferência

Representação matricial do modelo: $\mathbf{Y} = X\boldsymbol\beta + \boldsymbol\varepsilon$ . A primeira coluna de 1s em $X$ gera o intercepto $\beta_0$ .

Exemplos resolvidos

Example— 106.1· Ajuste e interpretacao com dois preditores

Problema. Regressão do salário anual $Y$ (R$ mil) sobre experiência $X_1$ (anos) e escolaridade $X_2$ (anos de estudo) produziu: $\hat Y = -12 + 2{,}8 X_1 + 5{,}2 X_2$ , com $n=50$ , $R^2=0{,}74$ , $\bar R^2=0{,}73$ .

Interprete cada coeficiente e calcule a previsão para um profissional com 10 anos de experiência e 16 anos de estudo.

Estratégia. Interpretar cada $\hat\beta_j$ como efeito parcial (ceteris paribus). Substituir os valores na equação ajustada.

Resolução.

$\hat\beta_0 = -12$ : intercepto (sem interpretação substantiva isolada — nenhum profissional tem zero anos de experiência e estudo).
$\hat\beta_1 = 2{,}8$ : controlando escolaridade, cada ano adicional de experiência está associado a R$ 2.800/ano a mais, em média.
$\hat\beta_2 = 5{,}2$ : controlando experiência, cada ano adicional de estudo está associado a R$ 5.200/ano a mais.

Previsão: $\hat Y = -12 + 2{,}8\times10 + 5{,}2\times16 = -12+28+83{,}2 = 99{,}2$ mil R$/ano.

Verificação. $\bar R^2 = 0{,}73$ próximo de $R^2 = 0{,}74$ : apenas 2 preditores, pouca penalização — modelo parsimonioso.

Fonte. OpenIntro Statistics, §8.1, Exemplo 8.1 — CC-BY-SA

Example— 106.2· R² ajustado na selecao entre modelos

Problema. Três modelos para prever o consumo de energia elétrica domiciliar ( $n=80$ ):

Modelo	Preditores	$R^2$	$\bar R^2$
M1	área	0,61	0,61
M2	área + nº moradores	0,71	0,70
M3	área + nº moradores + renda + temperatura + dia semana	0,74	0,70

Qual modelo preferir?

Estratégia. Comparar $\bar R^2$ — penaliza por número de preditores.

Resolução.

M2 e M3 têm o mesmo $\bar R^2 = 0{,}70$ , mas M3 usa 5 preditores contra 2 de M2. Pelo princípio da parcimônia (navalha de Occam), M2 é preferido: adicionar 3 preditores não melhora o $\bar R^2$ — eles não contribuem informação líquida.

Note que $R^2$ de M3 (0,74) supera M2 (0,71) — mas $R^2$ sempre cresce com preditores adicionais, mesmo irrelevantes.

Verificação. Poderia confirmar com AIC/BIC: $AIC = n\ln(SSE/n) + 2(p+1)$ — menor é melhor.

Fonte. OpenIntro Statistics, §8.3, Tabela 8.7 — CC-BY-SA

Example— 106.3· Teste F global e tabela ANOVA

Problema. Regressão com $p=3$ preditores, $n=40$ : $SST=2400$ , $SSE=720$ . Monte a tabela ANOVA e teste $H_0: \beta_1=\beta_2=\beta_3=0$ ao nível 5%.

Estratégia. Calcular SSR, df, MS, F; comparar com valor crítico $F_{3,36;\,0{,}05}$ .

Resolução.

$SSR = 2400-720 = 1680$ ; $R^2 = 1680/2400 = 0{,}70$ .

Fonte	SS	df	MS	F
Regressão	1680	3	560	28,0
Erro	720	36	20	—
Total	2400	39	—	—

$F_{3,36;\,0{,}05} \approx 2{,}87$ . Como $F = 28{,}0 \gg 2{,}87$ , rejeitamos $H_0$ : o modelo como um todo é altamente significativo.

Verificação. $MSE = 20 \implies \hat\sigma = \sqrt{20} \approx 4{,}47$ — desvio padrão residual em unidades de $Y$ .

Fonte. OpenStax Statistics, §13.4 — CC-BY

Example— 106.4· Detectar multicolinearidade via VIF

Problema. Regressão do preço de um veículo ( $Y$ ) sobre potência ( $X_1$ ), cilindrada ( $X_2$ ) e peso ( $X_3$ ). Regressões auxiliares: $R_1^2=0{,}89$ ( $X_1$ sobre $X_2, X_3$ ), $R_2^2=0{,}91$ , $R_3^2=0{,}85$ . Calcule os VIFs e avalie.

Estratégia. $VIF_j = 1/(1-R_j^2)$ .

Resolução.

$VIF_1 = 1/(1-0{,}89) = 9{,}09$ ; $VIF_2 = 1/(1-0{,}91) = 11{,}1$ ; $VIF_3 = 1/(1-0{,}85) = 6{,}67$ .

$VIF_2 = 11{,}1 > 10$ : cilindrada apresenta multicolinearidade severa com as demais variáveis.

Ação: remover $X_2$ do modelo ou combinar $X_1$ e $X_2$ em um índice composto (análise de componentes principais).

Verificação. Após remover $X_2$ , recalcular VIFs para os preditores restantes.

Fonte. OpenIntro Statistics, §8.4 — CC-BY-SA

Example— 106.5· Variavel dummy e interacao

Problema. Prever salário $Y$ (R$ mil/ano) usando experiência $X_1$ (anos) e gênero $D$ (1=feminino, 0=masculino). Resultado: $\hat Y = 45 + 2{,}5X_1 - 8D$ .

Interprete o coeficiente de $D$ e calcule os salários previstos para: (a) homem com 10 anos de experiência; (b) mulher com 10 anos de experiência.

Estratégia. A variável dummy cria dois interceptos diferentes (um por gênero), mantendo inclinação igual.

Resolução.

$\hat\beta_D = -8$ : controlando experiência, mulheres ganham em média R$ 8.000/ano a menos do que homens — diferença bruta (não causal, pois não controlamos setor, cargo, jornada).

(a) Homem ( $D=0$ ), $X_1=10$ : $\hat Y = 45 + 25 - 0 = 70$ mil R$/ano.

(b) Mulher ( $D=1$ ), $X_1=10$ : $\hat Y = 45 + 25 - 8 = 62$ mil R$/ano.

Verificação. A diferença é constante ( $-8$ ) para qualquer nível de experiência — modelo sem interação assume efeito aditivo. Para permitir inclinações diferentes, adicionar $X_1 \times D$ .

Fonte. OpenIntro Statistics, §8.2, Exemplo 8.4 — CC-BY-SA

Exercise list

20 exercises · 5 with worked solution (25%)

Application 10Understanding 3Modeling 3Challenge 3Proof 1

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Capítulo 8 (Multiple and logistic regression). Fonte primária para interpretação de coeficientes, $\bar R^2$ , multicolinearidade e variáveis dummy.
Statistics — OpenStax — Illowsky, Dean · CC-BY · Capítulo 13 (Linear Regression and Correlation — Multiple). Fonte para tabelas ANOVA de regressão múltipla e teste F global.
Probabilidade e Estatística — Wikilivros — colaborativo · CC-BY-SA · Seção de regressão múltipla. Referência em PT-BR com notação matricial.