Math ClubMath Club
v1 · padrão canônico

Lição 106 — Regressão múltipla

Modelo com p preditores, solução matricial OLS, R² ajustado, multicolinearidade, seleção de variáveis e diagnóstico de pressupostos.

Used in: Stochastik LK alemão (Klasse 12) · H2 Mathematics Singapura (§15) · econometria introdutória

β^=(XTX)1XTy\hat{\boldsymbol\beta} = (X^TX)^{-1}X^T\mathbf{y}

Na regressão múltipla com pp preditores, o estimador OLS é a solução matricial das equações normais. Cada coeficiente β^j\hat\beta_j mede o efeito de XjX_j sobre YY mantendo os demais preditores fixos — o chamado efeito parcial.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Modelo de regressão linear múltipla

"The multiple regression model is y=β0+β1x1+β2x2++βkxk+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon. The coefficient βi\beta_i measures the expected change in yy per unit change in xix_i when all other predictors are held constant." — OpenIntro Statistics, §8.1, p. 362

Métricas de ajuste

Inferência

Matriz de design X (n=4, p=2)1 X₁₁ X₁₂1 X₂₁ X₂₂1 X₃₁ X₃₂1 X₄₁ X₄₂n×(p+1)×β₀β₁β₂(p+1)×1=Ŷ₁Ŷ₂Ŷ₃Ŷ₄n×1+ε₁ε₂ε₃ε₄n×1

Representação matricial do modelo: Y=Xβ+ε\mathbf{Y} = X\boldsymbol\beta + \boldsymbol\varepsilon. A primeira coluna de 1s em XX gera o intercepto β0\beta_0.

Exemplos resolvidos

Exercise list

20 exercises · 5 with worked solution (25%)

Application 10Understanding 3Modeling 3Challenge 3Proof 1
  1. Ex. 106.1ApplicationAnswer key

    Regressão: Y^=50+3,2X1+28X2+5,5X3\hat Y = 50 + 3{,}2X_1 + 28X_2 + 5{,}5X_3 (preço em R$ mil, área m², quartos, andar). Interprete cada coeficiente.

    Show solution
    Efeito parcial de cada preditor: manter os demais fixos. β^1=3,2\hat\beta_1 = 3{,}2: cada m² extra adiciona R\$ 3.200 ao preço, controlando quartos e andar. β^2=28\hat\beta_2 = 28: cada quarto a mais adiciona R\$ 28.000. β^3=5,5\hat\beta_3 = 5{,}5: cada andar a mais adiciona R\$ 5.500.
  2. Ex. 106.2Application

    Usando Y^=50+3,2X1+28X2+5,5X3\hat Y = 50 + 3{,}2X_1 + 28X_2 + 5{,}5X_3, calcule a previsão e o resíduo para um apartamento de 80 m², 3 quartos, 5º andar com preço observado de R$ 450 mil.

    Show solution
    Previsão: R\undefined 32.500 (apartamento acima do previsto pelo modelo).
    Show step-by-step (with the why)
    1. Identifique os valores: X1=80X_1=80 m², X2=3X_2=3 quartos, X3=5X_3=5 andar.
    2. Substitua na equação: Y^=50+3,2×80+28×3+5,5×5\hat Y = 50 + 3{,}2 \times 80 + 28 \times 3 + 5{,}5 \times 5.
    3. =50+256+84+27,5=417,5= 50 + 256 + 84 + 27{,}5 = 417{,}5 mil R\$.
    4. Resíduo: e=450417,5=32,5e = 450 - 417{,}5 = 32{,}5 mil R\. O apartamento custa R\ 32.500 a mais do que o modelo prevê.
    5. Macete: resíduo positivo = observado acima do esperado (pode indicar localização privilegiada não capturada pelos preditores).
  3. Ex. 106.3ApplicationAnswer key

    n=40n=40, p=3p=3 preditores, SST=2000SST=2000, SSE=800SSE=800. Calcule R2R^2 e Rˉ2\bar R^2.

    Show solution
    Rˉ2=1SSE/(np1)SST/(n1)=1800/362000/39=122,251,3=10,433=0,567\bar R^2 = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)} = 1 - \frac{800/36}{2000/39} = 1 - \frac{22{,}2}{51{,}3} = 1 - 0{,}433 = 0{,}567. Comparar com R2=1800/2000=0,60R^2 = 1-800/2000 = 0{,}60: o ajuste penalizado cai levemente.
  4. Ex. 106.4ApplicationAnswer key

    n=50n=50. Três modelos com p=1,3,6p=1,3,6 preditores e SSE/SST=0,40SSE/SST = 0{,}40; 0,350{,}35; 0,320{,}32. Calcule Rˉ2\bar R^2 de cada e aponte o preferível.

    Show solution
    M1: Rˉ12=1(10,60)×(n1)/(n2)\bar R^2_1 = 1-(1-0{,}60)\times(n-1)/(n-2). Com n=50n=50: Rˉ12=10,40×49/48=10,408=0,592\bar R^2_1 = 1-0{,}40\times49/48 = 1-0{,}408 = 0{,}592. M2: Rˉ22=10,35×49/46=10,373=0,627\bar R^2_2 = 1-0{,}35\times49/46 = 1-0{,}373 = 0{,}627. M3: Rˉ32=10,32×49/43=10,365=0,635\bar R^2_3 = 1-0{,}32\times49/43 = 1-0{,}365 = 0{,}635. M3 tem maior Rˉ2\bar R^2: preferível entre os três.
  5. Ex. 106.5Application

    n=60n=60, p=4p=4, SST=3600SST=3600, R2=0,72R^2=0{,}72. Monte a tabela ANOVA e teste o modelo ao nível 5%.

    Show solution
    SSR=0,72×3600=2592SSR = 0{,}72 \times 3600 = 2592; SSE=36002592=1008SSE = 3600 - 2592 = 1008; MSR=2592/4=648MSR = 2592/4 = 648; MSE=1008/55=18,3MSE = 1008/55 = 18{,}3; F=648/18,3=35,4F = 648/18{,}3 = 35{,}4. Valor crítico F4,55;0,052,54F_{4,55;\,0{,}05} \approx 2{,}54: rejeita H0H_0.
  6. Ex. 106.6Application

    Regressões auxiliares para 3 preditores: R12=0,30R_1^2=0{,}30, R22=0,70R_2^2=0{,}70, R32=0,92R_3^2=0{,}92. Calcule os VIFs e identifique multicolinearidade severa.

    Show solution
    VIFj=1/(1Rj2)VIF_j = 1/(1-R_j^2). VIF1=1/(10,30)=1,43VIF_1 = 1/(1-0{,}30) = 1{,}43; VIF2=1/(10,70)=3,33VIF_2 = 1/(1-0{,}70) = 3{,}33; VIF3=1/(10,92)=12,5VIF_3 = 1/(1-0{,}92) = 12{,}5. VIF3>10VIF_3 > 10: preditor 3 apresenta multicolinearidade severa.
  7. Ex. 106.7Application

    Regressão da nota do ENEM em renda familiar (X1X_1) e participação em programa de reforço (DD: 1=sim, 0=não): Y^=480+8,2X1+12,4D\hat Y = 480 + 8{,}2X_1 + 12{,}4D, n=200n=200. Interprete β^D=12,4\hat\beta_D = 12{,}4.

    Show solution
    O coeficiente da dummy indica que participar do programa está associado a 12,4 pontos a mais na nota, controlando por renda familiar. Efeito causal requer desenho experimental adequado.
    Show step-by-step (with the why)
    1. Modelo com dummy: Y^=β^0+β^1X1+β^2D\hat Y = \hat\beta_0 + \hat\beta_1 X_1 + \hat\beta_2 D onde D=1D=1 se tratado, D=0D=0 se controle.
    2. β^2\hat\beta_2 é a diferença média de YY entre tratados e controles, controlando por X1X_1.
    3. Com β^2=12,4\hat\beta_2 = 12{,}4: o programa está associado a um aumento médio de 12,4 pontos na nota, dado o mesmo nível de renda familiar.
    4. Observação: isso ainda não é efeito causal — precisa de aleatorização ou design quase-experimental.
  8. Ex. 106.8Application

    n=50n=50, p=3p=3, β^1=2,8\hat\beta_1=2{,}8, SE(β^1)=0,7SE(\hat\beta_1)=0{,}7. Teste H0:β1=0H_0:\beta_1=0 ao nível 5% (bicaudal).

    Show solution
    Teste tt: T=2,8/0,7=4,0T = 2{,}8/0{,}7 = 4{,}0. Com df=np1=5031=46df = n-p-1 = 50-3-1 = 46, t46;0,0252,013t_{46;\,0{,}025} \approx 2{,}013. Como T=4,0>2,013|T| = 4{,}0 > 2{,}013, rejeitamos H0:β1=0H_0: \beta_1 = 0. O preditor X1X_1 é significativo ao nível 5%.
  9. Ex. 106.9Application

    n=50n=50, p=3p=3, β^2=5,2\hat\beta_2=5{,}2, SE(β^2)=1,8SE(\hat\beta_2)=1{,}8. Construa IC 95% para β2\beta_2. Use t46;0,0252,013t_{46;\,0{,}025}\approx 2{,}013.

    Show solution
    IC 95% para β2\beta_2: β^2±t46;0,025×SE(β^2)=5,2±2,013×1,8=5,2±3,62=(1,58;  8,82)\hat\beta_2 \pm t_{46;\,0{,}025} \times SE(\hat\beta_2) = 5{,}2 \pm 2{,}013 \times 1{,}8 = 5{,}2 \pm 3{,}62 = (1{,}58;\; 8{,}82). O IC não contém 0: β2\beta_2 é significativo ao nível 5%.
  10. Ex. 106.10Application

    Quatro dos cinco resíduos de uma regressão são: 3,23{,}2; 1,5-1{,}5; 0,8-0{,}8; 2,12{,}1. Qual é o quinto resíduo?

    Show solution
    Soma dos resíduos é sempre zero em qualquer regressão com intercepto: ei=0\sum e_i = 0. Portanto o quinto resíduo é e5=(3,21,50,8+2,1)=5,0e_5 = -(3{,}2 - 1{,}5 - 0{,}8 + 2{,}1) = -5{,}0. Verificar: soma 3,21,50,8+2,15,0=03{,}2-1{,}5-0{,}8+2{,}1-5{,}0 = 0. Correto.
  11. Ex. 106.11Understanding

    Qual afirmação sobre R2R^2 e R2R^2 ajustado é CORRETA?

    Select the correct option
    Select an option first
    Show solution
    R2R^2 nunca cai ao adicionar preditores (propriedade matemática do OLS). Rˉ2\bar R^2 penaliza pelo número de preditores e pode cair quando o preditor adicionado é fraco. Por isso Rˉ2\bar R^2 é o critério adequado para comparar modelos com diferentes números de preditores.
  12. Ex. 106.12Understanding

    Qual é o principal efeito prático da multicolinearidade em regressão múltipla?

    Select the correct option
    Select an option first
    Show solution
    Multicolinearidade não vicia os estimadores (eles continuam BLUE), mas torna XTXX^TX quase-singular, inflando (XTX)1(X^TX)^{-1} e portanto os SESE. Testes tt individuais perdem poder, mas o teste FF global e as previsões continuam confiáveis.
  13. Ex. 106.13Understanding

    Qual afirmação sobre coeficientes parciais em regressão múltipla é CORRETA?

    Select the correct option
    Select an option first
    Show solution
    O fenômeno é chamado de "inversão de sinal" ou efeito de supressão. Ocorre quando X2X_2 está correlacionado com X1X_1 de forma que controlar por X2X_2 revela a verdadeira relação de X1X_1 com YY. Exemplo clássico: correlação positiva entre pompas de incêndio e dano — ao controlar pelo tamanho do incêndio, o efeito pode mudar.
  14. Ex. 106.14Modeling

    Regressão do gasto mensal familiar (R$ mil) sobre 4 preditores socioeconômicos: n=80n=80, SST=18000SST=18000, SSE=5400SSE=5400. Calcule MSEMSE, σ^\hat\sigma e Rˉ2\bar R^2.

    Show solution
    Com p=4p = 4 preditores: MSE=SSE/(np1)=5400/(8041)=5400/75=72MSE = SSE/(n-p-1) = 5400/(80-4-1) = 5400/75 = 72. σ^=728,49\hat\sigma = \sqrt{72} \approx 8{,}49 mil R\undefined 8.490 no consumo previsto. Rˉ2=1(72)/(SST/79)\bar R^2 = 1-(72)/(SST/79). Com SST=18000SST = 18000: Rˉ2=172/227,8=10,316=0,684\bar R^2 = 1-72/227{,}8 = 1-0{,}316 = 0{,}684.
  15. Ex. 106.15Modeling

    Modelo: Y^=45+2,5X18D\hat Y = 45 + 2{,}5X_1 - 8D (salário em R$ mil, experiência em anos, DD=1 se mulher). Calcule salários para (a) homem, 10 anos; (b) mulher, 10 anos. Como incluir interação para verificar se o gap varia com experiência?

    Show solution
    Homem 10 anos: R\ 70 mil. Mulher 10 anos: R\ 62 mil. O gap salarial de R\$ 8 mil é constante no modelo sem interação.
    Show step-by-step (with the why)
    1. Modelo sem interação: uma reta de inclinação igual para homens e mulheres.
    2. Para homens (D=0D=0): Y^=45+2,5X1\hat Y = 45 + 2{,}5X_1. Para mulheres (D=1D=1): Y^=45+2,5X18=37+2,5X1\hat Y = 45 + 2{,}5X_1 - 8 = 37 + 2{,}5X_1.
    3. Diferença salarial entre gêneros é constante em R\$ 8 mil para qualquer nível de experiência.
    4. Para testar se a diferença varia com experiência, adicione o termo de interação X1×DX_1 \times D.
    5. Observação: o modelo com interação é Y^=β0+β1X1+β2D+β3(X1D)\hat Y = \beta_0 + \beta_1 X_1 + \beta_2 D + \beta_3(X_1 \cdot D). Se β^3\hat\beta_3 for significativo, a diferença de gênero varia com experiência.
  16. Ex. 106.16ModelingAnswer key

    Um pesquisador tem modelo de regressão com 2 preditores (R2=0,65R^2=0{,}65, Rˉ2=0,64\bar R^2=0{,}64) e considera adicionar um terceiro preditor. Descreva dois critérios para decidir se deve incluí-lo.

    Show solution
    Comparar modelos com e sem X3X_3: se Rˉ2\bar R^2 sobe ao incluir X3X_3, manter. Alternativa: fazer teste tt parcial para β^3\hat\beta_3. Se p-valor menor que 0,05, X3X_3 é significativo dado os demais. Critério AIC: AIC=nln(SSE/n)+2(p+1)AIC = n\ln(SSE/n) + 2(p+1), menor é melhor. Usar VIF para verificar se X3X_3 introduz multicolinearidade severa.
  17. Ex. 106.17Challenge

    Prove que o hat matrix H=X(XTX)1XTH = X(X^TX)^{-1}X^T é idempotente: H2=HH^2 = H.

    Show solution
    O hat matrix H=X(XTX)1XTH = X(X^TX)^{-1}X^T é simétrico (HT=HH^T=H) e idempotente (H2=HH^2=H). Idempotência: H2=X(XTX)1XTX(XTX)1XT=X(XTX)1XT=HH^2 = X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T = X(X^TX)^{-1}X^T = H. Isso confirma que HH é uma projeção ortogonal: aplicá-la duas vezes dá o mesmo resultado.
  18. Ex. 106.18Challenge

    Dados: n=6n=6 observações com Y=(10,14,18,12,16,20)Y=(10,14,18,12,16,20), X1=(1,2,3,2,3,4)X_1=(1,2,3,2,3,4), X2=(5,4,3,6,5,4)X_2=(5,4,3,6,5,4). Escreva a matriz de design XX e enuncie o procedimento para calcular β^=(XTX)1XTy\hat{\boldsymbol\beta} = (X^TX)^{-1}X^T\mathbf{y} (não é necessário executar a inversão a mão — descreva os passos).

    Show solution
    Montar as matrizes com os dados fornecidos, calcular o produto e obter β^\hat{\boldsymbol\beta}. Este exercício é melhor resolvido com calculadora matricial ou R/Python.
    Show step-by-step (with the why)
    1. Com n=6n=6, p=2p=2: montar XX (coluna de 1s, coluna X1X_1, coluna X2X_2).
    2. Calcular XTXX^TX (matriz 3×3).
    3. Calcular (XTX)1(X^TX)^{-1}.
    4. Calcular XTyX^T\mathbf{y} (vetor 3×1).
    5. Multiplicar: β^=(XTX)1XTy\hat{\boldsymbol\beta} = (X^TX)^{-1}X^T\mathbf{y}.
    6. Curiosidade: em aplicações reais, (XTX)1(X^TX)^{-1} é calculado numericamente via decomposição QR, não pela inversa direta (mais estável numericamente).
  19. Ex. 106.19ProofAnswer key

    Prove que em qualquer regressão com intercepto, i=1nei=0\sum_{i=1}^n e_i = 0, usando a ortogonalidade XTe=0X^T\mathbf{e} = \mathbf{0}.

    Show solution
    Devemos mostrar que ei=0\sum e_i = 0. Como e=(IH)Y\mathbf{e} = (I-H)\mathbf{Y} e a primeira coluna de XX é um vetor de 1s (1\mathbf{1}), temos XTe=XT(IH)Y=XTYXTX(XTX)1XTY=0X^T\mathbf{e} = X^T(I-H)\mathbf{Y} = X^T\mathbf{Y} - X^TX(X^TX)^{-1}X^T\mathbf{Y} = \mathbf{0}. A primeira linha de XTX^T é 1T\mathbf{1}^T, portanto 1Te=ei=0\mathbf{1}^T\mathbf{e} = \sum e_i = 0.
  20. Ex. 106.20Challenge

    Mostre que adicionar um preditor ao modelo aumenta Rˉ2\bar R^2 se e somente se a estatística T|T| do novo preditor é maior que 1.

    Show solution
    Fórmula da diferença de Rˉ2\bar R^2 ao adicionar um preditor: Rˉ2\bar R^2 aumenta se e somente se o valor FF parcial do novo preditor for maior que 1. Equivalentemente: Rˉ2\bar R^2 do modelo ampliado >> Rˉ2\bar R^2 do modelo reduzido \Leftrightarrow Tj2>1T_j^2 > 1. Isso mostra que o critério Rˉ2\bar R^2 é menos conservador do que o teste tt ao nível 5% (que exigiria Tj>tnp1;0,0252|T_j| > t_{n-p-1;\,0{,}025} \approx 2).

Fontes

  • OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Capítulo 8 (Multiple and logistic regression). Fonte primária para interpretação de coeficientes, Rˉ2\bar R^2, multicolinearidade e variáveis dummy.
  • Statistics — OpenStax — Illowsky, Dean · CC-BY · Capítulo 13 (Linear Regression and Correlation — Multiple). Fonte para tabelas ANOVA de regressão múltipla e teste F global.
  • Probabilidade e Estatística — Wikilivros — colaborativo · CC-BY-SA · Seção de regressão múltipla. Referência em PT-BR com notação matricial.

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.