v1 · padrão canônico

Lição 118 — Análise de Componentes Principais (PCA)

Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado

\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})

A PCA (Hotelling, 1933) diagonaliza a matriz de covariância amostral $\Sigma$ dos dados centralizados. Os autovetores $v_k$ (colunas de $V$ ) são as direções de máxima variância; os autovalores $\lambda_k$ são as variâncias nessas direções. Projetar em $V_k$ preserva o máximo da variância total com menor número de dimensões.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição matemática

Setup e covariância amostral

"The covariance matrix $\Sigma$ is always symmetric and positive semidefinite. Its eigenvalues are nonnegative and the eigenvectors form an orthonormal basis of $\mathbb{R}^d$ ." — Introduction to Applied Linear Algebra (VMLS), §10.1

Componentes principais

Definition· PCA: decomposição espectral da covariância

\Sigma = V \Lambda V^T, \quad \Lambda = \text{diag}(\lambda_1, \ldots, \lambda_d), \quad \lambda_1 \geq \cdots \geq \lambda_d \geq 0

what this means · Sigma é diagonalizável (simétrica PSD): V ortogonal, Lambda diagonal com autovalores em ordem decrescente.

Vetor principal $k$ : $v_k$ — $k$ -ésima coluna de $V$ .
Score da amostra $x_i$ na PC $k$ : $z_{ik} = v_k^T(x_i - \bar{x})$ .
Variância explicada pela PC $k$ : $\lambda_k$ .
Proporção de variância explicada: $\lambda_k / \sum_j \lambda_j$ .
Variância total: $\sum_j \lambda_j = \text{tr}(\Sigma)$ .

Otimalidade

"The principal components are the eigenvectors of the data covariance matrix, ordered by decreasing eigenvalue. The first principal component captures the maximum variance; successive components capture maximum residual variance subject to orthogonality." — Understanding Linear Algebra, §7.1

Conexão com SVD

Reconstrução e erro de aproximação

\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k

what this means · Manter K componentes minimiza o erro de reconstrução quadrático médio entre todas as projeções de posto K (Eckart-Young aplicado a PCA).

Erro de reconstrução: $\frac{1}{N}\sum_i \|x_i - \hat{x}_i\|^2 = \sum_{k > K} \lambda_k$ .

Exemplos resolvidos

Example— 1· PCA de um dataset 3D simples

Problema. Dado $\tilde{X} = \begin{pmatrix} 2 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & -1 & -1 \\ -2 & 0 & 0 \end{pmatrix}$ (4 amostras, 3 features, já centralizado), calcule a matriz de covariância, os autovalores e a variância explicada.

Estratégia. Calcular $\Sigma = \tilde{X}^T \tilde{X} / (N-1)$ e decompor.

Resolução.

$\tilde{X}^T \tilde{X} = \begin{pmatrix} 8 & 0 & 0 \\ 0 & 2 & 2 \\ 0 & 2 & 2 \end{pmatrix}$ . Com $N - 1 = 3$ : $\Sigma = \begin{pmatrix} 8/3 & 0 & 0 \\ 0 & 2/3 & 2/3 \\ 0 & 2/3 & 2/3 \end{pmatrix}$ .

Autovalores: $\lambda_1 = 8/3$ , $\lambda_2 = 4/3$ , $\lambda_3 = 0$ . Variância total: $8/3 + 4/3 = 4$ .

Variância explicada: PC1 = 8/3 / 4 = 66,7%; PC2 = 4/3 / 4 = 33,3%; PC3 = 0%.

Verificação. $\text{tr}(\Sigma) = 8/3 + 2/3 + 2/3 = 12/3 = 4 = \lambda_1 + \lambda_2 + \lambda_3$ . ✓ Com 2 PCs explica 100% — os dados vivem num plano 2D.

Fonte. Understanding Linear Algebra, §7.1 Exercício 7.1.1 — David Austin · CC-BY-SA.

Example— 2· Calculo de scores e reconstrucao

Problema. Dados centralizados bidimensionais com covariância $\Sigma = \begin{pmatrix} 4 & 2 \\ 2 & 1 \end{pmatrix}$ . Encontre as PCs, calcule o score da amostra $x = (2, 1)^T$ na PC1, e reconstrua com 1 componente.

Estratégia. Autodecomposição de $\Sigma$ , depois projeção e reconstrução.

Resolução.

Polinômio característico: $(4 - \lambda)(1 - \lambda) - 4 = 0$ , logo $\lambda^2 - 5\lambda = 0$ , dando $\lambda_1 = 5$ e $\lambda_2 = 0$ .

Autovetor de $\lambda_1 = 5$ : $v_1 = (1/\sqrt{5})(2, 1)^T$ .

Score de $x = (2,1)^T$ em PC1: $z_1 = v_1^T x = (2 \cdot 2 + 1 \cdot 1)/\sqrt{5} = 5/\sqrt{5} = \sqrt{5}$ .

Reconstrução com 1 componente: $\hat x = z_1 v_1 = \sqrt{5} \cdot (1/\sqrt{5})(2,1)^T = (2,1)^T$ .

Verificação. Erro de reconstrução zero — o dado $x$ vive exatamente no subespaço de PC1 (pois $\lambda_2 = 0$ , os dados são degenerados). ✓

Fonte. Introduction to Applied Linear Algebra (VMLS), §10.2 — Boyd, Vandenberghe · CC-BY-NC-ND.

Example— 3· Variancia explicada e scree plot

Problema. Uma análise PCA de 50 variáveis resulta nos 5 maiores autovalores: 15, 8, 4, 2, 1. Variância total = 50 (dados padronizados, cada variável tem variância 1). Calcule: (a) variância explicada por cada PC; (b) variância acumulada; (c) qual K escolher para 90%.

Estratégia. Proporção simples, depois soma acumulada.

Resolução.

(a) ExpVar(k): 15/50 = 30%, 8/50 = 16%, 4/50 = 8%, 2/50 = 4%, 1/50 = 2%.

(b) Acumulada: 30%, 46%, 54%, 58%, 60%.

(c) Após 5 PCs, cumulativa = 60% — insuficiente para 90%. As outras 45 PCs somam 40% restantes. Para 90% provavelmente precisaríamos de ~15-20 PCs (dependendo da distribuição dos autovalores restantes).

Verificação. Soma das 5 parcelas = 60%, coerente com variância total restante de 40%. ✓

Fonte. OpenIntro Statistics, §8.3 Exercício 8.27 — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA.

Example— 4· PCA via SVD e conexao com covariancia

Problema. Mostre que as PCs obtidas via SVD de $\tilde X$ são as mesmas obtidas via autodecomposição de $\Sigma = \tilde X^T \tilde X / (N-1)$ . Identifique como os valores singulares de $\tilde X$ se relacionam com os autovalores de $\Sigma$ .

Estratégia. Usar $\tilde X = U \Sigma_{SVD} V^T$ e substituir em $\Sigma$ .

Resolução.

\Sigma_{cov} = \frac{1}{N-1} \tilde X^T \tilde X = \frac{1}{N-1}(V \Sigma_{SVD}^T U^T)(U \Sigma_{SVD} V^T)

= \frac{1}{N-1} V \Sigma_{SVD}^T \Sigma_{SVD} V^T = V \cdot \frac{\Sigma_{SVD}^2}{N-1} \cdot V^T

Portanto: autovalores de $\Sigma_{cov}$ são $\lambda_k = \sigma_k^2/(N-1)$ , e os autovetores (colunas de $V$ ) são exatamente os vetores singulares à direita de $\tilde X$ .

Verificação. A relação $\lambda_k = \sigma_k^2/(N-1)$ é consistente: se $\sigma_k \to 0$ , então $\lambda_k \to 0$ (PC sem variância). ✓

Fonte. Introduction to Applied Linear Algebra (VMLS), §10.3 — Boyd, Vandenberghe · CC-BY-NC-ND.

Example— 5· PCA aplicada a retornos de acoes brasileiras

Problema. Você tem retornos diários de 5 ações da B3 (PETR4, VALE3, ITUB4, BBDC4, WEGE3) por 252 dias. A matriz de covariância (anualizada, em %) é:

\Sigma = \begin{pmatrix} 45 & 20 & 12 & 11 & 8 \\ 20 & 38 & 10 & 9 & 6 \\ 12 & 10 & 22 & 14 & 5 \\ 11 & 9 & 14 & 20 & 4 \\ 8 & 6 & 5 & 4 & 15 \end{pmatrix}

Os 3 maiores autovalores são aproximadamente 82, 23, 11. Calcule: (a) variância total; (b) variância explicada pelas 3 PCs; (c) interpretação econômica.

Estratégia. Variância total = trace de $\Sigma$ ; variância explicada = proporção dos autovalores.

Resolução.

(a) Variância total: $\text{tr}(\Sigma) = 45 + 38 + 22 + 20 + 15 = 140$ .

(b) 3 PCs explicam: $(82 + 23 + 11)/140 = 116/140 \approx 82{,}9\%$ .

(c) PC1 (82/140 = 58,6%): correlacionada positivamente com todas as ações — fator de mercado ("beta"). PC2 (23/140 = 16,4%): provavelmente diferencia commodities (PETR4, VALE3) de financeiros (ITUB4, BBDC4). PC3: risco idiossincrático restante.

Verificação. 3 dos 5 componentes explicam 82,9% — consistente com estudos empíricos de yield curves brasileiras mostrando dominância dos primeiros PCs.

Fonte. OpenIntro Statistics, §8.3 — Diez et al. · CC-BY-SA. Estrutura de covariância motivada por resultados empíricos de mercados emergentes.

Exercise list

30 exercises · 7 with worked solution (25%)

Application 17Understanding 3Modeling 5Challenge 2Proof 3

Ex. 118.1Understanding
Por que é necessário centralizar os dados (subtrair a média) antes de aplicar PCA?
Solve online Understanding Linear Algebra · §7.1 · 7.1.2 · p. 341
Show solution
Centralizar elimina o componente constante dos dados — sem centralização, PC1 aponta para a média dos dados, não para a direção de máxima variância. Após centralizar, o primeiro autovetor de $\Sigma$ capta genuinamente a direção de maior espalhamento.
Ex. 118.2Application
Dado $\tilde X = \begin{pmatrix} 2 & 3 \\ -2 & -3 \end{pmatrix}$ , calcule a covariância e as componentes principais.
Solve online Understanding Linear Algebra · §7.1 · 7.1.3 · p. 342
Show solution
$\Sigma = \begin{pmatrix} 4 & 6 \\ 6 & 9 \end{pmatrix}$ . Autovalores: $\text{tr} = 13$ , $\det = 0$ . Portanto $\lambda_1 = 13$ , $\lambda_2 = 0$ . PC1 = autovetor de $\lambda_1$ : resolve $(\Sigma - 13I)v = 0$ : $v_1 = (1/\sqrt{13})(2,3)^T$ . Variância explicada: 100% em PC1.
Show step-by-step (with the why)
1. Compute $\Sigma = \tilde X^T \tilde X / (N-1)$ .
2. Calcule traço e determinante de $\Sigma$ .
3. Autovalores via fórmula: $\lambda = (\text{tr} \pm \sqrt{\text{tr}^2 - 4\det})/2$ .
4. Autovetor de $\lambda_1$ : resolva $(\Sigma - \lambda_1 I)v = 0$ .
5. Macete: det = 0 significa que os dados vivem numa linha (reta de ajuste) — PCA encontra essa linha exatamente.
Ex. 118.3Application
Autovalores de $\Sigma$ : $10, 5, 3, 1, 1$ . Calcule a variância explicada por cada PC e a cumulativa. Para qual $K$ a variância cumulativa atinge 90%?
Solve online OpenIntro Statistics · §8.3 · 8.25 · p. 382
Show solution
Variância total = $\text{tr}(\Sigma) = \sum_k \lambda_k$ . Variância explicada por PC $k$ : $\lambda_k / \text{tr}(\Sigma)$ . Para $\lambda = (10, 5, 3, 1, 1)$ : total = 20. ExpVar: 50%, 25%, 15%, 5%, 5%. Cumulativa: 50%, 75%, 90%, 95%, 100%. Para 90%: K = 3.
Ex. 118.4Application
PCs de um dataset 2D: $v_1 = (1,1)^T/\sqrt{2}$ , $v_2 = (1,-1)^T/\sqrt{2}$ . Calcule os scores de $x = (3,-1)^T$ em ambas as componentes.
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.2 · 10.2 · p. 195
Show solution
Score de $x = (3, -1)^T$ na PC1 $v_1 = (1/\sqrt{2})(1,1)^T$ : $z_1 = v_1^T x = (3 + (-1))/\sqrt{2} = 2/\sqrt{2} = \sqrt{2}$ . Score em PC2 $v_2 = (1/\sqrt{2})(1,-1)^T$ : $z_2 = (3 - (-1))/\sqrt{2} = 4/\sqrt{2} = 2\sqrt{2}$ .
Ex. 118.5Application
Usando os dados do exercício anterior, reconstrua $x = (3,-1)^T$ retendo apenas a PC1. Qual o erro de reconstrução?
Introduction to Applied Linear Algebra (VMLS) · §10.2 · 10.3 · p. 196
Show solution
Reconstrução com K = 1: $\hat x = \bar x + z_1 v_1$ . Se $\bar x = 0$ (dados centralizados), $\hat x = z_1 v_1 = \sqrt{2} \cdot (1,1)^T/\sqrt{2} = (1,1)^T$ . Erro: $\|x - \hat x\| = \|(3,-1)^T - (1,1)^T\| = \|(2,-2)^T\| = 2\sqrt{2}$ .
Ex. 118.6UnderstandingAnswer key
Por que calcular PCA via SVD da matriz de dados $\tilde X$ é preferível a autodecompor $\Sigma$ diretamente?
Select the correct option
SVD de X centralizado é mais estável numericamente: evita o square-up que amplifica erros de arredondamento ao calcular X^T XSVD de X centralizado é mais lento que autodecomposição de SigmaAutodecomposição de Sigma dá PCs diferentes de SVD de XSVD de X centralizado só funciona quando X é quadrada
Select an option first
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.3 · 10.5 · p. 198
Show solution
Calcular $\Sigma = \tilde X^T \tilde X/(N-1)$ e depois autodecompor é matematicamente equivalente a SVD de $\tilde X$ , mas numericamente inferior: a formação de $\tilde X^T \tilde X$ eleva ao quadrado o número de condicionamento. SVD de $\tilde X$ é o padrão industrial (usado pelo sklearn).
Ex. 118.7ApplicationAnswer key
Calcule as PCs de $\Sigma = \begin{pmatrix} 9 & 3 \\ 3 & 1 \end{pmatrix}$ . Qual a variância explicada por cada componente?
Solve online Understanding Linear Algebra · §7.1 · 7.1.5 · p. 344
Show solution
Autovalores de $\Sigma = \begin{pmatrix} 9 & 3 \\ 3 & 1 \end{pmatrix}$ : $\text{tr} = 10$ , $\det = 9 - 9 = 0$ . Portanto $\lambda_1 = 10$ , $\lambda_2 = 0$ . Posto de covariância = 1. PC1 = $(3,1)^T/\sqrt{10}$ . 100% da variância em PC1.
Ex. 118.8ApplicationAnswer key
Com dados padronizados (z-score), qual é a variância total? O que significa o critério de Kaiser de reter apenas PCs com autovalor maior que 1?
Solve online OpenIntro Statistics · §8.3 · 8.26 · p. 383
Show solution
Com dados padronizados, $\Sigma$ é a matriz de correlação: diagonal = 1. Variância total = d = número de features. PC com $\lambda_k > 1$ explica mais variância do que uma única feature original — critério de Kaiser. Reter PCs com $\lambda_k > 1$ é uma heurística conservadora mas amplamente usada.
Ex. 118.9Application
Dataset com autovalores $5, 3, 2$ (total 10). Calcule o erro de reconstrução quadrático médio ao manter K = 1 e K = 2 componentes.
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.2 · 10.4 · p. 197
Show solution
Erro de reconstrução quadrático médio ao manter K PCs: $\sum_{k > K} \lambda_k$ . Para $(5, 3, 2)$ : com K = 2, erro = 2; com K = 1, erro = 3 + 2 = 5.
Show step-by-step (with the why)
1. Se os dados têm 3 PCs com variância 5, 3, 2 e total 10, ExpVar = 50%, 30%, 20%.
2. Variância acumulada com K = 2: 80%.
3. Erro de reconstrução com K = 2: $\lambda_3 = 2$ (soma das variâncias das PCs descartadas).
4. Macete: o erro de reconstrução é sempre a soma das variâncias das PCs descartadas.
Ex. 118.10Modeling
PCA de retornos de 10 ações resultou em PC1 com loading positivo de magnitude similar para todas as ações. O que PC1 representa economicamente? Como um gestor de portfólio usaria essa informação?
Solve online OpenIntro Statistics · §8.3 · 8.30 · p. 385
Show solution
PC1 de retornos de ações geralmente é o fator de mercado: todos os retornos correlacionados positivamente. Loadings positivos de magnitude similar indicam o fator "beta" de mercado. Beta alto = ação mais volátil que o mercado; beta baixo = menos volátil. Subtrair o componente de PC1 de um portfólio = neutralizar o risco de mercado (market-neutral strategy).
Ex. 118.11ApplicationAnswer key
SVD de $\tilde X$ com $N = 101$ amostras deu valores singulares $\sigma_1 = 20, \sigma_2 = 10$ . Calcule os autovalores correspondentes da covariância e a variância explicada por PC1.
Solve online Understanding Linear Algebra · §7.2 · 7.2.2 · p. 350
Show solution
Relação: $\lambda_k = \sigma_k^2 / (N - 1)$ . Para $N = 101$ , $N - 1 = 100$ . Se $\sigma_1 = 20$ : $\lambda_1 = 400/100 = 4$ . Se $\sigma_2 = 10$ : $\lambda_2 = 100/100 = 1$ . Variância explicada por PC1: $\lambda_1/(\lambda_1 + \lambda_2) = 4/5 = 80\%$ .
Ex. 118.12UnderstandingAnswer key
Prove que os scores das diferentes componentes principais são não-correlacionados entre si.
Introduction to Applied Linear Algebra (VMLS) · §10.1 · 10.1 · p. 193
Show solution
PCs são ortogonais por construção (autovetores de matriz simétrica para autovalores distintos são ortogonais). Scores $z_j = v_j^T \tilde x$ e $z_k = v_k^T \tilde x$ têm covariância nula: $\text{Cov}(z_j, z_k) = v_j^T \Sigma v_k = \lambda_k v_j^T v_k = 0$ . Scores são não-correlacionados — o que elimina multicolinearidade em modelos subsequentes.
Ex. 118.13Application
Um dataset tem 50 features padronizadas. Com K = 10 PCs capturando 95% da variância, quantos parâmetros são necessários para representar a covariância via PCA de posto K versus covariância completa?
Solve online Understanding Linear Algebra · §7.2 · 7.2.4 · p. 352
Show solution
Para $d = 50$ features padronizadas, variância total = 50. Com K = 10 PCs e autovalores decrescentes: se os 10 primeiros somam $50 \times 0{,}95 = 47{,}5$ , então variância acumulada = 95%. O número de parâmetros para PCA de posto K: $Kd + K$ (loadings + variâncias) vs $d^2$ para covariância completa. Grande economia.
Ex. 118.14ModelingAnswer key
Explique o que representam os 3 primeiros PCs da curva de juros (yield curve) brasileira. Por que esses 3 fatores explicam ~99% da variância?
Solve online OpenIntro Statistics · §8.3 · 8.31 · p. 386
Show solution
Level, slope, curvature são os 3 primeiros PCs da yield curve (Litterman-Scheinkman 1991). Level: todos os yields sobem/caem juntos (PC1 com loadings positivos uniformes). Slope: curta maturidade cai, longa sobe (PC2 com loadings crescentes). Curvature: extremos sobem, meio cai — "forma de arco" (PC3). Esses 3 fatores explicam ~99% da variância diária da curva de juros americana e brasileira.
Show step-by-step (with the why)
1. Construa a matriz de yields diários: linhas = dias, colunas = maturidades (1m, 3m, 1a, 2a, 5a, 10a, 30a).
2. Centralize por maturidade e aplique PCA.
3. PC1: loading quase constante em todas as maturidades.
4. PC2: loading crescente (negativo em curta, positivo em longa maturidade).
5. PC3: loading em U invertido (picos nos extremos, vale no meio).
6. Curiosidade: gestores de renda fixa chamam esses fatores de "nível, inclinação e curvatura" do portfólio.
Ex. 118.15Application
Explique a diferença entre fazer PCA com e sem padronização prévia (z-score). Quando você NÃO deve padronizar?
Solve online Understanding Linear Algebra · §7.1 · 7.1.6 · p. 345
Show solution
Padronização faz $\Sigma$ ser a matriz de correlação (diagonal = 1). Sem padronização, features com maior variância dominam as PCs — PC1 é basicamente a feature de maior escala. Com padronização, PCA pondera igualmente a estrutura de correlação. Recomendação: padronize SEMPRE quando features têm escalas diferentes; não padronize apenas se as diferenças de escala são intencionais e comparáveis.
Ex. 118.16Proof
Mostre que a projeção nos K primeiros PCs minimiza o erro de reconstrução quadrático médio entre todas as projeções lineares de posto K. Qual o valor do erro mínimo em termos dos autovalores?
Introduction to Applied Linear Algebra (VMLS) · §10.3 · 10.7 · p. 200
Show solution
Demonstração: seja $P_K = V_K V_K^T$ o projetor ortogonal no espaço das K PCs. Erro quadrático: $\frac{1}{N}\sum_i \|\tilde x_i - P_K \tilde x_i\|^2 = \frac{1}{N}\|\tilde X - \tilde X P_K^T\|_F^2$ . Por Eckart-Young aplicado a $\tilde X$ , o mínimo é atingido quando as K colunas de $P_K$ são os K primeiros vetores singulares — que são as K primeiras PCs. Mínimo = $\sum_{k > K} \sigma_k^2/(N-1) = \sum_{k > K} \lambda_k$ .
Ex. 118.17Application
Autovalores em ordem decrescente: 12, 8, 3, 1, 1, 1, 1, 1. Construa mentalmente o scree plot e identifique o "joelho". Quantas PCs reter para 80% de variância?
Solve online OpenIntro Statistics · §8.3 · 8.28 · p. 384
Show solution
Scree plot: plote $\lambda_k$ (eixo y) vs $k$ (eixo x). O "joelho" é onde a curva muda de acentuada para plana — indica que os PCs além desse ponto contribuem pouco. Para $\lambda = (12, 8, 3, 1, 1, 1, 1, 1)$ (total 28): o joelho está entre k = 2 e k = 3 (de 8 para 3 é uma queda grande). Reter 2 PCs: 71% de variância explicada. Reter 3: 82%.
Ex. 118.18Modeling
Descreva o método Eigenfaces (Turk-Pentland 1991) para reconhecimento facial usando PCA. Que dimensionalidade é alcançada em comparação com os pixels originais?
Solve online Understanding Linear Algebra · §7.2 · 7.2.6 · p. 354
Show solution
Eigenfaces: PCA de rostos centralizados (cada face = vetor de pixels). PC1 = "face média de variação máxima". As K PCs formam base para reconhecimento: projetar um novo rosto no espaço PCA e medir distância ao rosto mais próximo. Com K = 50-100 PCs, taxa de acurácia alta mesmo com N = 400 imagens de 100x100 pixels. Dimensão original: 10000. Reduzida: 50-100. Fator de compressão 100-200x.
Ex. 118.19Application
Qual a diferença conceitual entre PCA e ICA (Independent Component Analysis)? Em que tipo de problema ICA é necessária?
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.1 · 10.6 · p. 194
Show solution
ICA (Independent Component Analysis) vs PCA: PCA encontra direções de máxima variância (segundo momento), ICA encontra componentes estatisticamente independentes (todos os momentos). PCA assume segundo momento suficiente (gaussianidade). ICA é necessária quando as componentes latentes têm distribuições não-gaussianas — ex: separação cega de sinais (cocktail party problem), análise fMRI (sinais neurais não-gaussianos).
Ex. 118.20Application
O que acontece quando a matriz de covariância é a identidade ( $\Sigma = I$ )? O que isso implica para a PCA e a redução de dimensionalidade?
Solve online Understanding Linear Algebra · §7.1 · 7.1.7 · p. 346
Show solution
Se $\Sigma = I$ (identidade — todas as features independentes e com a mesma variância), todos os autovalores são iguais a 1 e qualquer base ortonormal é igualmente boa como conjunto de PCs. PCA não reduz dimensionalidade — não há "direções mais importantes". Isso indica que os dados são já descorrelacionados: não há estrutura de covariância para explorar.
Ex. 118.21Proof
Prove que autovetores de uma matriz simétrica correspondentes a autovalores distintos são ortogonais. Use isso para justificar a ortogonalidade das PCs.
Introduction to Applied Linear Algebra (VMLS) · §10.1 · 10.0 · p. 192
Show solution
Prova da ortogonalidade das PCs para autovalores distintos: sejam $\Sigma v_1 = \lambda_1 v_1$ e $\Sigma v_2 = \lambda_2 v_2$ com $\lambda_1 \neq \lambda_2$ . Então $\lambda_1 v_1^T v_2 = (\Sigma v_1)^T v_2 = v_1^T \Sigma^T v_2 = v_1^T \Sigma v_2 = \lambda_2 v_1^T v_2$ . Portanto $(\lambda_1 - \lambda_2) v_1^T v_2 = 0$ . Como $\lambda_1 \neq \lambda_2$ , então $v_1^T v_2 = 0$ .
Ex. 118.22ModelingAnswer key
Explique o que um biplot de PCA mostra. Como interpretar a direção e comprimento das setas das features e a posição das amostras?
Solve online OpenIntro Statistics · §8.3 · 8.33 · p. 388
Show solution
Biplot PCA: plota simultaneamente os scores (amostras projetadas em PC1/PC2) e os loadings (setas das features em PC1/PC2). Features com seta longa = alta variância naquelas direções. Features com setas paralelas = altamente correlacionadas. Amostras agrupadas = clusters. Seta apontando para grupo de amostras = aquela feature é alta naquelas amostras. Ferramenta padrão de análise exploratória.
Ex. 118.23Application
Por que PCA clássica é sensível a outliers? Qual a ideia de Robust PCA para lidar com esse problema?
Solve online Understanding Linear Algebra · §7.2 · 7.2.8 · p. 356
Show solution
Robust PCA (Candès-Li-Ma-Wright 2011): decompõe $M = L + S$ onde $L$ é de baixo posto (PCA clássica) e $S$ é esparso (outliers). Minimiza $\|L\|_* + \lambda \|S\|_1$ (norma nuclear + L1). PCA clássica é sensível a outliers porque minimiza norma L2 ao quadrado — um único outlier grande domina PC1.
Ex. 118.24Application
Dataset: N = 1000 amostras, d = 100 features padronizadas. PCA com K = 5 PCs explica 80% da variância. Calcule o fator de compressão de dados (razão entre armazenamento original e armazenamento da representação PCA).
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.2 · 10.4b · p. 198
Show solution
Variância total com dados padronizados = d = 100. Após PCA com K = 5 PCs explicando 80%: variância capturada = 80. Para compressão: armazenar scores $Z \in \mathbb{R}^{N \times 5}$ e loadings $V_K \in \mathbb{R}^{100 \times 5}$ e média $\bar x \in \mathbb{R}^{100}$ . Total: $N \times 5 + 100 \times 5 + 100$ floats vs $N \times 100$ original. Para $N = 1000$ : $5100 + 100 = 5600$ vs $100000$ — fator 18x.
Ex. 118.25Challenge
Explique a ideia de Kernel PCA. Como a substituição do produto interno por um kernel permite capturar estrutura não-linear? Qual a complexidade computacional?
Solve online Understanding Linear Algebra · §7.2 · 7.2.10 · p. 358
Show solution
Kernel PCA: substitua o produto interno $x_i^T x_j$ por um kernel $k(x_i, x_j)$ (ex: RBF $e^{-\|x_i - x_j\|^2/(2\gamma)}$ ). A matriz de Gram $K_{ij} = k(x_i, x_j)$ é PSD — PCA dessa matriz equivale a PCA no espaço de features implícito do kernel (Mercer). Permite capturar estrutura não-linear que PCA clássica não vê, com complexidade $O(N^2)$ em vez de $O(Nd)$ .
Ex. 118.26Application
Explique o "dual trick" de PCA: quando $N \ll d$ (mais features do que amostras), como calcular PCA eficientemente? Qual a complexidade em cada caso?
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.3 · 10.8 · p. 201
Show solution
Com N amostras e d features, $\tilde X \in \mathbb{R}^{N \times d}$ . SVD: $U \in \mathbb{R}^{N \times N}$ , $\Sigma_{SVD} \in \mathbb{R}^{N \times d}$ , $V \in \mathbb{R}^{d \times d}$ . Se $N \gg d$ (muitas amostras, poucas features): autodecomposição de $\Sigma_{cov} \in \mathbb{R}^{d \times d}$ é $O(d^3)$ — mais barato que SVD completa. Se $N \ll d$ (dados genômicos): autodecomposição de $\tilde X \tilde X^T \in \mathbb{R}^{N \times N}$ (trick de dualidade) é $O(N^3)$ .
Ex. 118.27Application
PCA dos microdados ENEM 2023 (5 notas: CN, CH, LC, MT, Redação) resultou em PC1 com loadings positivos de magnitude similar para todas as notas. Interprete PC1. O que PC2 poderia representar?
Solve online OpenIntro Statistics · §8.3 · 8.32 · p. 387
Show solution
Interpretação de PC1 no ENEM: se os loadings de PC1 são positivos para todas as notas (CN, CH, LC, MT, redação), PC1 é o "desempenho geral" — o fator que captura a variação comum em todas as provas. Aluno com PC1 alto é bom em tudo. PC2 geralmente distingue desempenho em exatas (MT, CN) vs humanas (CH, LC, redação). PC3 pode distinguir redação das demais notas.
Ex. 118.28Proof
Prove que a variância amostral do k-ésimo score $z_k = \tilde X v_k$ é igual ao k-ésimo autovalor da covariância $\lambda_k$ . Use a conexão com SVD.
Understanding Linear Algebra · §7.2 · 7.2.3 · p. 351
Show solution
Variância dos scores: $\text{Var}(z_k) = \frac{1}{N-1} \sum_i z_{ik}^2 = \frac{1}{N-1} \|\tilde X v_k\|^2$ . Usando SVD $\tilde X = U \Sigma_{SVD} V^T$ : $\tilde X v_k = U \Sigma_{SVD} V^T v_k = \sigma_k u_k$ . Portanto $\text{Var}(z_k) = \sigma_k^2/(N-1) = \lambda_k$ . A variância do k-ésimo score é exatamente o k-ésimo autovalor da covariância.
Ex. 118.29Modeling
No 1000 Genomes Project, PCA de dados genômicos de ~2500 pessoas de 26 populações revela clusters por continente. Explique como isso é possível e o que os 3 primeiros PCs representam geneticamente.
Solve online OpenIntro Statistics · §8.3 · 8.34 · p. 389
Show solution
PCA no 1000 Genomes Project: cada pessoa é representada por vetor de variantes genéticas (SNPs) — d de ~1 milhão de variantes. PCA da matriz genotípica revela estrutura geográfica: PC1 separa europeus de africanos; PC2 separa europeus de asiáticos; PC3 pode separar grupos sub-continentais. A estrutura genética reflete geografia ancestral — PCA recupera, sem supervisão, a história evolutiva e migratória da humanidade.
Ex. 118.30Challenge
Descreva o modelo de Probabilistic PCA (Tipping-Bishop 1999). Quais as vantagens sobre PCA clássica? Como esse modelo se reduz à PCA clássica em um caso limite?
Solve online Introduction to Applied Linear Algebra (VMLS) · §10.3 · 10.9 · p. 202
Show solution
Probabilistic PCA (Tipping-Bishop 1999): modelo generativo latente $x = W z + \mu + \varepsilon$ com $z \sim N(0,I)$ e $\varepsilon \sim N(0, \sigma^2 I)$ . A solução de máxima verossimilhança para W é exatamente as PCs (escaladas). Vantagens: (1) trata dados ausentes (missing data via EM algorithm); (2) fornece log-likelihood para seleção de modelo; (3) gera novos dados via $p(x) = N(\mu, W W^T + \sigma^2 I)$ . Reduz a PCA clássica quando $\sigma^2 \to 0$ .

Fontes

Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Capítulo 7: PCA via SVD, variância explicada, scree plot, aplicações.
Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Cap. 10: teoria rigorosa de PCA, otimalidade, conexão SVD, aplicações ML.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: perspectiva estatística, variância explicada, interpretação de componentes, exercícios de dados reais.