v1 · padrão canônico

Lección 118 — Análisis de Componentes Principales (PCA)

Hotelling 1933: diagonalizar la matriz de covarianza para encontrar direcciones de máxima varianza. Scores, varianza explicada, scree plot. Conexión con SVD. Aplicación en ML, finanzas, genómica.

Used in: 3.º año de Bachillerato (17-18 años) · Equiv. Stochastik LK alemán · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonés avanzado

\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})

Choose your door

Rigorous notation, full derivation, hypotheses

Definición matemática

Setup y covarianza muestral

"The covariance matrix $\Sigma$ is always symmetric and positive semidefinite. Its eigenvalues are nonnegative and the eigenvectors form an orthonormal basis of $\mathbb{R}^d$ ." — Introduction to Applied Linear Algebra (VMLS), §10.1

Optimalidad

"The principal components are the eigenvectors of the data covariance matrix, ordered by decreasing eigenvalue. The first principal component captures the maximum variance; successive components capture maximum residual variance subject to orthogonality." — Understanding Linear Algebra, §7.1

Reconstrucción y error de aproximación

\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k

what this means · Mantener K componentes minimiza el error cuadrático medio de reconstrucción entre todas las proyecciones de rango K (Eckart-Young aplicado a PCA).

Error de reconstrucción: .

Ejemplos resueltos

Example— 3· Varianza explicada y scree plot

Problema. Un análisis PCA de 50 variables resulta en los 5 mayores autovalores: 15, 8, 4, 2, 1. Varianza total = 50 (datos estandarizados, cada variable tiene varianza 1). Calcula: (a) varianza explicada por cada PC; (b) varianza acumulada; (c) cuál K elegir para 90%.

Estrategia. Proporción simple, después suma acumulada.

Resolución.

(a) ExpVar(k): 15/50 = 30%, 8/50 = 16%, 4/50 = 8%, 2/50 = 4%, 1/50 = 2%.

(b) Acumulada: 30%, 46%, 54%, 58%, 60%.

(c) Después de 5 PCs, acumulada = 60% — insuficiente para 90%. Las otras 45 PCs suman 40% restante. Para 90% probablemente necesitarías ~15-20 PCs (dependiendo de la distribución de los autovalores restantes).

Verificación. Suma de las 5 parcelas = 60%, coherente con varianza total restante de 40%. ✓

Fuente. OpenIntro Statistics, §8.3 Ejercicio 8.27 — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA.

Example— 5· PCA aplicada a retornos de acciones brasileñas

Problema. Tienes retornos diarios de 5 acciones de la B3 (PETR4, VALE3, ITUB4, BBDC4, WEGE3) por 252 días. La matriz de covarianza (anualizada, en %) es:

Los 3 mayores autovalores son aproximadamente 82, 23, 11. Calcula: (a) varianza total; (b) varianza explicada por las 3 PCs; (c) interpretación económica.

Estrategia. Varianza total = traza de ; varianza explicada = proporción de los autovalores.

Resolución.

(a) Varianza total: .

(b) 3 PCs explican: .

(c) PC1 (82/140 = 58,6%): correlacionada positivamente con todas las acciones — factor de mercado ("beta"). PC2 (23/140 = 16,4%): probablemente diferencia commodities (PETR4, VALE3) de financieros (ITUB4, BBDC4). PC3: riesgo idiosincráico restante.

Verificación. 3 de los 5 componentes explican 82,9% — consistente con estudios empíricos de curvas de rendimientos brasileñas mostrando dominancia de los primeros PCs.

Fuente. OpenIntro Statistics, §8.3 — Diez et al. · CC-BY-SA. Estructura de covarianza motivada por resultados empíricos de mercados emergentes.

Exercise list

30 exercises · 7 with worked solution (25%)

Application 17Understanding 3Modeling 5Challenge 2Proof 3

Ex. 118.1Understanding
¿Por qué es necesario centralizar los datos (restar la media) antes de aplicar PCA?
Solve online
Ex. 118.2Application
Dado , calcula la covarianza y las componentes principales.
Solve online
Ex. 118.3Application
Autovalores de : . Calcula la varianza explicada por cada PC y la acumulada. ¿Para cuál la varianza acumulada alcanza 90%?
Solve online
Ex. 118.4Application
PCs de un dataset 2D: , . Calcula los scores de en ambas componentes.
Solve online
Ex. 118.5Application
Usando los datos del ejercicio anterior, reconstruye reteniendo solo la PC1. ¿Cuál es el error de reconstrucción?
Solve online
Ex. 118.6UnderstandingAnswer key
¿Por qué calcular PCA vía SVD de la matriz de datos es preferible a autodecomponer directamente?
Solve online
Ex. 118.7ApplicationAnswer key
Calcula las PCs de . ¿Cuál es la varianza explicada por cada componente?
Solve online
Ex. 118.8ApplicationAnswer key
Con datos estandarizados (z-score), ¿cuál es la varianza total? ¿Qué significa el criterio de Kaiser de retener solo PCs con autovalor mayor que 1?
Solve online
Ex. 118.9Application
Dataset con autovalores (total 10). Calcula el error cuadrático medio de reconstrucción al mantener K = 1 y K = 2 componentes.
Solve online
Ex. 118.10Modeling
PCA de retornos de 10 acciones resultó en PC1 con loading positivo de magnitud similar para todas las acciones. ¿Qué representa PC1 económicamente? ¿Cómo usaría esta información un gestor de portafolio?
Solve online
Ex. 118.11ApplicationAnswer key
SVD de con muestras dio valores singulares . Calcula los autovalores correspondientes de la covarianza y la varianza explicada por PC1.
Solve online
Ex. 118.12UnderstandingAnswer key
Prueba que los scores de las diferentes componentes principales no están correlacionados entre sí.
Solve online
Ex. 118.13Application
Un dataset tiene 50 features estandarizadas. Con K = 10 PCs capturando 95% de la varianza, ¿cuántos parámetros son necesarios para representar la covarianza vía PCA de rango K versus covarianza completa?
Solve online
Ex. 118.14ModelingAnswer key
Explica qué representan los 3 primeros PCs de la curva de rendimientos (yield curve) brasileña. ¿Por qué esos 3 factores explican ~99% de la varianza?
Solve online
Ex. 118.15Application
Explica la diferencia entre hacer PCA con y sin estandarización previa (z-score). ¿Cuándo NO debes estandarizar?
Solve online
Ex. 118.16Proof
Muestra que la proyección en los K primeros PCs minimiza el error cuadrático medio de reconstrucción entre todas las proyecciones lineales de rango K. ¿Cuál es el valor del error mínimo en términos de los autovalores?
Solve online
Ex. 118.17Application
Autovalores en orden decreciente: 12, 8, 3, 1, 1, 1, 1, 1. Construye mentalmente el scree plot e identifica el "codo". ¿Cuántos PCs retener para 80% de varianza?
Solve online
Ex. 118.18Modeling
Describe el método Eigenfaces (Turk-Pentland 1991) para reconocimiento facial usando PCA. ¿Qué dimensionalidad se alcanza en comparación con los píxeles originales?
Solve online
Ex. 118.19Application
¿Cuál es la diferencia conceptual entre PCA e ICA (Independent Component Analysis)? ¿En qué tipo de problema es necesaria ICA?
Solve online
Ex. 118.20Application
¿Qué ocurre cuando la matriz de covarianza es la identidad ()? ¿Qué implica para PCA y la reducción de dimensionalidad?
Solve online
Ex. 118.21Proof
Prueba que autovectores de una matriz simétrica correspondientes a autovalores distintos son ortogonales. Usa esto para justificar la ortogonalidad de los PCs.
Solve online
Ex. 118.22ModelingAnswer key
Explica qué muestra un biplot de PCA. ¿Cómo interpretar la dirección y largo de las flechas de las features y la posición de las muestras?
Solve online
Ex. 118.23Application
¿Por qué PCA clásica es sensible a outliers? ¿Cuál es la idea de Robust PCA para tratar este problema?
Solve online
Ex. 118.24Application
Dataset: N = 1000 muestras, d = 100 features estandarizadas. PCA con K = 5 PCs explica 80% de la varianza. Calcula el factor de compresión de datos (razón entre almacenamiento original y almacenamiento de la representación PCA).
Solve online
Ex. 118.25Challenge
Explica la idea de Kernel PCA. ¿Cómo la sustitución del producto interno por un kernel permite capturar estructura no-lineal? ¿Cuál es la complejidad computacional?
Solve online
Ex. 118.26Application
Explica el "truco dual" de PCA: cuando (más features que muestras), ¿cómo calcular PCA eficientemente? ¿Cuál es la complejidad en cada caso?
Solve online
Ex. 118.27Application
PCA de los microdatos ENEM 2023 (5 calificaciones: CN, CH, LC, MT, Redacción) resultó en PC1 con loadings positivos de magnitud similar para todas las calificaciones. Interpreta PC1. ¿Qué podría representar PC2?
Solve online
Ex. 118.28Proof
Prueba que la varianza muestral del k-ésimo score es igual al k-ésimo autovalor de la covarianza . Usa la conexión con SVD.
Solve online
Ex. 118.29Modeling
En el 1000 Genomes Project, PCA de datos genómicos de ~2500 personas de 26 poblaciones revela clusters por continente. Explica cómo es posible y qué representan los 3 primeros PCs genéticamente.
Solve online
Ex. 118.30Challenge
Describe el modelo de Probabilistic PCA (Tipping-Bishop 1999). ¿Cuáles son las ventajas sobre PCA clásica? ¿Cómo se reduce este modelo a PCA clásica en un caso límite?
Solve online

Fuentes

Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Capítulo 7: PCA vía SVD, varianza explicada, scree plot, aplicaciones.
Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Cap. 10: teoría rigurosa de PCA, optimalidad, conexión SVD, aplicaciones ML.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: perspectiva estadística, varianza explicada, interpretación de componentes, ejercicios de datos reales.