Math ClubMath Club
v1 · padrão canônico

Lección 118 — Análisis de Componentes Principales (PCA)

Hotelling 1933: diagonalizar la matriz de covarianza para encontrar direcciones de máxima varianza. Scores, varianza explicada, scree plot. Conexión con SVD. Aplicación en ML, finanzas, genómica.

Used in: 3.º año de Bachillerato (17-18 años) · Equiv. Stochastik LK alemán · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonés avanzado

Σ=VΛVT,zk=VkT(xxˉ)\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})
Choose your door

Rigorous notation, full derivation, hypotheses

Definición matemática

Setup y covarianza muestral

"The covariance matrix Σ\Sigma is always symmetric and positive semidefinite. Its eigenvalues are nonnegative and the eigenvectors form an orthonormal basis of Rd\mathbb{R}^d." — Introduction to Applied Linear Algebra (VMLS), §10.1

Componentes principales

Optimalidad

"The principal components are the eigenvectors of the data covariance matrix, ordered by decreasing eigenvalue. The first principal component captures the maximum variance; successive components capture maximum residual variance subject to orthogonality." — Understanding Linear Algebra, §7.1

Conexión con SVD

Reconstrucción y error de aproximación

x^i=xˉ+k=1Kzikvk\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k
what this means · Mantener K componentes minimiza el error cuadrático medio de reconstrucción entre todas las proyecciones de rango K (Eckart-Young aplicado a PCA).

Error de reconstrucción: .

Ejemplos resueltos

Exercise list

30 exercises · 7 with worked solution (25%)

Application 17Understanding 3Modeling 5Challenge 2Proof 3
  1. Ex. 118.1Understanding

    ¿Por qué es necesario centralizar los datos (restar la media) antes de aplicar PCA?

  2. Ex. 118.2Application

    Dado , calcula la covarianza y las componentes principales.

  3. Ex. 118.3Application

    Autovalores de : . Calcula la varianza explicada por cada PC y la acumulada. ¿Para cuál la varianza acumulada alcanza 90%?

  4. Ex. 118.4Application

    PCs de un dataset 2D: , . Calcula los scores de en ambas componentes.

  5. Ex. 118.5Application

    Usando los datos del ejercicio anterior, reconstruye reteniendo solo la PC1. ¿Cuál es el error de reconstrucción?

  6. Ex. 118.6UnderstandingAnswer key

    ¿Por qué calcular PCA vía SVD de la matriz de datos es preferible a autodecomponer directamente?

  7. Ex. 118.7ApplicationAnswer key

    Calcula las PCs de . ¿Cuál es la varianza explicada por cada componente?

  8. Ex. 118.8ApplicationAnswer key

    Con datos estandarizados (z-score), ¿cuál es la varianza total? ¿Qué significa el criterio de Kaiser de retener solo PCs con autovalor mayor que 1?

  9. Ex. 118.9Application

    Dataset con autovalores (total 10). Calcula el error cuadrático medio de reconstrucción al mantener K = 1 y K = 2 componentes.

  10. Ex. 118.10Modeling

    PCA de retornos de 10 acciones resultó en PC1 con loading positivo de magnitud similar para todas las acciones. ¿Qué representa PC1 económicamente? ¿Cómo usaría esta información un gestor de portafolio?

  11. Ex. 118.11ApplicationAnswer key

    SVD de con muestras dio valores singulares . Calcula los autovalores correspondientes de la covarianza y la varianza explicada por PC1.

  12. Ex. 118.12UnderstandingAnswer key

    Prueba que los scores de las diferentes componentes principales no están correlacionados entre sí.

  13. Ex. 118.13Application

    Un dataset tiene 50 features estandarizadas. Con K = 10 PCs capturando 95% de la varianza, ¿cuántos parámetros son necesarios para representar la covarianza vía PCA de rango K versus covarianza completa?

  14. Ex. 118.14ModelingAnswer key

    Explica qué representan los 3 primeros PCs de la curva de rendimientos (yield curve) brasileña. ¿Por qué esos 3 factores explican ~99% de la varianza?

  15. Ex. 118.15Application

    Explica la diferencia entre hacer PCA con y sin estandarización previa (z-score). ¿Cuándo NO debes estandarizar?

  16. Ex. 118.16Proof

    Muestra que la proyección en los K primeros PCs minimiza el error cuadrático medio de reconstrucción entre todas las proyecciones lineales de rango K. ¿Cuál es el valor del error mínimo en términos de los autovalores?

  17. Ex. 118.17Application

    Autovalores en orden decreciente: 12, 8, 3, 1, 1, 1, 1, 1. Construye mentalmente el scree plot e identifica el "codo". ¿Cuántos PCs retener para 80% de varianza?

  18. Ex. 118.18Modeling

    Describe el método Eigenfaces (Turk-Pentland 1991) para reconocimiento facial usando PCA. ¿Qué dimensionalidad se alcanza en comparación con los píxeles originales?

  19. Ex. 118.19Application

    ¿Cuál es la diferencia conceptual entre PCA e ICA (Independent Component Analysis)? ¿En qué tipo de problema es necesaria ICA?

  20. Ex. 118.20Application

    ¿Qué ocurre cuando la matriz de covarianza es la identidad ()? ¿Qué implica para PCA y la reducción de dimensionalidad?

  21. Ex. 118.21Proof

    Prueba que autovectores de una matriz simétrica correspondientes a autovalores distintos son ortogonales. Usa esto para justificar la ortogonalidad de los PCs.

  22. Ex. 118.22ModelingAnswer key

    Explica qué muestra un biplot de PCA. ¿Cómo interpretar la dirección y largo de las flechas de las features y la posición de las muestras?

  23. Ex. 118.23Application

    ¿Por qué PCA clásica es sensible a outliers? ¿Cuál es la idea de Robust PCA para tratar este problema?

  24. Ex. 118.24Application

    Dataset: N = 1000 muestras, d = 100 features estandarizadas. PCA con K = 5 PCs explica 80% de la varianza. Calcula el factor de compresión de datos (razón entre almacenamiento original y almacenamiento de la representación PCA).

  25. Ex. 118.25Challenge

    Explica la idea de Kernel PCA. ¿Cómo la sustitución del producto interno por un kernel permite capturar estructura no-lineal? ¿Cuál es la complejidad computacional?

  26. Ex. 118.26Application

    Explica el "truco dual" de PCA: cuando (más features que muestras), ¿cómo calcular PCA eficientemente? ¿Cuál es la complejidad en cada caso?

  27. Ex. 118.27Application

    PCA de los microdatos ENEM 2023 (5 calificaciones: CN, CH, LC, MT, Redacción) resultó en PC1 con loadings positivos de magnitud similar para todas las calificaciones. Interpreta PC1. ¿Qué podría representar PC2?

  28. Ex. 118.28Proof

    Prueba que la varianza muestral del k-ésimo score es igual al k-ésimo autovalor de la covarianza . Usa la conexión con SVD.

  29. Ex. 118.29Modeling

    En el 1000 Genomes Project, PCA de datos genómicos de ~2500 personas de 26 poblaciones revela clusters por continente. Explica cómo es posible y qué representan los 3 primeros PCs genéticamente.

  30. Ex. 118.30Challenge

    Describe el modelo de Probabilistic PCA (Tipping-Bishop 1999). ¿Cuáles son las ventajas sobre PCA clásica? ¿Cómo se reduce este modelo a PCA clásica en un caso límite?

Fuentes

  • Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Capítulo 7: PCA vía SVD, varianza explicada, scree plot, aplicaciones.
  • Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Cap. 10: teoría rigurosa de PCA, optimalidad, conexión SVD, aplicaciones ML.
  • OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: perspectiva estadística, varianza explicada, interpretación de componentes, ejercicios de datos reales.

Updated on 2026-05-11 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.