Math ClubMath Club
v1 · padrão canônico

Lição 118 — Análise de Componentes Principais (PCA)

Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado

Σ=VΛVT,zk=VkT(xxˉ)\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})
Choose your door

Rigorous notation, full derivation, hypotheses

Mathematische Definition

Setup und Stichproben-Kovarianzmatrix

"The covariance matrix Σ\Sigma is always symmetric and positive semidefinite. Its eigenvalues are nonnegative and the eigenvectors form an orthonormal basis of Rd\mathbb{R}^d." — Introduction to Applied Linear Algebra (VMLS), §10.1

Hauptkomponenten

Optimalität

"The principal components are the eigenvectors of the data covariance matrix, ordered by decreasing eigenvalue. The first principal component captures the maximum variance; successive components capture maximum residual variance subject to orthogonality." — Understanding Linear Algebra, §7.1

Verbindung zu SVD

Rekonstruktion und Approximationsfehler

x^i=xˉ+k=1Kzikvk\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k
what this means · Das Beibehalten von K Komponenten minimiert den mittleren quadratischen Rekonstruktionsfehler unter allen Rang-K-Projektionen (Eckart-Young auf PCA angewendet).

Rekonstruktionsfehler: .

Gelöste Beispiele

Exercise list

30 exercises · 7 with worked solution (25%)

Application 17Understanding 3Modeling 5Challenge 2Proof 3
  1. Ex. 118.1Understanding

    Warum ist es notwendig, die Daten zu zentrieren (den Mittelwert abzuziehen), bevor PCA angewendet wird?

  2. Ex. 118.2Application

    Gegeben , berechne die Kovarianz und die Hauptkomponenten.

  3. Ex. 118.3Application

    Eigenwerte von : . Berechne die Varianz erklärt von jeder PC und die Kumulativwerte. Für welches erreicht die kumulierte Varianz 90%?

  4. Ex. 118.4Application

    PCs eines 2D-Datensatzes: , . Berechne die Scores von in beiden Komponenten.

  5. Ex. 118.5Application

    Nutze die Daten der vorherigen Übung, rekonstruiere mit nur PC1. Wie groß ist der Rekonstruktionsfehler?

  6. Ex. 118.6UnderstandingAnswer key

    Warum ist es vorzuziehen, PCA via SVD der Datenmatrix zu berechnen anstatt direkt zu eigenzerlegten?

  7. Ex. 118.7ApplicationAnswer key

    Berechne die PCs von . Welche Varianz wird durch jede Komponente erklärt?

  8. Ex. 118.8ApplicationAnswer key

    Mit standardisierten Daten (z-Score), wie groß ist die Gesamtvarianz? Was bedeutet das Kaiser-Kriterium, nur PCs mit Eigenwert größer als 1 zu behalten?

  9. Ex. 118.9Application

    Datensatz mit Eigenwerten (Total 10). Berechne den mittleren quadratischen Rekonstruktionsfehler beim Behalten von K = 1 und K = 2 Komponenten.

  10. Ex. 118.10Modeling

    PCA von Renditen von 10 Aktien ergab PC1 mit positivem Loading von ähnlicher Größe für alle Aktien. Was repräsentiert PC1 ökonomisch? Wie würde ein Portfolio-Manager diese Information nutzen?

  11. Ex. 118.11ApplicationAnswer key

    SVD von mit Stichproben ergab Singulärwerte . Berechne die entsprechenden Eigenwerte der Kovarianz und die Varianz erklärt durch PC1.

  12. Ex. 118.12UnderstandingAnswer key

    Beweise, dass die Scores verschiedener Hauptkomponenten untereinander unkorreliert sind.

  13. Ex. 118.13Application

    Ein Datensatz hat 50 standardisierte Features. Mit K = 10 PCs, die 95% der Varianz erfassen, wie viele Parameter sind notwendig, um die Kovarianz via Rang-K-PCA gegenüber vollständiger Kovarianz zu repräsentieren?

  14. Ex. 118.14ModelingAnswer key

    Erkläre, was die 3 ersten PCs der brasilianischen Zinsstruktur repräsentieren. Warum erklären diese 3 Faktoren ~99% der Varianz?

  15. Ex. 118.15Application

    Erkläre den Unterschied zwischen PCA mit und ohne vorherige Standardisierung (z-Score). Wann solltest du NICHT standardisieren?

  16. Ex. 118.16Proof

    Zeige, dass die Projektion auf die K ersten PCs den mittleren quadratischen Rekonstruktionsfehler unter allen linearen Rang-K-Projektionen minimiert. Wie groß ist der Minimalfehler in Termen der Eigenwerte?

  17. Ex. 118.17Application

    Eigenwerte in absteigender Reihenfolge: 12, 8, 3, 1, 1, 1, 1, 1. Konstruiere mental den Scree-Plot und identifiziere den "Knick". Wie viele PCs solltest du behalten für 80% Varianz?

  18. Ex. 118.18Modeling

    Beschreibe die Eigenfaces-Methode (Turk-Pentland 1991) für Gesichtserkennung mittels PCA. Welche Dimensionaliät wird im Vergleich zu Original-Pixeln erreicht?

  19. Ex. 118.19Application

    Was ist der konzeptuelle Unterschied zwischen PCA und ICA (Independent Component Analysis)? In welcher Art Problem ist ICA notwendig?

  20. Ex. 118.20Application

    Was passiert wenn die Kovarianzmatrix die Identität ist ()? Was impliziert das für PCA und Dimensionsreduktion?

  21. Ex. 118.21Proof

    Beweise, dass Eigenvektoren einer symmetrischen Matrix zu verschiedenen Eigenwerten orthogonal sind. Nutze dies um die Orthogonalität der PCs zu rechtfertigen.

  22. Ex. 118.22ModelingAnswer key

    Erkläre was ein Biplot von PCA zeigt. Wie interpretierst du Richtung und Länge der Feature-Pfeile und die Position der Stichproben?

  23. Ex. 118.23Application

    Warum ist klassische PCA sensibel für Ausreißer? Wie geht Robust PCA mit diesem Problem um?

  24. Ex. 118.24Application

    Datensatz: N = 1000 Stichproben, d = 100 standardisierte Features. PCA mit K = 5 PCs erklärt 80% der Varianz. Berechne den Kompressionsfaktor von Daten (Verhältnis zwischen Original- und PCA-Repräsentations-Speicherung).

  25. Ex. 118.25Challenge

    Erkläre die Idee von Kernel PCA. Wie erlaubt die Ersetzung des Skalarprodukts durch einen Kernel nicht-lineare Struktur zu erfassen? Was ist die Rechenkomplexität?

  26. Ex. 118.26Application

    Erkläre den "Dual Trick" von PCA: wenn (mehr Features als Stichproben), wie berechnest du PCA effizient? Wie groß ist die Komplexität in jedem Fall?

  27. Ex. 118.27Application

    PCA von ENEM-2023-Mikrodaten (5 Noten: CN, CH, LC, MT, Aufsatz) ergab PC1 mit positiven Loadings ähnlicher Größe für alle Noten. Interpretiere PC1. Was könnte PC2 repräsentieren?

  28. Ex. 118.28Proof

    Beweise dass die Stichproben-Varianz des k-ten Scores gleich dem k-ten Eigenwert der Kovarianz ist. Nutze die Verbindung zu SVD.

  29. Ex. 118.29Modeling

    Im 1000 Genomes Project zeigt PCA von Genomdaten von ~2500 Menschen aus 26 Populationen Cluster pro Kontinent. Erkläre wie das möglich ist und was die 3 ersten PCs genetisch repräsentieren.

  30. Ex. 118.30Challenge

    Beschreibe das Probabilistic PCA-Modell (Tipping-Bishop 1999). Welche Vorteile hat es gegenüber klassischer PCA? Wie reduziert sich dieses Modell zur klassischen PCA in einem Grenzfall?

Quellen

  • Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Kapitel 7: PCA via SVD, erklärte Varianz, Scree-Plot, Anwendungen.
  • Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Kap. 10: rigorose Theorie von PCA, Optimalität, SVD-Verbindung, ML-Anwendungen.
  • OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: statistische Perspektive, erklärte Varianz, Interpretation von Komponenten, Übungen mit echten Daten.

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.