v1 · padrão canônico

Lição 118 — Análise de Componentes Principais (PCA)

Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado

\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})

Choose your door

Rigorous notation, full derivation, hypotheses

Mathematische Definition

Setup und Stichproben-Kovarianzmatrix

"The covariance matrix $\Sigma$ is always symmetric and positive semidefinite. Its eigenvalues are nonnegative and the eigenvectors form an orthonormal basis of $\mathbb{R}^d$ ." — Introduction to Applied Linear Algebra (VMLS), §10.1

Optimalität

"The principal components are the eigenvectors of the data covariance matrix, ordered by decreasing eigenvalue. The first principal component captures the maximum variance; successive components capture maximum residual variance subject to orthogonality." — Understanding Linear Algebra, §7.1

Rekonstruktion und Approximationsfehler

\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k

what this means · Das Beibehalten von K Komponenten minimiert den mittleren quadratischen Rekonstruktionsfehler unter allen Rang-K-Projektionen (Eckart-Young auf PCA angewendet).

Rekonstruktionsfehler: .

Gelöste Beispiele

Example— 3· Erklärte Varianz und Scree-Plot

Problem. Eine PCA-Analyse von 50 Variablen ergibt die 5 größten Eigenwerte: 15, 8, 4, 2, 1. Gesamtvarianz = 50 (standardisierte Daten, jede Variable hat Varianz 1). Berechne: (a) Varianz erklärt von jeder PC; (b) kumulierte Varianz; (c) welches K für 90% wählen.

Strategie. Einfache Proportionen, dann kumulierte Summe.

Lösung.

(a) ExpVar(k): 15/50 = 30%, 8/50 = 16%, 4/50 = 8%, 2/50 = 4%, 1/50 = 2%.

(b) Kumuliert: 30%, 46%, 54%, 58%, 60%.

(c) Nach 5 PCs, kumulativ = 60% — nicht ausreichend für 90%. Die anderen 45 PCs summieren 40%. Für 90% würden wir wahrscheinlich ~15-20 PCs brauchen (hängt von der Verteilung der restlichen Eigenwerte ab).

Verifikation. Summe der 5 Teile = 60%, konsistent mit verbleibender Varianz von 40%. ✓

Quelle. OpenIntro Statistics, §8.3 Übung 8.27 — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA.

Example— 5· PCA angewendet auf brasilianische Aktienrenditen

Problem. Du hast tägliche Renditen von 5 B3-Aktien (PETR4, VALE3, ITUB4, BBDC4, WEGE3) über 252 Tage. Die Kovarianzmatrix (annualisiert, in %) ist:

Die 3 größten Eigenwerte sind ungefähr 82, 23, 11. Berechne: (a) Gesamtvarianz; (b) Varianz erklärt durch die 3 PCs; (c) ökonomische Interpretation.

Strategie. Gesamtvarianz = Spur von ; erklärte Varianz = Anteil der Eigenwerte.

Lösung.

(a) Gesamtvarianz: .

(b) 3 PCs erklären: .

(c) PC1 (82/140 = 58,6%): positiv korreliert mit allen Aktien — Marktfaktor ("Beta"). PC2 (23/140 = 16,4%): wahrscheinlich unterscheidet Rohstoffe (PETR4, VALE3) von Finanzwerten (ITUB4, BBDC4). PC3: verbleibende idiosynkratische Risiken.

Verifikation. 3 der 5 Komponenten erklären 82,9% — konsistent mit empirischen Studien von brasilianischen Yield Curves mit Dominanz der ersten PCs.

Quelle. OpenIntro Statistics, §8.3 — Diez et al. · CC-BY-SA. Kovarianzstruktur motiviert durch empirische Ergebnisse von Schwellenländer-Märkten.

Exercise list

30 exercises · 7 with worked solution (25%)

Application 17Understanding 3Modeling 5Challenge 2Proof 3

Ex. 118.1Understanding
Warum ist es notwendig, die Daten zu zentrieren (den Mittelwert abzuziehen), bevor PCA angewendet wird?
Solve online
Ex. 118.2Application
Gegeben , berechne die Kovarianz und die Hauptkomponenten.
Solve online
Ex. 118.3Application
Eigenwerte von : . Berechne die Varianz erklärt von jeder PC und die Kumulativwerte. Für welches erreicht die kumulierte Varianz 90%?
Solve online
Ex. 118.4Application
PCs eines 2D-Datensatzes: , . Berechne die Scores von in beiden Komponenten.
Solve online
Ex. 118.5Application
Nutze die Daten der vorherigen Übung, rekonstruiere mit nur PC1. Wie groß ist der Rekonstruktionsfehler?
Solve online
Ex. 118.6UnderstandingAnswer key
Warum ist es vorzuziehen, PCA via SVD der Datenmatrix zu berechnen anstatt direkt zu eigenzerlegten?
Solve online
Ex. 118.7ApplicationAnswer key
Berechne die PCs von . Welche Varianz wird durch jede Komponente erklärt?
Solve online
Ex. 118.8ApplicationAnswer key
Mit standardisierten Daten (z-Score), wie groß ist die Gesamtvarianz? Was bedeutet das Kaiser-Kriterium, nur PCs mit Eigenwert größer als 1 zu behalten?
Solve online
Ex. 118.9Application
Datensatz mit Eigenwerten (Total 10). Berechne den mittleren quadratischen Rekonstruktionsfehler beim Behalten von K = 1 und K = 2 Komponenten.
Solve online
Ex. 118.10Modeling
PCA von Renditen von 10 Aktien ergab PC1 mit positivem Loading von ähnlicher Größe für alle Aktien. Was repräsentiert PC1 ökonomisch? Wie würde ein Portfolio-Manager diese Information nutzen?
Solve online
Ex. 118.11ApplicationAnswer key
SVD von mit Stichproben ergab Singulärwerte . Berechne die entsprechenden Eigenwerte der Kovarianz und die Varianz erklärt durch PC1.
Solve online
Ex. 118.12UnderstandingAnswer key
Beweise, dass die Scores verschiedener Hauptkomponenten untereinander unkorreliert sind.
Solve online
Ex. 118.13Application
Ein Datensatz hat 50 standardisierte Features. Mit K = 10 PCs, die 95% der Varianz erfassen, wie viele Parameter sind notwendig, um die Kovarianz via Rang-K-PCA gegenüber vollständiger Kovarianz zu repräsentieren?
Solve online
Ex. 118.14ModelingAnswer key
Erkläre, was die 3 ersten PCs der brasilianischen Zinsstruktur repräsentieren. Warum erklären diese 3 Faktoren ~99% der Varianz?
Solve online
Ex. 118.15Application
Erkläre den Unterschied zwischen PCA mit und ohne vorherige Standardisierung (z-Score). Wann solltest du NICHT standardisieren?
Solve online
Ex. 118.16Proof
Zeige, dass die Projektion auf die K ersten PCs den mittleren quadratischen Rekonstruktionsfehler unter allen linearen Rang-K-Projektionen minimiert. Wie groß ist der Minimalfehler in Termen der Eigenwerte?
Solve online
Ex. 118.17Application
Eigenwerte in absteigender Reihenfolge: 12, 8, 3, 1, 1, 1, 1, 1. Konstruiere mental den Scree-Plot und identifiziere den "Knick". Wie viele PCs solltest du behalten für 80% Varianz?
Solve online
Ex. 118.18Modeling
Beschreibe die Eigenfaces-Methode (Turk-Pentland 1991) für Gesichtserkennung mittels PCA. Welche Dimensionaliät wird im Vergleich zu Original-Pixeln erreicht?
Solve online
Ex. 118.19Application
Was ist der konzeptuelle Unterschied zwischen PCA und ICA (Independent Component Analysis)? In welcher Art Problem ist ICA notwendig?
Solve online
Ex. 118.20Application
Was passiert wenn die Kovarianzmatrix die Identität ist ()? Was impliziert das für PCA und Dimensionsreduktion?
Solve online
Ex. 118.21Proof
Beweise, dass Eigenvektoren einer symmetrischen Matrix zu verschiedenen Eigenwerten orthogonal sind. Nutze dies um die Orthogonalität der PCs zu rechtfertigen.
Solve online
Ex. 118.22ModelingAnswer key
Erkläre was ein Biplot von PCA zeigt. Wie interpretierst du Richtung und Länge der Feature-Pfeile und die Position der Stichproben?
Solve online
Ex. 118.23Application
Warum ist klassische PCA sensibel für Ausreißer? Wie geht Robust PCA mit diesem Problem um?
Solve online
Ex. 118.24Application
Datensatz: N = 1000 Stichproben, d = 100 standardisierte Features. PCA mit K = 5 PCs erklärt 80% der Varianz. Berechne den Kompressionsfaktor von Daten (Verhältnis zwischen Original- und PCA-Repräsentations-Speicherung).
Solve online
Ex. 118.25Challenge
Erkläre die Idee von Kernel PCA. Wie erlaubt die Ersetzung des Skalarprodukts durch einen Kernel nicht-lineare Struktur zu erfassen? Was ist die Rechenkomplexität?
Solve online
Ex. 118.26Application
Erkläre den "Dual Trick" von PCA: wenn (mehr Features als Stichproben), wie berechnest du PCA effizient? Wie groß ist die Komplexität in jedem Fall?
Solve online
Ex. 118.27Application
PCA von ENEM-2023-Mikrodaten (5 Noten: CN, CH, LC, MT, Aufsatz) ergab PC1 mit positiven Loadings ähnlicher Größe für alle Noten. Interpretiere PC1. Was könnte PC2 repräsentieren?
Solve online
Ex. 118.28Proof
Beweise dass die Stichproben-Varianz des k-ten Scores gleich dem k-ten Eigenwert der Kovarianz ist. Nutze die Verbindung zu SVD.
Solve online
Ex. 118.29Modeling
Im 1000 Genomes Project zeigt PCA von Genomdaten von ~2500 Menschen aus 26 Populationen Cluster pro Kontinent. Erkläre wie das möglich ist und was die 3 ersten PCs genetisch repräsentieren.
Solve online
Ex. 118.30Challenge
Beschreibe das Probabilistic PCA-Modell (Tipping-Bishop 1999). Welche Vorteile hat es gegenüber klassischer PCA? Wie reduziert sich dieses Modell zur klassischen PCA in einem Grenzfall?
Solve online

Quellen

Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Kapitel 7: PCA via SVD, erklärte Varianz, Scree-Plot, Anwendungen.
Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Kap. 10: rigorose Theorie von PCA, Optimalität, SVD-Verbindung, ML-Anwendungen.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: statistische Perspektive, erklärte Varianz, Interpretation von Komponenten, Übungen mit echten Daten.