Lição 118 — Análise de Componentes Principais (PCA)
Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado
Rigorous notation, full derivation, hypotheses
Mathematische Definition
Setup und Stichproben-Kovarianzmatrix
"The covariance matrix is always symmetric and positive semidefinite. Its eigenvalues are nonnegative and the eigenvectors form an orthonormal basis of ." — Introduction to Applied Linear Algebra (VMLS), §10.1
Hauptkomponenten
Optimalität
"The principal components are the eigenvectors of the data covariance matrix, ordered by decreasing eigenvalue. The first principal component captures the maximum variance; successive components capture maximum residual variance subject to orthogonality." — Understanding Linear Algebra, §7.1
Verbindung zu SVD
Rekonstruktion und Approximationsfehler
Rekonstruktionsfehler: .
Gelöste Beispiele
Exercise list
30 exercises · 7 with worked solution (25%)
- Ex. 118.1Understanding
Warum ist es notwendig, die Daten zu zentrieren (den Mittelwert abzuziehen), bevor PCA angewendet wird?
- Ex. 118.2Application
Gegeben , berechne die Kovarianz und die Hauptkomponenten.
- Ex. 118.3Application
Eigenwerte von : . Berechne die Varianz erklärt von jeder PC und die Kumulativwerte. Für welches erreicht die kumulierte Varianz 90%?
- Ex. 118.4Application
PCs eines 2D-Datensatzes: , . Berechne die Scores von in beiden Komponenten.
- Ex. 118.5Application
Nutze die Daten der vorherigen Übung, rekonstruiere mit nur PC1. Wie groß ist der Rekonstruktionsfehler?
- Ex. 118.6UnderstandingAnswer key
Warum ist es vorzuziehen, PCA via SVD der Datenmatrix zu berechnen anstatt direkt zu eigenzerlegten?
- Ex. 118.7ApplicationAnswer key
Berechne die PCs von . Welche Varianz wird durch jede Komponente erklärt?
- Ex. 118.8ApplicationAnswer key
Mit standardisierten Daten (z-Score), wie groß ist die Gesamtvarianz? Was bedeutet das Kaiser-Kriterium, nur PCs mit Eigenwert größer als 1 zu behalten?
- Ex. 118.9Application
Datensatz mit Eigenwerten (Total 10). Berechne den mittleren quadratischen Rekonstruktionsfehler beim Behalten von K = 1 und K = 2 Komponenten.
- Ex. 118.10Modeling
PCA von Renditen von 10 Aktien ergab PC1 mit positivem Loading von ähnlicher Größe für alle Aktien. Was repräsentiert PC1 ökonomisch? Wie würde ein Portfolio-Manager diese Information nutzen?
- Ex. 118.11ApplicationAnswer key
SVD von mit Stichproben ergab Singulärwerte . Berechne die entsprechenden Eigenwerte der Kovarianz und die Varianz erklärt durch PC1.
- Ex. 118.12UnderstandingAnswer key
Beweise, dass die Scores verschiedener Hauptkomponenten untereinander unkorreliert sind.
- Ex. 118.13Application
Ein Datensatz hat 50 standardisierte Features. Mit K = 10 PCs, die 95% der Varianz erfassen, wie viele Parameter sind notwendig, um die Kovarianz via Rang-K-PCA gegenüber vollständiger Kovarianz zu repräsentieren?
- Ex. 118.14ModelingAnswer key
Erkläre, was die 3 ersten PCs der brasilianischen Zinsstruktur repräsentieren. Warum erklären diese 3 Faktoren ~99% der Varianz?
- Ex. 118.15Application
Erkläre den Unterschied zwischen PCA mit und ohne vorherige Standardisierung (z-Score). Wann solltest du NICHT standardisieren?
- Ex. 118.16Proof
Zeige, dass die Projektion auf die K ersten PCs den mittleren quadratischen Rekonstruktionsfehler unter allen linearen Rang-K-Projektionen minimiert. Wie groß ist der Minimalfehler in Termen der Eigenwerte?
- Ex. 118.17Application
Eigenwerte in absteigender Reihenfolge: 12, 8, 3, 1, 1, 1, 1, 1. Konstruiere mental den Scree-Plot und identifiziere den "Knick". Wie viele PCs solltest du behalten für 80% Varianz?
- Ex. 118.18Modeling
Beschreibe die Eigenfaces-Methode (Turk-Pentland 1991) für Gesichtserkennung mittels PCA. Welche Dimensionaliät wird im Vergleich zu Original-Pixeln erreicht?
- Ex. 118.19Application
Was ist der konzeptuelle Unterschied zwischen PCA und ICA (Independent Component Analysis)? In welcher Art Problem ist ICA notwendig?
- Ex. 118.20Application
Was passiert wenn die Kovarianzmatrix die Identität ist ()? Was impliziert das für PCA und Dimensionsreduktion?
- Ex. 118.21Proof
Beweise, dass Eigenvektoren einer symmetrischen Matrix zu verschiedenen Eigenwerten orthogonal sind. Nutze dies um die Orthogonalität der PCs zu rechtfertigen.
- Ex. 118.22ModelingAnswer key
Erkläre was ein Biplot von PCA zeigt. Wie interpretierst du Richtung und Länge der Feature-Pfeile und die Position der Stichproben?
- Ex. 118.23Application
Warum ist klassische PCA sensibel für Ausreißer? Wie geht Robust PCA mit diesem Problem um?
- Ex. 118.24Application
Datensatz: N = 1000 Stichproben, d = 100 standardisierte Features. PCA mit K = 5 PCs erklärt 80% der Varianz. Berechne den Kompressionsfaktor von Daten (Verhältnis zwischen Original- und PCA-Repräsentations-Speicherung).
- Ex. 118.25Challenge
Erkläre die Idee von Kernel PCA. Wie erlaubt die Ersetzung des Skalarprodukts durch einen Kernel nicht-lineare Struktur zu erfassen? Was ist die Rechenkomplexität?
- Ex. 118.26Application
Erkläre den "Dual Trick" von PCA: wenn (mehr Features als Stichproben), wie berechnest du PCA effizient? Wie groß ist die Komplexität in jedem Fall?
- Ex. 118.27Application
PCA von ENEM-2023-Mikrodaten (5 Noten: CN, CH, LC, MT, Aufsatz) ergab PC1 mit positiven Loadings ähnlicher Größe für alle Noten. Interpretiere PC1. Was könnte PC2 repräsentieren?
- Ex. 118.28Proof
Beweise dass die Stichproben-Varianz des k-ten Scores gleich dem k-ten Eigenwert der Kovarianz ist. Nutze die Verbindung zu SVD.
- Ex. 118.29Modeling
Im 1000 Genomes Project zeigt PCA von Genomdaten von ~2500 Menschen aus 26 Populationen Cluster pro Kontinent. Erkläre wie das möglich ist und was die 3 ersten PCs genetisch repräsentieren.
- Ex. 118.30Challenge
Beschreibe das Probabilistic PCA-Modell (Tipping-Bishop 1999). Welche Vorteile hat es gegenüber klassischer PCA? Wie reduziert sich dieses Modell zur klassischen PCA in einem Grenzfall?
Quellen
- Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Kapitel 7: PCA via SVD, erklärte Varianz, Scree-Plot, Anwendungen.
- Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Kap. 10: rigorose Theorie von PCA, Optimalität, SVD-Verbindung, ML-Anwendungen.
- OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: statistische Perspektive, erklärte Varianz, Interpretation von Komponenten, Übungen mit echten Daten.