v1 · padrão canônico

Lição 118 — Análise de Componentes Principais (PCA)

Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado

\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})

Choose your door

Rigorous notation, full derivation, hypotheses

Definicja matematyczna

Konfiguracja i macierz kowariancji

"Macierz kowariancji $\Sigma$ jest zawsze symetryczna i dodatnio półokreślona. Jej wartości własne są nieujemne, a wektory własne tworzą ortonormalną bazę $\mathbb{R}^d$ ." — Introduction to Applied Linear Algebra (VMLS), §10.1

Optymalność

"Główne składowe to wektory własne macierzy kowariancji danych, uporządkowane w malejącej kolejności wartości własnych. Pierwsza główna składowa przechwytuje maksymalną wariancję; kolejne składowe przechwytują maksymalną pozostałą wariancję pod warunkiem ortogonalności." — Understanding Linear Algebra, §7.1

Rekonstrukcja i błąd aproksymacji

\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k

what this means · Zachowanie K składowych minimalizuje średni błąd kwadratowy rekonstrukcji spośród wszystkich projekcji rangi K (Eckart-Young zastosowany do PCA).

Błąd rekonstrukcji: .

Przykłady rozwiązane

Example— 3· Wyjaśniona wariancja i scree plot

Problem. Analiza PCA 50 zmiennych daje 5 największych wartości własnych: 15, 8, 4, 2, 1. Całkowita wariancja = 50 (dane standaryzowane, każda zmienna ma wariancję 1). Oblicz: (a) wariancję wyjaśnioną przez każdą główną składową; (b) skumulowaną wariancję; (c) który K wybrać dla 90%.

Strategia. Prosta proporcja, potem skumulowana suma.

Rozwiązanie.

(a) ExpVar(k): 15/50 = 30%, 8/50 = 16%, 4/50 = 8%, 2/50 = 4%, 1/50 = 2%.

(b) Skumulowana: 30%, 46%, 54%, 58%, 60%.

(c) Po 5 głównych składowych, skumulowana = 60% — niewystarczające dla 90%. Pozostałe 45 głównych składowych sumuje się do pozostałych 40%. Do 90% prawdopodobnie potrzebowalibyśmy ~15-20 głównych składowych (w zależności od rozkładu pozostałych wartości własnych).

Weryfikacja. Suma 5 proporcji = 60%, spójna z pozostałą całkowitą wariancją 40%. ✓

Źródło. OpenIntro Statistics, §8.3 Ćwiczenie 8.27 — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA.

Example— 5· PCA zastosowana do zwrotów akcji brazylijskich

Problem. Masz dzienne zwroty 5 akcji z B3 (PETR4, VALE3, ITUB4, BBDC4, WEGE3) przez 252 dni. Macierz kowariancji (annualizowana, w %) to:

3 największe wartości własne to w przybliżeniu 82, 23, 11. Oblicz: (a) całkowitą wariancję; (b) wariancję wyjaśnioną przez 3 główne składowe; (c) interpretację ekonomiczną.

Strategia. Całkowita wariancja = ślad ; wyjaśniona wariancja = proporcja wartości własnych.

Rozwiązanie.

(a) Całkowita wariancja: .

(b) 3 główne składowe wyjaśniają: .

(c) PC1 (82/140 = 58,6%): pozytywnie skorelowana ze wszystkimi akcjami — czynnik rynkowy ("beta"). PC2 (23/140 = 16,4%): prawdopodobnie rozróżnia surowce (PETR4, VALE3) od finansów (ITUB4, BBDC4). PC3: pozostałe ryzyko idiosynkratyczne.

Weryfikacja. 3 z 5 składowych wyjaśniają 82,9% — spójna z badaniami empirycznymi brazylijskich krzywych rentowności pokazującymi dominację pierwszych głównych składowych.

Źródło. OpenIntro Statistics, §8.3 — Diez i in. · CC-BY-SA. Struktura kowariancji zmotywowana empirycznymi wynikami z rynków wschodzących.

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 3Modeling 5Challenge 2Proof 3 2

Ex. 118.1Understanding
Dlaczego konieczne jest wyśrodkowanie danych (odjęcie średniej) przed zastosowaniem PCA?
Solve online
Ex. 118.2Application
Biorąc pod uwagę , oblicz kowariancję i główne składowe.
Solve online
Ex. 118.3Application
Wartości własne : . Oblicz wariancję wyjaśnioną przez każdą główną składową i skumulowaną. Do którego skumulowana wariancja osiąga 90%?
Solve online
Ex. 118.4Application
Główne składowe zestawu danych 2D: , . Oblicz wyniki w obu składowych.
Solve online
Ex. 118.5Application
Korzystając z danych z poprzedniego ćwiczenia, przywróć zachowując tylko PC1. Jaki jest błąd rekonstrukcji?
Solve online
Ex. 118.6UnderstandingAnswer key
Dlaczego obliczanie PCA via SVD macierzy danych jest preferowane nad autodekompozcją bezpośrednio?
Solve online
Ex. 118.7ApplicationAnswer key
Oblicz główne składowe . Jaka wariancja jest wyjaśniona przez każdą składową?
Solve online
Ex. 118.8ApplicationAnswer key
Ze standaryzowanymi danymi (z-score), jaka jest całkowita wariancja? Co oznacza kryterium Kaisera zatrzymania tylko głównych składowych z wartością własną większą niż 1?
Solve online
Ex. 118.9Application
Zestaw danych z wartościami własnymi (całkowita 10). Oblicz błąd rekonstrukcji średni kwadrat przy zatrzymaniu K = 1 i K = 2 składowych.
Solve online
Ex. 118.10Modeling
PCA zwrotów 10 akcji dał PC1 z loadingiem dodatnim zbliżonej wielkości dla wszystkich akcji. Co PC1 reprezentuje ekonomicznie? Jak menedżer portfela mogłby użyć tej informacji?
Solve online
Ex. 118.11ApplicationAnswer key
SVD z próbkami dał wartości singularne . Oblicz odpowiadające wartości własne kowariancji i wariancję wyjaśnioną przez PC1.
Solve online
Ex. 118.12UnderstandingAnswer key
Udowodnij, że wyniki różnych głównych składowych są ze sobą nieskorelowane.
Solve online
Ex. 118.13Application
Zestaw danych ma 50 standaryzowanych zmiennych. Z K = 10 głównych składowych przechwytujących 95% wariancji, ile parametrów jest potrzebnych do reprezentacji kowariancji via PCA rangi K versus pełną kowariancją?
Solve online
Ex. 118.14ModelingAnswer key
Wyjaśnij, co reprezentują 3 pierwsze główne składowe brazylijskiej krzywej rentowności (yield curve). Dlaczego te 3 czynniki wyjaśniają ~99% zmienności?
Solve online
Ex. 118.15Application
Wyjaśnij różnicę między wykonaniem PCA ze standaryzacją wcześniejszą (z-score) i bez. Kiedy NIE powinieneś standaryzować?
Solve online
Ex. 118.16Proof
Pokaż, że projekcja na K pierwszych głównych składowych minimalizuje błąd rekonstrukcji średni kwadrat spośród wszystkich liniowych projekcji rangi K. Jaka jest wartość błędu minimalnego w kategoriach wartości własnych?
Solve online
Ex. 118.17Application
Wartości własne w malejącej kolejności: 12, 8, 3, 1, 1, 1, 1, 1. Mentalnie skonstruuj scree plot i zidentyfikuj "kolano". Ile głównych składowych zachować dla 80% wariancji?
Solve online
Ex. 118.18Modeling
Opisz metodę Eigenfaces (Turk-Pentland 1991) do rozpoznawania twarzy za pomocą PCA. Jaka wymiarowość jest osiągana w porównaniu z pierwotnymi pikselami?
Solve online
Ex. 118.19Application
Jaka jest koncepcyjna różnica między PCA i ICA (Independent Component Analysis)? W jakim typie problemu ICA jest konieczna?
Solve online
Ex. 118.20Application
Co się dzieje gdy macierz kowariancji to identyczność ()? Co to oznacza dla PCA i redukcji wymiarowości?
Solve online
Ex. 118.21Proof
Udowodnij, że wektory własne macierzy symetrycznej odpowiadające różnym wartościom własnym są ortogonalne. Użyj tego do uzasadnienia ortogonalności głównych składowych.
Solve online
Ex. 118.22ModelingAnswer key
Wyjaśnij, co biplot PCA pokazuje. Jak interpretować kierunek i długość strzałek zmiennych i pozycję próbek?
Solve online
Ex. 118.23Application
Dlaczego klasyczna PCA jest czuła na wartości odstające? Jaka jest idea Robust PCA do radzenia sobie z tym problemem?
Solve online
Ex. 118.24Application
Zestaw danych: N = 1000 próbek, d = 100 standaryzowanych zmiennych. PCA z K = 5 głównymi składowymi wyjaśnia 80% wariancji. Oblicz współczynnik kompresji danych (stosunek między przechowywaniem oryginalnym a przechowywaniem reprezentacji PCA).
Solve online
Ex. 118.25Challenge
Wyjaśnij ideę Kernel PCA. Jak zastąpienie iloczynu skalarnego jądrem pozwala przechwycić strukturę nieliniową? Jaka jest złożoność obliczeniowa?
Solve online
Ex. 118.26
Wyjaśnij "sztuczką dualności" PCA: gdy (więcej zmiennych niż próbek), jak efektywnie obliczać PCA? Jaka jest złożoność w każdym przypadku?
Solve online
Ex. 118.27
PCA mikronych ENEM 2023 (5 wyników: CN, CH, LC, MT, Redakcja) dała PC1 z dodatnimi loadingami zbliżonej wielkości dla wszystkich wyników. Interpretuj PC1. Co mogłoby reprezentować PC2?
Solve online
Ex. 118.28Proof
Udowodnij, że próbkowa wariancja k-tego wyniku jest równa k-tej wartości własnej kowariancji . Użyj połączenia z SVD.
Solve online
Ex. 118.29Modeling
W 1000 Genomes Project, PCA danych genomicznych z ~2500 osób z 26 populacji ujawnia skupienia po kontynentach. Wyjaśnij, jak to jest możliwe i co reprezentują 3 pierwsze główne składowe genetycznie.
Solve online
Ex. 118.30Challenge
Opisz model Probabilistic PCA (Tipping-Bishop 1999). Jakie są zalety nad klasyczną PCA? Jak ten model redukuje się do klasycznej PCA w przypadku granicznym?
Solve online

Fontes

Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Rozdział 7: PCA via SVD, wyjaśniona wariancja, scree plot, aplikacje.
Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Rozdział 10: rygorystyczna teoria PCA, optymalność, połączenie SVD, aplikacje ML.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: perspektywa statystyczna, wyjaśniona wariancja, interpretacja składowych, ćwiczenia z rzeczywistymi danymi.