Lição 118 — Análise de Componentes Principais (PCA)
Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado
Rigorous notation, full derivation, hypotheses
Definicja matematyczna
Konfiguracja i macierz kowariancji
"Macierz kowariancji jest zawsze symetryczna i dodatnio półokreślona. Jej wartości własne są nieujemne, a wektory własne tworzą ortonormalną bazę ." — Introduction to Applied Linear Algebra (VMLS), §10.1
Główne składowe
Optymalność
"Główne składowe to wektory własne macierzy kowariancji danych, uporządkowane w malejącej kolejności wartości własnych. Pierwsza główna składowa przechwytuje maksymalną wariancję; kolejne składowe przechwytują maksymalną pozostałą wariancję pod warunkiem ortogonalności." — Understanding Linear Algebra, §7.1
Połączenie z SVD
Rekonstrukcja i błąd aproksymacji
Błąd rekonstrukcji: .
Przykłady rozwiązane
Exercise list
30 exercises · 7 with worked solution (25%)
- Ex. 118.1Understanding
Dlaczego konieczne jest wyśrodkowanie danych (odjęcie średniej) przed zastosowaniem PCA?
- Ex. 118.2Application
Biorąc pod uwagę , oblicz kowariancję i główne składowe.
- Ex. 118.3Application
Wartości własne : . Oblicz wariancję wyjaśnioną przez każdą główną składową i skumulowaną. Do którego skumulowana wariancja osiąga 90%?
- Ex. 118.4Application
Główne składowe zestawu danych 2D: , . Oblicz wyniki w obu składowych.
- Ex. 118.5Application
Korzystając z danych z poprzedniego ćwiczenia, przywróć zachowując tylko PC1. Jaki jest błąd rekonstrukcji?
- Ex. 118.6UnderstandingAnswer key
Dlaczego obliczanie PCA via SVD macierzy danych jest preferowane nad autodekompozcją bezpośrednio?
- Ex. 118.7ApplicationAnswer key
Oblicz główne składowe . Jaka wariancja jest wyjaśniona przez każdą składową?
- Ex. 118.8ApplicationAnswer key
Ze standaryzowanymi danymi (z-score), jaka jest całkowita wariancja? Co oznacza kryterium Kaisera zatrzymania tylko głównych składowych z wartością własną większą niż 1?
- Ex. 118.9Application
Zestaw danych z wartościami własnymi (całkowita 10). Oblicz błąd rekonstrukcji średni kwadrat przy zatrzymaniu K = 1 i K = 2 składowych.
- Ex. 118.10Modeling
PCA zwrotów 10 akcji dał PC1 z loadingiem dodatnim zbliżonej wielkości dla wszystkich akcji. Co PC1 reprezentuje ekonomicznie? Jak menedżer portfela mogłby użyć tej informacji?
- Ex. 118.11ApplicationAnswer key
SVD z próbkami dał wartości singularne . Oblicz odpowiadające wartości własne kowariancji i wariancję wyjaśnioną przez PC1.
- Ex. 118.12UnderstandingAnswer key
Udowodnij, że wyniki różnych głównych składowych są ze sobą nieskorelowane.
- Ex. 118.13Application
Zestaw danych ma 50 standaryzowanych zmiennych. Z K = 10 głównych składowych przechwytujących 95% wariancji, ile parametrów jest potrzebnych do reprezentacji kowariancji via PCA rangi K versus pełną kowariancją?
- Ex. 118.14ModelingAnswer key
Wyjaśnij, co reprezentują 3 pierwsze główne składowe brazylijskiej krzywej rentowności (yield curve). Dlaczego te 3 czynniki wyjaśniają ~99% zmienności?
- Ex. 118.15Application
Wyjaśnij różnicę między wykonaniem PCA ze standaryzacją wcześniejszą (z-score) i bez. Kiedy NIE powinieneś standaryzować?
- Ex. 118.16Proof
Pokaż, że projekcja na K pierwszych głównych składowych minimalizuje błąd rekonstrukcji średni kwadrat spośród wszystkich liniowych projekcji rangi K. Jaka jest wartość błędu minimalnego w kategoriach wartości własnych?
- Ex. 118.17Application
Wartości własne w malejącej kolejności: 12, 8, 3, 1, 1, 1, 1, 1. Mentalnie skonstruuj scree plot i zidentyfikuj "kolano". Ile głównych składowych zachować dla 80% wariancji?
- Ex. 118.18Modeling
Opisz metodę Eigenfaces (Turk-Pentland 1991) do rozpoznawania twarzy za pomocą PCA. Jaka wymiarowość jest osiągana w porównaniu z pierwotnymi pikselami?
- Ex. 118.19Application
Jaka jest koncepcyjna różnica między PCA i ICA (Independent Component Analysis)? W jakim typie problemu ICA jest konieczna?
- Ex. 118.20Application
Co się dzieje gdy macierz kowariancji to identyczność ()? Co to oznacza dla PCA i redukcji wymiarowości?
- Ex. 118.21Proof
Udowodnij, że wektory własne macierzy symetrycznej odpowiadające różnym wartościom własnym są ortogonalne. Użyj tego do uzasadnienia ortogonalności głównych składowych.
- Ex. 118.22ModelingAnswer key
Wyjaśnij, co biplot PCA pokazuje. Jak interpretować kierunek i długość strzałek zmiennych i pozycję próbek?
- Ex. 118.23Application
Dlaczego klasyczna PCA jest czuła na wartości odstające? Jaka jest idea Robust PCA do radzenia sobie z tym problemem?
- Ex. 118.24Application
Zestaw danych: N = 1000 próbek, d = 100 standaryzowanych zmiennych. PCA z K = 5 głównymi składowymi wyjaśnia 80% wariancji. Oblicz współczynnik kompresji danych (stosunek między przechowywaniem oryginalnym a przechowywaniem reprezentacji PCA).
- Ex. 118.25Challenge
Wyjaśnij ideę Kernel PCA. Jak zastąpienie iloczynu skalarnego jądrem pozwala przechwycić strukturę nieliniową? Jaka jest złożoność obliczeniowa?
- Ex. 118.26
Wyjaśnij "sztuczką dualności" PCA: gdy (więcej zmiennych niż próbek), jak efektywnie obliczać PCA? Jaka jest złożoność w każdym przypadku?
- Ex. 118.27
PCA mikronych ENEM 2023 (5 wyników: CN, CH, LC, MT, Redakcja) dała PC1 z dodatnimi loadingami zbliżonej wielkości dla wszystkich wyników. Interpretuj PC1. Co mogłoby reprezentować PC2?
- Ex. 118.28Proof
Udowodnij, że próbkowa wariancja k-tego wyniku jest równa k-tej wartości własnej kowariancji . Użyj połączenia z SVD.
- Ex. 118.29Modeling
W 1000 Genomes Project, PCA danych genomicznych z ~2500 osób z 26 populacji ujawnia skupienia po kontynentach. Wyjaśnij, jak to jest możliwe i co reprezentują 3 pierwsze główne składowe genetycznie.
- Ex. 118.30Challenge
Opisz model Probabilistic PCA (Tipping-Bishop 1999). Jakie są zalety nad klasyczną PCA? Jak ten model redukuje się do klasycznej PCA w przypadku granicznym?
Fontes
- Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Rozdział 7: PCA via SVD, wyjaśniona wariancja, scree plot, aplikacje.
- Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Rozdział 10: rygorystyczna teoria PCA, optymalność, połączenie SVD, aplikacje ML.
- OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: perspektywa statystyczna, wyjaśniona wariancja, interpretacja składowych, ćwiczenia z rzeczywistymi danymi.