Math ClubMath Club
v1 · padrão canônico

Lição 118 — Análise de Componentes Principais (PCA)

Hotelling 1933: diagonalizar a covariância para encontrar direções de máxima variância. Scores, variância explicada, scree plot. Conexão com SVD. Aplicação em ML, finanças, genômica.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. H2 Math Statistics singapurense · Equiv. Math B japonês avançado

Σ=VΛVT,zk=VkT(xxˉ)\Sigma = V \Lambda V^T, \quad z_k = V_k^T (x - \bar{x})
Choose your door

Rigorous notation, full derivation, hypotheses

Definicja matematyczna

Konfiguracja i macierz kowariancji

"Macierz kowariancji Σ\Sigma jest zawsze symetryczna i dodatnio półokreślona. Jej wartości własne są nieujemne, a wektory własne tworzą ortonormalną bazę Rd\mathbb{R}^d." — Introduction to Applied Linear Algebra (VMLS), §10.1

Główne składowe

Optymalność

"Główne składowe to wektory własne macierzy kowariancji danych, uporządkowane w malejącej kolejności wartości własnych. Pierwsza główna składowa przechwytuje maksymalną wariancję; kolejne składowe przechwytują maksymalną pozostałą wariancję pod warunkiem ortogonalności." — Understanding Linear Algebra, §7.1

Połączenie z SVD

Rekonstrukcja i błąd aproksymacji

x^i=xˉ+k=1Kzikvk\hat{x}_i = \bar{x} + \sum_{k=1}^K z_{ik}\, v_k
what this means · Zachowanie K składowych minimalizuje średni błąd kwadratowy rekonstrukcji spośród wszystkich projekcji rangi K (Eckart-Young zastosowany do PCA).

Błąd rekonstrukcji: .

Przykłady rozwiązane

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 3Modeling 5Challenge 2Proof 3 2
  1. Ex. 118.1Understanding

    Dlaczego konieczne jest wyśrodkowanie danych (odjęcie średniej) przed zastosowaniem PCA?

  2. Ex. 118.2Application

    Biorąc pod uwagę , oblicz kowariancję i główne składowe.

  3. Ex. 118.3Application

    Wartości własne : . Oblicz wariancję wyjaśnioną przez każdą główną składową i skumulowaną. Do którego skumulowana wariancja osiąga 90%?

  4. Ex. 118.4Application

    Główne składowe zestawu danych 2D: , . Oblicz wyniki w obu składowych.

  5. Ex. 118.5Application

    Korzystając z danych z poprzedniego ćwiczenia, przywróć zachowując tylko PC1. Jaki jest błąd rekonstrukcji?

  6. Ex. 118.6UnderstandingAnswer key

    Dlaczego obliczanie PCA via SVD macierzy danych jest preferowane nad autodekompozcją bezpośrednio?

  7. Ex. 118.7ApplicationAnswer key

    Oblicz główne składowe . Jaka wariancja jest wyjaśniona przez każdą składową?

  8. Ex. 118.8ApplicationAnswer key

    Ze standaryzowanymi danymi (z-score), jaka jest całkowita wariancja? Co oznacza kryterium Kaisera zatrzymania tylko głównych składowych z wartością własną większą niż 1?

  9. Ex. 118.9Application

    Zestaw danych z wartościami własnymi (całkowita 10). Oblicz błąd rekonstrukcji średni kwadrat przy zatrzymaniu K = 1 i K = 2 składowych.

  10. Ex. 118.10Modeling

    PCA zwrotów 10 akcji dał PC1 z loadingiem dodatnim zbliżonej wielkości dla wszystkich akcji. Co PC1 reprezentuje ekonomicznie? Jak menedżer portfela mogłby użyć tej informacji?

  11. Ex. 118.11ApplicationAnswer key

    SVD z próbkami dał wartości singularne . Oblicz odpowiadające wartości własne kowariancji i wariancję wyjaśnioną przez PC1.

  12. Ex. 118.12UnderstandingAnswer key

    Udowodnij, że wyniki różnych głównych składowych są ze sobą nieskorelowane.

  13. Ex. 118.13Application

    Zestaw danych ma 50 standaryzowanych zmiennych. Z K = 10 głównych składowych przechwytujących 95% wariancji, ile parametrów jest potrzebnych do reprezentacji kowariancji via PCA rangi K versus pełną kowariancją?

  14. Ex. 118.14ModelingAnswer key

    Wyjaśnij, co reprezentują 3 pierwsze główne składowe brazylijskiej krzywej rentowności (yield curve). Dlaczego te 3 czynniki wyjaśniają ~99% zmienności?

  15. Ex. 118.15Application

    Wyjaśnij różnicę między wykonaniem PCA ze standaryzacją wcześniejszą (z-score) i bez. Kiedy NIE powinieneś standaryzować?

  16. Ex. 118.16Proof

    Pokaż, że projekcja na K pierwszych głównych składowych minimalizuje błąd rekonstrukcji średni kwadrat spośród wszystkich liniowych projekcji rangi K. Jaka jest wartość błędu minimalnego w kategoriach wartości własnych?

  17. Ex. 118.17Application

    Wartości własne w malejącej kolejności: 12, 8, 3, 1, 1, 1, 1, 1. Mentalnie skonstruuj scree plot i zidentyfikuj "kolano". Ile głównych składowych zachować dla 80% wariancji?

  18. Ex. 118.18Modeling

    Opisz metodę Eigenfaces (Turk-Pentland 1991) do rozpoznawania twarzy za pomocą PCA. Jaka wymiarowość jest osiągana w porównaniu z pierwotnymi pikselami?

  19. Ex. 118.19Application

    Jaka jest koncepcyjna różnica między PCA i ICA (Independent Component Analysis)? W jakim typie problemu ICA jest konieczna?

  20. Ex. 118.20Application

    Co się dzieje gdy macierz kowariancji to identyczność ()? Co to oznacza dla PCA i redukcji wymiarowości?

  21. Ex. 118.21Proof

    Udowodnij, że wektory własne macierzy symetrycznej odpowiadające różnym wartościom własnym są ortogonalne. Użyj tego do uzasadnienia ortogonalności głównych składowych.

  22. Ex. 118.22ModelingAnswer key

    Wyjaśnij, co biplot PCA pokazuje. Jak interpretować kierunek i długość strzałek zmiennych i pozycję próbek?

  23. Ex. 118.23Application

    Dlaczego klasyczna PCA jest czuła na wartości odstające? Jaka jest idea Robust PCA do radzenia sobie z tym problemem?

  24. Ex. 118.24Application

    Zestaw danych: N = 1000 próbek, d = 100 standaryzowanych zmiennych. PCA z K = 5 głównymi składowymi wyjaśnia 80% wariancji. Oblicz współczynnik kompresji danych (stosunek między przechowywaniem oryginalnym a przechowywaniem reprezentacji PCA).

  25. Ex. 118.25Challenge

    Wyjaśnij ideę Kernel PCA. Jak zastąpienie iloczynu skalarnego jądrem pozwala przechwycić strukturę nieliniową? Jaka jest złożoność obliczeniowa?

  26. Ex. 118.26

    Wyjaśnij "sztuczką dualności" PCA: gdy (więcej zmiennych niż próbek), jak efektywnie obliczać PCA? Jaka jest złożoność w każdym przypadku?

  27. Ex. 118.27

    PCA mikronych ENEM 2023 (5 wyników: CN, CH, LC, MT, Redakcja) dała PC1 z dodatnimi loadingami zbliżonej wielkości dla wszystkich wyników. Interpretuj PC1. Co mogłoby reprezentować PC2?

  28. Ex. 118.28Proof

    Udowodnij, że próbkowa wariancja k-tego wyniku jest równa k-tej wartości własnej kowariancji . Użyj połączenia z SVD.

  29. Ex. 118.29Modeling

    W 1000 Genomes Project, PCA danych genomicznych z ~2500 osób z 26 populacji ujawnia skupienia po kontynentach. Wyjaśnij, jak to jest możliwe i co reprezentują 3 pierwsze główne składowe genetycznie.

  30. Ex. 118.30Challenge

    Opisz model Probabilistic PCA (Tipping-Bishop 1999). Jakie są zalety nad klasyczną PCA? Jak ten model redukuje się do klasycznej PCA w przypadku granicznym?

Fontes

  • Understanding Linear Algebra — David Austin · Grand Valley State University · CC-BY-SA · Rozdział 7: PCA via SVD, wyjaśniona wariancja, scree plot, aplikacje.
  • Introduction to Applied Linear Algebra (VMLS) — Stephen Boyd, Lieven Vandenberghe · Stanford University · CC-BY-NC-ND · Rozdział 10: rygorystyczna teoria PCA, optymalność, połączenie SVD, aplikacje ML.
  • OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §8.3: perspektywa statystyczna, wyjaśniona wariancja, interpretacja składowych, ćwiczenia z rzeczywistymi danymi.

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.