v1 · padrão canônico

Lição 109 — Estatística bayesiana introdutória

Prior, verossimilhança, posterior. Regra de Bayes. Conjugados Beta-Bernoulli. MAP versus MLE. Intervalo credível. Introdução à inferência pelo paradigma bayesiano.

Used in: Stochastik LK (Alemanha, Klasse 12) · H2 Math Statistics (Singapura) · AP Statistics (EUA)

P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)}

Choose your door

Rigorous notation, full derivation, hypotheses

Definicja rygorystyczna

Twierdzenie Bayesa

Definition· Prawo Bayesa (forma ogólna)

Niech $\theta$ będzie parametrem (lub hipotezą) i $D$ będą obserwowanymi danymi. Definicje:

$P(\theta)$ — prior: rozkład prawdopodobieństwa parametru przed obserwacją danych.
$P(D \mid \theta)$ — wiarogodność (likelihood): prawdopodobieństwo danych biorąc pod uwagę parametr.
$P(D)$ — dowód marginalny: $P(D) = \int P(D \mid \theta) P(\theta)\, d\theta$ (lub suma dyskretna).
$P(\theta \mid D)$ — posterior: rozkład zaktualizowany po obserwacji $D$ .

Prawo Bayesa:

P(\theta \mid D) = \frac{P(D \mid \theta)\, P(\theta)}{P(D)} \propto P(D \mid \theta)\, P(\theta)

what this means · Posterior jest proporcjonalny do wiarogodności razy prior. Mianownik P(D) to tylko stała normalizacji.

"Twierdzenie Bayesa to podstawowy wynik prawdopodobieństwa warunkowego, ale jego interpretacja zmienia wszystko: oferuje formalny przepis na aktualizowanie wiary w świetle dowodów." — OpenIntro Statistics §3.6

Priory sprzężone: przypadek Beta-Bernoulli

Definition· Rodzina sprzężona Beta-Bernoulli

Gdy $X_1, \ldots, X_n \stackrel{\text{iid}}{\sim} \text{Bernoulli}(\theta)$ i prior to $\theta \sim \text{Beta}(\alpha, \beta)$ , posterior ma postać zamkniętą:

\theta \mid D \;\sim\; \text{Beta}(\alpha + s,\; \beta + n - s)

what this means · Po s sukcesach w n próbach, posterior jest kolejną Betą ze zaktualizowanymi parametrami.

gdzie $s = \sum_i X_i$ jest liczbą sukcesów. Beta jest sprzężona dla Bernouliego: prior i posterior należą do tej samej rodziny.

Rozkład Beta ma gęstość:

f(\theta; a, b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}, \quad \theta \in [0, 1]

what this means · Gęstość Beta(a,b): zdefiniowana na [0,1], kontrolowana przez parametry a i b.

z $B(a, b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$ .

Estymatory punktowe

Definition· MAP i MLE

Biorąc pod uwagę posterior $P(\theta \mid D)$ :

MAP (maximum a posteriori): $\hat\theta_{\text{MAP}} = \arg\max_\theta P(\theta \mid D)$ . Maksymalizuje posterior — zawiera informacje z prior.
MLE (maximum likelihood): $\hat\theta_{\text{MLE}} = \arg\max_\theta P(D \mid \theta)$ . Maksymalizuje wiarogodność — ignoruje prior.
Średnia posterior (Estymator Bayesa kwadratowy): $E[\theta \mid D]$ .

Związek: Z unifromnym priorem ( $P(\theta) = c$ ), MAP = MLE. Gdy $n \to \infty$ , posterior concentruje się w $\hat\theta_{\text{MLE}}$ — prior staje się nieistotny wraz ze wzrostem danych.

Dla Beta-Bernoulli:

\hat\theta_{\text{MAP}} = \frac{\alpha + s - 1}{\alpha + \beta + n - 2}, \quad E[\theta \mid D] = \frac{\alpha + s}{\alpha + \beta + n}

what this means · MAP i średnia posterior dla przypadku Beta-Bernoulli. Porównaj z MLE = s/n (proporcja empiryczna).

Czynnik Bayesa

Przepływ bayesowski: prior × wiarogodność → posterior. Posterior staje się nowym priorem gdy pojawiają się więcej danych.

Przykłady rozwiązane

Example— 1· Prawo Bayesa dyskretne — diagnoza (podstawowa)

Problem. Choroba dotyka 2% populacji. Test ma czułość 90% i swoistość 85%. Pacjent wynik testu pozytywny. Jakie jest prawdopodobieństwo, że ma chorobę?

Strategia. Zastosuj formułę Bayesa z partycją $\{D, \neg D\}$ i oblicz $P(D \mid +)$ .

Rozwiązanie.

$P(D) = 0{,}02$ , $P(\neg D) = 0{,}98$ , $P(+ \mid D) = 0{,}90$ , $P(+ \mid \neg D) = 0{,}15$ .

Dowód całkowity: $P(+) = P(+ \mid D)\,P(D) + P(+ \mid \neg D)\,P(\neg D)$ $= 0{,}90 \times 0{,}02 + 0{,}15 \times 0{,}98 = 0{,}018 + 0{,}147 = 0{,}165$

Posterior: $P(D \mid +) = \frac{0{,}90 \times 0{,}02}{0{,}165} = \frac{0{,}018}{0{,}165} \approx 0{,}109 = 10{,}9\%$

Weryfikacja. Z zaledwie 2% rozpowszechnieniem, nawet względnie dobry test generuje wiele fałszywych dodatnich. Odpowiedź $\approx 11\%$ ma sens: większość dodatnich pochodzi z ogromnej zdowej populacji.

Źródło. OpenIntro Statistics §3.6, przykład diagnozy medycznej — CC-BY-SA.

Example— 2· Sekwencyjna aktualizacja Beta-Bernoulli (pośrednia)

Problem. Urna ma nieznaną proporcję $\theta$ czerwonych kul. Prior: $\theta \sim \text{Beta}(2, 2)$ . Rysujemy ze zwrotem: 1. próba — 3 czerwone z 5 wylosowań; 2. próba — 4 czerwone z 6 wylosowań. Oblicz posterior po każdej próbie i średnią posterior końcową.

Strategia. Beta-Bernoulli: po $s$ sukcesach w $n$ próbach, $\text{Beta}(\alpha, \beta) \to \text{Beta}(\alpha+s, \beta+n-s)$ . Zastosuj iteracyjnie.

Rozwiązanie.

Prior: $\text{Beta}(2, 2)$ , średnia $= 2/4 = 0{,}50$ .

Po 1. próbie ( $s = 3$ , $n = 5$ ): $\text{Beta}(2+3,\; 2+5-3) = \text{Beta}(5, 4), \quad E[\theta] = \frac{5}{9} \approx 0{,}556$

Po 2. próbie ( $s = 4$ , $n = 6$ ): $\text{Beta}(5+4,\; 4+6-4) = \text{Beta}(9, 6), \quad E[\theta] = \frac{9}{15} = 0{,}600$

Weryfikacja. Całkowite dane: 7 czerwonych z 11 wylosowań, proporcja próbki = $7/11 \approx 0{,}636$ . Średnia posterior 0,60 jest między priorem (0,50) a proporcją próbki — ma sens. Z słabym priorem, posterior zbiegać do MLE wraz ze wzrostem $n$ .

Źródło. Think Bayes §3 — Allen Downey — CC-BY-NC-SA.

Example— 3· MAP vs MLE vs średnia posterior (pośrednia)

Problem. Dla modelu Beta-Bernoulli z $\alpha = 3$ , $\beta = 3$ , po 6 sukcesach w 10 próbach, oblicz MLE, MAP i średnią posterior. Zinterpretuj różnicę.

Strategia. MLE maksymalizuje wiarogodność; MAP maksymalizuje posterior; średnia posterior to $E[\theta \mid D]$ .

Rozwiązanie.

MLE: $\hat\theta_{\text{MLE}} = s/n = 6/10 = 0{,}600$ .

Posterior: $\text{Beta}(3+6, 3+4) = \text{Beta}(9, 7)$ .

MAP (moda Beta $(a, b)$ z $a, b > 1$ to $(a-1)/(a+b-2)$ ): $\hat\theta_{\text{MAP}} = \frac{9 - 1}{9 + 7 - 2} = \frac{8}{14} \approx 0{,}571$

Średnia posterior: $E[\theta \mid D] = \frac{9}{9 + 7} = \frac{9}{16} = 0{,}5625$

Weryfikacja. Porządek: średnia $(0{,}5625)$ między MAP $(0{,}571)$ a modą Beta(9,7). MLE $(0{,}60)$ jest największy — prior "ciągnie" w kierunku 0,5 (prior symetryczny wokół 0,5). Z dużym $n$ , wszystkie trzy zbiegają do MLE.

Źródło. Think Bayes §4, §6 — Allen Downey — CC-BY-NC-SA.

Example— 4· Przedział kredybilny 95% Beta (zaawansowany)

Problem. Po 12 sukcesach w 20 próbach z priorem $\text{Beta}(1, 1)$ (uniforme), oblicz centralny przedział kredybilny 95% dla $\theta$ .

Strategia. Posterior $\text{Beta}(13, 9)$ . Centralny przedział 95% jest podany przez percentyle 2,5% i 97,5% rozkładu Beta.

Rozwiązanie.

Posterior: $\text{Beta}(1+12, 1+8) = \text{Beta}(13, 9)$ .

Średnia posterior: $13/(13+9) = 13/22 \approx 0{,}591$ .

Przez tabelę lub oprogramowanie (R: qbeta(c(0.025, 0.975), 13, 9)):

Percentyl 2,5%: $\approx 0{,}376$ . Percentyl 97,5%: $\approx 0{,}779$ .

Przedział kredybilny 95%: $(0{,}376;\; 0{,}779)$ .

Weryfikacja. Interpretacja bezpośrednia: "biorąc pod uwagę uniforme prior i dane, prawdopodobieństwo, że $\theta$ jest między 0,376 a 0,779 wynosi 95%". Zauważ, że przedział nie jest wyśrodkowany w 0,6 — jest asymetryczny, ponieważ Beta jest asymetryczna w tym przypadku.

Źródło. Introduction to Probability §4.1 — Grinstead & Snell — GNU FDL.

Example— 5· Bayes factor — porównanie hipotez (demonstracja)

Problem. Do testowania czy $\theta = 0{,}5$ (uczciwa moneta) kontra $\theta = 0{,}7$ (sfałszowana moneta), z equiprobabilnym priorem ( $P(H_0) = P(H_1) = 0{,}5$ ), oblicz czynnik Bayesa i prawdopodobieństwo posterior $H_1$ po 8 orłach w 10 rzutach.

Strategia. Oblicz $P(D \mid H_i)$ dla każdej hipotezy, następnie zastosuj Bayes.

Rozwiązanie.

$P(D \mid H_0) = \binom{10}{8}(0{,}5)^{10} = 45 \times \frac{1}{1024} \approx 0{,}0439$

$P(D \mid H_1) = \binom{10}{8}(0{,}7)^8(0{,}3)^2 = 45 \times 0{,}05765 \times 0{,}09 \approx 0{,}2335$

Czynnik Bayesa: $BF_{10} = \frac{0{,}2335}{0{,}0439} \approx 5{,}32$

Z priorem $P(H_0) = P(H_1) = 0{,}5$ : $P(H_1 \mid D) = \frac{BF_{10}}{1 + BF_{10}} = \frac{5{,}32}{6{,}32} \approx 0{,}842$

Weryfikacja. $BF_{10} \approx 5{,}32$ — dowód umiarkowany do mocny dla $H_1$ (skala Jeffreysa: między 3 i 10 to "umiarkowane"). Prawdopodobieństwo posterior sfałszowanej monety poszło z 50% do 84%. Spójne z danymi (8 z 10 faworyzuje $\theta = 0{,}7$ ).

Źródło. OpenIntro Statistics §3.7 — Diez, Çetinkaya-Rundel, Barr — CC-BY-SA.

Exercise list

34 exercises · 8 with worked solution (25%)

Application 17Understanding 3Modeling 4Challenge 1Proof 2 7

Ex. 109.1Application
Rozpowszechnienie choroby: 1%. Czułość testu: 95%. Wskaźnik fałszywych dodatnich: 10%. Pacjent ma wynik testu pozytywny. Oblicz prawdopodobieństwo posiadania choroby.
Solve online
Ex. 109.2Application
Monetę rzucono 10 razy i wypadły 4 orły. Prior: Beta(1,1) (uniforme). Oblicz posterior, średnią posterior i porównaj z MLE.
Solve online
Ex. 109.3Application
Prior: Beta(4, 6). Próba: 7 sukcesów w 10. Oblicz posterior, średnią posterior i MAP.
Solve online
Ex. 109.4Application
Prior: Beta(2, 2). Partia 1: 5 sukcesów w 10. Partia 2: 8 sukcesów w 10. Wykonaj aktualizację sekwencyjną i oblicz średnią posterior końcową.
Solve online
Ex. 109.5Application
Rozpowszechnienie: 0,5%. Czułość: 99%. Wskaźnik fałszywych dodatnich: 2%. Pacjent ma wynik testu pozytywny. Jakie jest prawdopodobieństwo posiadania choroby?
Solve online
Ex. 109.6Application
3 sukcesy w 10 próbach. Porównaj średnią posterior z priorami Beta(1,1) i Beta(5,5). Który prior ma większy wpływ na posterior?
Solve online
Ex. 109.7Application
Trzy fabryki produkują śruby: F1 (60% produkcji, 30% defektowych), F2 (30%, 50% defektowych), F3 (10%, 10% defektowych). Defektowa śruba jest wyjęta. Jakie jest prawdopodobieństwo, że pochodzi z F1?
Solve online
Ex. 109.8Application
Prior: Beta(3, 3) (lekka wiara w uczciwą monetę, średnia 0,5). Rzucono 5 razy i wypadły 0 orłów. Oblicz posterior i nową średnią.
Solve online
Ex. 109.9Application
Prior: Beta(1,1). Dane: 15 sukcesów w 20. Oblicz MAP i MLE. Czy są równe? Dlaczego?
Solve online
Ex. 109.10Application
Worek z dwiema monetami: jedna zawsze daje orły (H), druga jest uczciwa (J). Wybrana losowo. Rzucona dwa razy, oba orły. Jakie jest prawdopodobieństwo, że to moneta H?
Solve online
Ex. 109.11Understanding
Co oznacza przedział kredybilny bayesowski 95%?
Solve online
Ex. 109.12UnderstandingAnswer key
Które stwierdzenie o MAP i MLE jest NIEPOPRAWNE?
Solve online
Ex. 109.13Understanding
Jak rozmiar próbki n wpływa na związek między prior a posterior?
Solve online
Ex. 109.14Application
Student zdaje egzamin ( $A$ ). Wiadomo: $P(A \mid B_1) = 0{,}8$ (uczył się wiele, prawdopodobieństwo 60%), $P(A \mid B_2) = 0{,}2$ (nie uczył się, prawdopodobieństwo 40%). Biorąc pod uwagę, że zdał, jakie jest prawdopodobieństwo, że uczył się wiele?
Solve online
Ex. 109.15Application
Maszyna ma nieznaną stopę trafności. Prior: Beta(4, 2) (historia 4 trafnościach i 2 porażkach). Nowy test: 6 kolejnych trafnościach. Oblicz posterior, średnią i MAP.
Solve online
Ex. 109.16Application
Oblicz Czynnik Bayesa dla $H_1: \theta = 0{,}7$ kontra $H_0: \theta = 0{,}5$ po 8 orłach w 10 rzutach.
Solve online
Ex. 109.17ApplicationAnswer key
Trzy partie po 10 prób każda: 7 sukcesów, 6 sukcesów, 7 sukcesów. Prior: Beta(1,1). Wykonaj aktualizację sekwencyjną i oblicz średnią posterior końcową.
Solve online
Ex. 109.18Application
Rozpowszechnienie: 30%. Czułość: 95%. Wskaźnik fałszywych dodatnich: 20%. Pacjent ma wynik testu pozytywny. Oblicz prawdopodobieństwo posiadania choroby i porównaj z ćwiczeniem 109.1.
Solve online
Ex. 109.19ApplicationAnswer key
Pokaż, że średnia posterior modelu Beta-Bernoulli jest ważoną średnią między priorem a proporcją próbki. Zidentyfikuj wagi.
Solve online
Ex. 109.20Application
Prior: Beta(2, 2). Dane: 0 sukcesów w 3. Oblicz posterior, MAP i średnią posterior.
Solve online
Ex. 109.21
Prawdopodobieństwo deszczu we Fortalezi w danym dniu: 40%. Jeśli będzie deszcz, są 85% szanse chmur ładunkowych. Jeśli nie będzie deszczu, 30%. Są chmury ładunkowe. Jakie jest prawdopodobieństwo deszczu?
Solve online
Ex. 109.22Answer key
Historia produkcji: 10% defektów (równoważne 10 defektom na 100 sztuk = Beta(10,90)). Nowa inspekacja: 3 defekty na 20. Oblicz posterior i średnią posterior.
Solve online
Ex. 109.23
Worek z 3 monetami: 1 zawsze daje orły (H), 2 są uczciwe (J). Moneta jest losowo wyjęta i rzucona: wypadł orzeł. Jakie jest prawdopodobieństwo, że to moneta H?
Solve online
Ex. 109.24
Prior Beta(1,1). Dane: 10 sukcesów w 20. Opisz posterior i centralny przedział kredybilny 95% (użyj tego, że percentyl 2,5% Beta(11,11) ≈ 0,31).
Solve online
Ex. 109.25Modeling
Historyczne kursy zatwierdzają 70% uczniów na ENEM. Nowa grupa, 20 uczniów: 15 przeszło. Zaproponuj odpowiedni prior Beta, oblicz posterior i średnią posterior stopy zatwierdzenia.
Solve online
Ex. 109.26ModelingAnswer key
Rozpowszechnienie raka trzustki: 0,2%. Biopsja: czułość 92%, swoistość 97%. Pozytywny egzamin. Oblicz P(rak | pozytywny) i omów decyzję medyczną.
Solve online
Ex. 109.27Modeling
Przewoźnik zgłasza 20 dostaw z opóźnieniem spośród 50 monitorowanych dostaw. Przy użyciu prior Beta(1,1) szacuj stopę opóźnienia z przedziałem kredybilnym 90%.
Solve online
Ex. 109.28ModelingAnswer key
Fintech wie, że 1% transakcji to oszustwa. Algorytm wykrywa, że bieżąca transakcja ma wartość poza normą klienta. P(wartość nietypowa | oszustwo) = 85%, P(wartość nietypowa | legalna) = 2%. Oblicz prawdopodobieństwo oszustwa.
Solve online
Ex. 109.29Proof
Pokaż, że dla modelu Bernoulli z priorem Beta, posterior jest również Beta. Zidentyfikuj parametry.
Solve online
Ex. 109.30ProofAnswer key
Udowodnij, że z priorem Beta(1,1) (uniforme), estymator MAP pokrywa się z MLE dla modelu Bernoulli.
Solve online
Ex. 109.31Answer key
Filtr spamu: 20% emaili to spam. W emailach spamowych każde słowo-klucz podejrzane pojawia się z prawdopodobieństwem 60%; w legalnych emailach 5%. Email ma 3 słowa-klucze. Jakie jest prawdopodobieństwo, że to spam?
Solve online
Ex. 109.32
Dwie grupy szczurów: linia 1 (10 zwierząt, 8 rozwinęło guz po ekspozycji) i linia 2 (10 zwierząt, 3 rozwinęło). Prior Beta(1,1) dla obu stóp. Oblicz posterior i średnią posterior dla każdej linii.
Solve online
Ex. 109.33
Urna ma nieznaną proporcję pomarańczowych kul. Po 100 losowaniach ze zwrotem, 50 to pomarańcze. Prior Beta(1,1). Oblicz posterior, średnią i przedział kredybilny 95%.
Solve online
Ex. 109.34Challenge
Prior Jeffreysa dla Bernoulli to Beta(0,5; 0,5). Po 6 sukcesach w 10, oblicz posterior. Poszukaj, co oznacza, że ten prior jest "niezmienny pod względem parametryzacji" i porównaj średnią posterior z priorem Beta(1,1).
Solve online

Fontes

Think Bayes — Allen B. Downey · CC-BY-NC-SA · Greenteapress · Rozdziały 1–9.
Introduction to Probability — Grinstead & Snell · GNU FDL · Dartmouth · §4.1.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · OpenIntro · §3.6–3.7.