v1 · padrão canônico

Lição 109 — Estatística bayesiana introdutória

Prior, verossimilhança, posterior. Regra de Bayes. Conjugados Beta-Bernoulli. MAP versus MLE. Intervalo credível. Introdução à inferência pelo paradigma bayesiano.

Used in: Stochastik LK (Alemanha, Klasse 12) · H2 Math Statistics (Singapura) · AP Statistics (EUA)

P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)}

A regra de Bayes atualiza nossa crença sobre o parâmetro $\theta$ após observar os dados $D$ . O posterior $P(\theta \mid D)$ é proporcional ao produto da verossimilhança $P(D \mid \theta)$ pelo prior $P(\theta)$ , normalizado pela evidência $P(D)$ .

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

O teorema de Bayes

Definition· Regra de Bayes (forma geral)

Seja $\theta$ um parâmetro (ou hipótese) e $D$ os dados observados. Definições:

$P(\theta)$ — prior: distribuição de probabilidade do parâmetro antes de observar dados.
$P(D \mid \theta)$ — verossimilhança (likelihood): probabilidade dos dados dado o parâmetro.
$P(D)$ — evidência marginal: $P(D) = \int P(D \mid \theta) P(\theta)\, d\theta$ (ou soma discreta).
$P(\theta \mid D)$ — posterior: distribuição atualizada após observar $D$ .

A regra de Bayes:

P(\theta \mid D) = \frac{P(D \mid \theta)\, P(\theta)}{P(D)} \propto P(D \mid \theta)\, P(\theta)

what this means · O posterior é proporcional à verossimilhança vezes o prior. O denominador P(D) é apenas constante de normalização.

"O teorema de Bayes é um resultado básico de probabilidade condicional, mas sua interpretação muda tudo: ele oferece uma receita formal para atualizar crenças à luz de evidências." — OpenIntro Statistics §3.6

Priors conjugados: o caso Beta-Bernoulli

Definition· Família conjugada Beta-Bernoulli

Quando $X_1, \ldots, X_n \stackrel{\text{iid}}{\sim} \text{Bernoulli}(\theta)$ e o prior é $\theta \sim \text{Beta}(\alpha, \beta)$ , o posterior tem forma fechada:

\theta \mid D \;\sim\; \text{Beta}(\alpha + s,\; \beta + n - s)

what this means · Após s sucessos em n tentativas, o posterior é outra Beta com parâmetros atualizados.

onde $s = \sum_i X_i$ é o número de sucessos. A Beta é conjugada para a Bernoulli: prior e posterior pertencem à mesma família.

A distribuição Beta tem densidade:

f(\theta; a, b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}, \quad \theta \in [0, 1]

what this means · Densidade da Beta(a,b): definida em [0,1], controlada pelos parâmetros a e b.

com $B(a, b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$ .

Estimadores pontuais

Definition· MAP e MLE

Dado o posterior $P(\theta \mid D)$ :

MAP (maximum a posteriori): $\hat\theta_{\text{MAP}} = \arg\max_\theta P(\theta \mid D)$ . Maximiza o posterior — inclui informação do prior.
MLE (maximum likelihood): $\hat\theta_{\text{MLE}} = \arg\max_\theta P(D \mid \theta)$ . Maximiza a verossimilhança — ignora o prior.
Média posterior (Bayes estimator quadrático): $E[\theta \mid D]$ .

Relação: Com prior uniforme ( $P(\theta) = c$ ), MAP = MLE. Com $n \to \infty$ , posterior concentra em $\hat\theta_{\text{MLE}}$ — prior se torna irrelevante conforme os dados aumentam.

Para Beta-Bernoulli:

\hat\theta_{\text{MAP}} = \frac{\alpha + s - 1}{\alpha + \beta + n - 2}, \quad E[\theta \mid D] = \frac{\alpha + s}{\alpha + \beta + n}

what this means · MAP e média posterior para o caso Beta-Bernoulli. Compare com o MLE = s/n (proporção empírica).

Intervalo credível

Fator de Bayes

Fluxo bayesiano: prior × verossimilhança → posterior. O posterior vira o novo prior ao chegarem mais dados.

Exemplos resolvidos

Example— 1· Regra de Bayes discreta — diagnóstico (básico)

Problema. Uma doença afeta 2% da população. Um teste tem sensibilidade 90% e especificidade 85%. Um paciente testa positivo. Qual a probabilidade de ele ter a doença?

Estratégia. Aplicar a fórmula de Bayes com partição $\{D, \neg D\}$ e calcular $P(D \mid +)$ .

Resolução.

$P(D) = 0{,}02$ , $P(\neg D) = 0{,}98$ , $P(+ \mid D) = 0{,}90$ , $P(+ \mid \neg D) = 0{,}15$ .

Evidência total: $P(+) = P(+ \mid D)\,P(D) + P(+ \mid \neg D)\,P(\neg D)$ $= 0{,}90 \times 0{,}02 + 0{,}15 \times 0{,}98 = 0{,}018 + 0{,}147 = 0{,}165$

Posterior: $P(D \mid +) = \frac{0{,}90 \times 0{,}02}{0{,}165} = \frac{0{,}018}{0{,}165} \approx 0{,}109 = 10{,}9\%$

Verificação. Com apenas 2% de prevalência, mesmo um teste relativamente bom gera muitos falsos positivos. A resposta $\approx 11\%$ faz sentido: a maioria dos positivos vem da população saudável enorme.

Fonte. OpenIntro Statistics §3.6, exemplo de diagnóstico médico — CC-BY-SA.

Example— 2· Atualização sequencial Beta-Bernoulli (intermediário)

Problema. Uma urna tem proporção desconhecida $\theta$ de bolas vermelhas. Prior: $\theta \sim \text{Beta}(2, 2)$ . Retira-se com reposição: 1ª amostra — 3 vermelhas em 5 retiradas; 2ª amostra — 4 vermelhas em 6 retiradas. Calcule o posterior após cada amostra e a média posterior final.

Estratégia. Beta-Bernoulli: após $s$ sucessos em $n$ tentativas, $\text{Beta}(\alpha, \beta) \to \text{Beta}(\alpha+s, \beta+n-s)$ . Aplicar iterativamente.

Resolução.

Prior: $\text{Beta}(2, 2)$ , média $= 2/4 = 0{,}50$ .

Após 1ª amostra ( $s = 3$ , $n = 5$ ): $\text{Beta}(2+3,\; 2+5-3) = \text{Beta}(5, 4), \quad E[\theta] = \frac{5}{9} \approx 0{,}556$

Após 2ª amostra ( $s = 4$ , $n = 6$ ): $\text{Beta}(5+4,\; 4+6-4) = \text{Beta}(9, 6), \quad E[\theta] = \frac{9}{15} = 0{,}600$

Verificação. Total de dados: 7 vermelhas em 11 retiradas, proporção amostral = $7/11 \approx 0{,}636$ . Média posterior 0,60 está entre o prior (0,50) e a proporção amostral — faz sentido. Com prior fraco, o posterior converge para o MLE conforme $n$ cresce.

Fonte. Think Bayes §3 — Allen Downey — CC-BY-NC-SA.

Example— 3· MAP vs MLE vs media posterior (intermediario)

Problema. Para o modelo Beta-Bernoulli com $\alpha = 3$ , $\beta = 3$ , após 6 sucessos em 10 tentativas, calcule o MLE, o MAP e a média posterior. Interprete a diferença.

Estratégia. MLE maximiza a verossimilhança; MAP maximiza o posterior; média posterior é $E[\theta \mid D]$ .

Resolução.

MLE: $\hat\theta_{\text{MLE}} = s/n = 6/10 = 0{,}600$ .

Posterior: $\text{Beta}(3+6, 3+4) = \text{Beta}(9, 7)$ .

MAP (moda da Beta $(a, b)$ com $a, b > 1$ é $(a-1)/(a+b-2)$ ): $\hat\theta_{\text{MAP}} = \frac{9 - 1}{9 + 7 - 2} = \frac{8}{14} \approx 0{,}571$

Média posterior: $E[\theta \mid D] = \frac{9}{9 + 7} = \frac{9}{16} = 0{,}5625$

Verificação. Ordenação: média $(0{,}5625)$ entre MAP $(0{,}571)$ e a moda de Beta(9,7). MLE $(0{,}60)$ é o maior — o prior "puxa" em direção a 0,5 (prior simétrico em torno de 0,5). Com $n$ grande, todos os três convergem para o MLE.

Fonte. Think Bayes §4, §6 — Allen Downey — CC-BY-NC-SA.

Example— 4· Intervalo credível 95% Beta (avancado)

Problema. Após 12 sucessos em 20 tentativas com prior $\text{Beta}(1, 1)$ (uniforme), calcule o intervalo credível central de 95% para $\theta$ .

Estratégia. Posterior $\text{Beta}(13, 9)$ . O intervalo central de 95% é dado pelos percentis 2,5% e 97,5% da distribuição Beta.

Resolução.

Posterior: $\text{Beta}(1+12, 1+8) = \text{Beta}(13, 9)$ .

Média posterior: $13/(13+9) = 13/22 \approx 0{,}591$ .

Por tabela ou software (R: qbeta(c(0.025, 0.975), 13, 9)):

Percentil 2,5%: $\approx 0{,}376$ . Percentil 97,5%: $\approx 0{,}779$ .

Intervalo credível 95%: $(0{,}376;\; 0{,}779)$ .

Verificação. Interpretação direta: "dado o prior uniforme e os dados, a probabilidade de $\theta$ estar entre 0,376 e 0,779 é 95%". Note que o intervalo não está centrado em 0,6 — é assimétrico porque a Beta é assimétrica neste caso.

Fonte. Introduction to Probability §4.1 — Grinstead & Snell — GNU FDL.

Example— 5· Bayes factor — comparacao de hipoteses (demonstracao)

Problema. Para testar se $\theta = 0{,}5$ (moeda justa) versus $\theta = 0{,}7$ (moeda viciada), com prior equiprovável ( $P(H_0) = P(H_1) = 0{,}5$ ), calcule o fator de Bayes e a probabilidade posterior de $H_1$ após 8 caras em 10 lançamentos.

Estratégia. Calcular $P(D \mid H_i)$ para cada hipótese, depois aplicar Bayes.

Resolução.

$P(D \mid H_0) = \binom{10}{8}(0{,}5)^{10} = 45 \times \frac{1}{1024} \approx 0{,}0439$

$P(D \mid H_1) = \binom{10}{8}(0{,}7)^8(0{,}3)^2 = 45 \times 0{,}05765 \times 0{,}09 \approx 0{,}2335$

Fator de Bayes: $BF_{10} = \frac{0{,}2335}{0{,}0439} \approx 5{,}32$

Com prior $P(H_0) = P(H_1) = 0{,}5$ : $P(H_1 \mid D) = \frac{BF_{10}}{1 + BF_{10}} = \frac{5{,}32}{6{,}32} \approx 0{,}842$

Verificação. $BF_{10} \approx 5{,}32$ — evidência moderada a favor de $H_1$ (escala de Jeffreys: entre 3 e 10 é "moderada"). A probabilidade posterior de moeda viciada passou de 50% para 84%. Coerente com os dados (8 de 10 favorece $\theta = 0{,}7$ ).

Fonte. OpenIntro Statistics §3.7 — Diez, Çetinkaya-Rundel, Barr — CC-BY-SA.

Exercise list

34 exercises · 8 with worked solution (25%)

Application 24Understanding 3Modeling 4Challenge 1Proof 2

Fontes

Think Bayes — Allen B. Downey · CC-BY-NC-SA · Greenteapress · Capítulos 1–9.
Introduction to Probability — Grinstead & Snell · GNU FDL · Dartmouth · §4.1.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · OpenIntro · §3.6–3.7.