Lição 109 — Estatística bayesiana introdutória
Prior, verossimilhança, posterior. Regra de Bayes. Conjugados Beta-Bernoulli. MAP versus MLE. Intervalo credível. Introdução à inferência pelo paradigma bayesiano.
Used in: Stochastik LK (Alemanha, Klasse 12) · H2 Math Statistics (Singapura) · AP Statistics (EUA)
A regra de Bayes atualiza nossa crença sobre o parâmetro após observar os dados . O posterior é proporcional ao produto da verossimilhança pelo prior , normalizado pela evidência .
Rigorous notation, full derivation, hypotheses
Definição rigorosa
O teorema de Bayes
"O teorema de Bayes é um resultado básico de probabilidade condicional, mas sua interpretação muda tudo: ele oferece uma receita formal para atualizar crenças à luz de evidências." — OpenIntro Statistics §3.6
Priors conjugados: o caso Beta-Bernoulli
Estimadores pontuais
Intervalo credível
Fator de Bayes
Para comparar hipóteses e :
Escala de Jeffreys: — forte evidência para ; — forte para ; — inconclusivo.
Fluxo bayesiano: prior × verossimilhança → posterior. O posterior vira o novo prior ao chegarem mais dados.
Exemplos resolvidos
Problema. Uma doença afeta 2% da população. Um teste tem sensibilidade 90% e especificidade 85%. Um paciente testa positivo. Qual a probabilidade de ele ter a doença?
Estratégia. Aplicar a fórmula de Bayes com partição e calcular .
Resolução.
, , , .
Evidência total:
Posterior:
Verificação. Com apenas 2% de prevalência, mesmo um teste relativamente bom gera muitos falsos positivos. A resposta faz sentido: a maioria dos positivos vem da população saudável enorme.
Fonte. OpenIntro Statistics §3.6, exemplo de diagnóstico médico — CC-BY-SA.
Problema. Uma urna tem proporção desconhecida de bolas vermelhas. Prior: . Retira-se com reposição: 1ª amostra — 3 vermelhas em 5 retiradas; 2ª amostra — 4 vermelhas em 6 retiradas. Calcule o posterior após cada amostra e a média posterior final.
Estratégia. Beta-Bernoulli: após sucessos em tentativas, . Aplicar iterativamente.
Resolução.
Prior: , média .
Após 1ª amostra (, ):
Após 2ª amostra (, ):
Verificação. Total de dados: 7 vermelhas em 11 retiradas, proporção amostral = . Média posterior 0,60 está entre o prior (0,50) e a proporção amostral — faz sentido. Com prior fraco, o posterior converge para o MLE conforme cresce.
Fonte. Think Bayes §3 — Allen Downey — CC-BY-NC-SA.
Problema. Para o modelo Beta-Bernoulli com , , após 6 sucessos em 10 tentativas, calcule o MLE, o MAP e a média posterior. Interprete a diferença.
Estratégia. MLE maximiza a verossimilhança; MAP maximiza o posterior; média posterior é .
Resolução.
MLE: .
Posterior: .
MAP (moda da Beta com é ):
Média posterior:
Verificação. Ordenação: média entre MAP e a moda de Beta(9,7). MLE é o maior — o prior "puxa" em direção a 0,5 (prior simétrico em torno de 0,5). Com grande, todos os três convergem para o MLE.
Fonte. Think Bayes §4, §6 — Allen Downey — CC-BY-NC-SA.
Problema. Após 12 sucessos em 20 tentativas com prior (uniforme), calcule o intervalo credível central de 95% para .
Estratégia. Posterior . O intervalo central de 95% é dado pelos percentis 2,5% e 97,5% da distribuição Beta.
Resolução.
Posterior: .
Média posterior: .
Por tabela ou software (R: qbeta(c(0.025, 0.975), 13, 9)):
Percentil 2,5%: . Percentil 97,5%: .
Intervalo credível 95%: .
Verificação. Interpretação direta: "dado o prior uniforme e os dados, a probabilidade de estar entre 0,376 e 0,779 é 95%". Note que o intervalo não está centrado em 0,6 — é assimétrico porque a Beta é assimétrica neste caso.
Fonte. Introduction to Probability §4.1 — Grinstead & Snell — GNU FDL.
Problema. Para testar se (moeda justa) versus (moeda viciada), com prior equiprovável (), calcule o fator de Bayes e a probabilidade posterior de após 8 caras em 10 lançamentos.
Estratégia. Calcular para cada hipótese, depois aplicar Bayes.
Resolução.
Fator de Bayes:
Com prior :
Verificação. — evidência moderada a favor de (escala de Jeffreys: entre 3 e 10 é "moderada"). A probabilidade posterior de moeda viciada passou de 50% para 84%. Coerente com os dados (8 de 10 favorece ).
Fonte. OpenIntro Statistics §3.7 — Diez, Çetinkaya-Rundel, Barr — CC-BY-SA.
Exercise list
34 exercises · 8 with worked solution (25%)
- Ex. 109.1Application
Prevalência de uma doença: 1%. Sensibilidade do teste: 95%. Taxa de falso-positivo: 10%. Um paciente testa positivo. Calcule a probabilidade de ter a doença.
Show solution
Usando Bayes: . O prior baixo (1%) gera muitos falsos positivos mesmo com teste razoável. - Ex. 109.2Application
Uma moeda lançada 10 vezes dá 4 caras. Prior: Beta(1,1) (uniforme). Calcule o posterior, a média posterior e compare com o MLE.
Show solution
Posterior: . Média posterior: . MLE: . O prior uniforme "empurra" ligeiramente a estimativa.Show step-by-step (with the why)
- Prior uniforme = Beta(1,1). Nada sabemos antes.
- Dados: 4 sucessos em 10 tentativas, logo .
- Posterior: .
- Média posterior: .
- MLE: proporção amostral . O prior uniforme puxa muito pouco porque os dados dominam.
- Ex. 109.3Application
Prior: Beta(4, 6). Amostra: 7 sucessos em 10. Calcule o posterior, a média posterior e o MAP.
Show solution
Posterior: . Média: . MAP: . - Ex. 109.4Application
Prior: Beta(2, 2). Lote 1: 5 sucessos em 10. Lote 2: 8 sucessos em 10. Faça a atualização sequencial e calcule a média posterior final.
Show solution
Posterior final: . Média: . - Ex. 109.5Application
Prevalência: 0,5%. Sensibilidade: 99%. Taxa de falso-positivo: 2%. Paciente testa positivo. Qual a probabilidade de ter a doença?
Show solution
Evidência: . Posterior: . Menos de 20% mesmo com teste muito bom. - Ex. 109.6Application
3 sucessos em 10 tentativas. Compare a média posterior com priors Beta(1,1) e Beta(5,5). Qual prior tem maior influência sobre o posterior?
Show solution
MLE: . Com Beta(1,1): média posterior = 4/12 = 0,333. Com Beta(5,5): média posterior = 8/20 = 0,40. Prior mais forte puxa mais para 0,5. - Ex. 109.7Application
Três fábricas produzem parafusos: E1 (60% da produção, 30% defeituosos), E2 (30%, 50% defeituosos), E3 (10%, 10% defeituosos). Um parafuso defeituoso é retirado. Qual a probabilidade de vir de E1?
Show solution
Tabela de Bayes: . - Ex. 109.8Application
Prior: Beta(3, 3) (leve crença em moeda justa, média 0,5). Jogam-se 5 vezes e saem 0 caras. Calcule o posterior e a nova média.
Show solution
Posterior após 0 sucessos em 5: . Média: . Antes: 0,50. A ausência de sucessos reduz a crença na moeda justa. - Ex. 109.9Application
Prior: Beta(1,1). Dados: 15 sucessos em 20. Calcule MAP e MLE. São iguais? Por quê?
Show solution
MAP da Beta(a,b) com a,b maior que 1 é . Posterior: Beta(1+15, 1+5) = Beta(16,6). MAP: . MLE: . Com prior uniforme, MAP = MLE. - Ex. 109.10Application
Saco com duas moedas: uma sempre dá cara (H), outra é justa (J). Escolhida uma ao acaso. Jogada duas vezes, ambas caras. Qual a probabilidade de ser a moeda H?
Show solution
. Há 80% de chance de ser a moeda honesta (que sempre dá cara). - Ex. 109.11Understanding
O que significa um intervalo credível bayesiano de 95%?
Show solution
O intervalo credível bayesiano tem interpretação direta: dado o prior e os dados, a probabilidade de estar no intervalo é exatamente . Isso é possível porque, no paradigma bayesiano, é variável aleatória com distribuição. A opção B descreve o IC frequentista. - Ex. 109.12UnderstandingAnswer key
Qual afirmação sobre MAP e MLE é INCORRETA?
Show solution
A afirmação correta é A: MAP = MLE quando o prior é uniforme, pois maximizar (constante) equivale a maximizar . A opção B está errada — com prior não uniforme, MAP e MLE diferem. Opção D descreve convergência assintótica, não igualdade. - Ex. 109.13Understanding
Como o tamanho amostral n afeta a relação entre prior e posterior?
Show solution
Com grande, a verossimilhança domina — o posterior converge para o MLE independentemente do prior (resultado Bernstein–von Mises). A afirmação D é correta. A afirmação A tem a lógica correta para n pequeno a moderado, mas quando n é grande até o prior forte se dilui. - Ex. 109.14Application
Um estudante passa no exame (). Sabe-se: (estudou muito, probabilidade 60%), (não estudou, probabilidade 40%). Dado que passou, qual a probabilidade de ter estudado muito?
Show solution
. . - Ex. 109.15Application
Uma máquina tem taxa de acerto desconhecida. Prior: Beta(4, 2) (histórico de 4 acertos e 2 falhas). Teste novo: 6 acertos consecutivos. Calcule o posterior, média e MAP.
Show solution
Beta(10, 2). Média: 10/12 ≈ 0,833. MAP: 9/10 = 0,9. O prior informativo (Beta(4,2)) pesa menos que os dados (6 de 6): o posterior reflete a sequência perfeita mas com lembrança de que falhas ocorreram antes. - Ex. 109.16Application
Calcule o Bayes Factor para versus após 8 caras em 10 lançamentos.
Show solution
. Numerador: . Denominador: . BF ≈ 5,32. Evidência moderada para moeda viciada. - Ex. 109.17ApplicationAnswer key
Três lotes de 10 tentativas cada: 7 sucesso, 6 sucesso, 7 sucesso. Prior: Beta(1,1). Faça a atualização sequencial e calcule a média posterior final.
Show solution
Posterior acumulado após 30 tentativas (20 sucesso): Beta(1+20, 1+10) = Beta(21, 11). Média: 21/32 ≈ 0,656. Com n=30, o prior Beta(1,1) tem peso mínimo; a média posterior ≈ MLE = 20/30 = 0,667. - Ex. 109.18Application
Prevalência: 30%. Sensibilidade: 95%. Taxa de falso-positivo: 20%. Paciente testa positivo. Calcule a probabilidade de ter a doença e compare com o exercício 109.1.
Show solution
Evidência: P(+) = 0,95 × 0,30 + 0,20 × 0,70 = 0,285 + 0,14 = 0,425. P(doença | +) = 0,285/0,425 ≈ 67,1%. Alta prevalência muda dramaticamente o VPP. - Ex. 109.19ApplicationAnswer key
Mostre que a média posterior do modelo Beta-Bernoulli é uma média ponderada entre o prior e a proporção amostral. Identifique os pesos.
Show solution
A média da Beta(a,b) é a/(a+b). Após n tentativas com s sucessos e prior Beta(α,β): média posterior = (α+s)/(α+β+n). É uma ponderação entre o prior (α/(α+β)) e a proporção amostral (s/n), com pesos (α+β) e n. - Ex. 109.20Application
Prior: Beta(2, 2). Dados: 0 sucessos em 3. Calcule o posterior, MAP e média posterior.
Show solution
Beta(2+0, 2+3) = Beta(2,5). Média: 2/7 ≈ 0,286. MAP: (2-1)/(2+5-2) = 1/5 = 0,20. Com 0 de 3, o posterior se concentra em valores baixos de θ. - Ex. 109.21Application
Probabilidade de chuva em Fortaleza em determinado dia: 40%. Se vai chover, há 85% de chance de ter nuvens carregadas. Se não vai chover, 30%. Há nuvens carregadas. Qual a probabilidade de chover?
Show solution
P(chuva | nuvem) = P(nuvem | chuva) × P(chuva) / P(nuvem). P(nuvem) = 0,85 × 0,4 + 0,3 × 0,6 = 0,34 + 0,18 = 0,52. Posterior = 0,34/0,52 ≈ 65,4%. - Ex. 109.22ApplicationAnswer key
Histórico de produção: 10% de defeitos (equivalente a 10 defeitos em 100 peças = Beta(10,90)). Inspeção nova: 3 defeitos em 20. Calcule o posterior e a média posterior.
Show solution
Com prior Beta(10, 90) (esperança 10%), após 3 defeituosos em 20: Beta(13, 107). Média: 13/120 ≈ 10,8%. O prior forte (100 observações anteriores) absorve a pequena amostra nova. - Ex. 109.23Application
Saco com 3 moedas: 1 sempre dá cara (H), 2 são justas (J). Uma moeda é retirada aleatoriamente e lançada: sai cara. Qual a probabilidade de ser a moeda H?
Show solution
P(H) = 1/3, P(J) = 2/3. P(cara | H) = 1, P(cara | J) = 0,5. P(H | cara) = (1 × 1/3) / (1 × 1/3 + 0,5 × 2/3) = (1/3) / (2/3) = 0,5. Após 1 cara: 50%.Show step-by-step (with the why)
- Monte a tabela: hipótese, prior, likelihood, produto.
- H (sempre cara): prior 1/3, likelihood 1, produto 1/3.
- J (justa): prior 2/3, likelihood 0,5, produto 1/3.
- Soma dos produtos = 2/3. Normalize: P(H|cara) = (1/3)/(2/3) = 0,5.
- Surpreendente: 1 cara não distingue entre as duas moedas — o prior de J ser mais provável equilibra com a likelihood maior de H.
- Ex. 109.24Application
Prior Beta(1,1). Dados: 10 sucessos em 20. Descreva o posterior e o intervalo credível central de 95% (use que o percentil 2,5% da Beta(11,11) ≈ 0,31).
Show solution
Posterior após 10 sucessos em 20 com Beta(1,1): Beta(11,11). Intervalo central 95%: percentis 2,5% e 97,5% da Beta(11,11). Por simetria (a=b), centrado em 0,5. Aprox. (0,31; 0,69). - Ex. 109.25Modeling
Um cursinho histórico aprova 70% dos alunos no ENEM. Nova turma, 20 alunos: 15 passaram. Proponha um prior Beta adequado, calcule o posterior e a média posterior da taxa de aprovação.
Show solution
Prior natural: Beta(α, β) com α/(α+β) = taxa histórica de aprovação (ex: 70%). Se histórico sugere 70%: Beta(7,3). Após 15 aprovações em 20 alunos da nova turma: Beta(22,8). Média posterior: 22/30 ≈ 73,3%. Intervalo credível (usar software ou tabela). - Ex. 109.26ModelingAnswer key
Prevalência de câncer de pâncreas: 0,2%. Biópsia: sensibilidade 92%, especificidade 97%. Exame positivo. Calcule P(câncer | positivo) e discuta a decisão médica.
Show solution
Bayes inverso do médico: P(câncer) = 0,002 (raros). Biópsia positiva: sensibilidade 92%, falso-positivo 3%. P(câncer | biópsia+) = (0,92 × 0,002)/(0,92 × 0,002 + 0,03 × 0,998) = 0,00184/0,03178 ≈ 5,8%. Mesmo assim, biópsia é recomendada pois o custo de não tratar é enorme. - Ex. 109.27Modeling
Uma transportadora relata 20 entregas com atraso em 50 entregas monitoradas. Usando prior Beta(1,1), estime a taxa de atraso com um intervalo credível de 90%.
Show solution
Com prior Beta(1,1) e 20 atrasos em 50 entregas: Beta(21, 31). Média: 21/52 ≈ 40,4%. IC credível 90% aprox. (0,29; 0,53). A operação mantém taxa próxima dos 40%. Bayesiano permite dizer "há 90% de chance de a taxa estar entre 29% e 53%". - Ex. 109.28ModelingAnswer key
Uma fintech sabe que 1% das transações são fraudulentas. Um algoritmo detecta que a transação atual tem valor fora do padrão do cliente. P(valor anormal | fraude) = 85%, P(valor anormal | legítima) = 2%. Calcule a probabilidade de fraude.
Show solution
Antes: P(fraude) = 0,01. Transação de R\$ 15.000 fora do padrão. P(transação grande | fraude) = 0,85, P(transação grande | legítima) = 0,02. Posterior: (0,85 × 0,01)/(0,85 × 0,01 + 0,02 × 0,99) = 0,0085/0,0283 ≈ 30,0%. Um sinal suspeito eleva de 1% para 30%.Show step-by-step (with the why)
- Identificar prior: P(fraude) = 0,01.
- Likelihood: P(valor alto | fraude) = 0,85; P(valor alto | legítima) = 0,02.
- Calcular evidência: P(valor alto) = 0,85 × 0,01 + 0,02 × 0,99 = 0,0085 + 0,0198 = 0,0283.
- Aplicar Bayes: posterior = 0,0085/0,0283 ≈ 30%.
- Decisão: com 30% de chance de fraude, vale investigar (bloquear temporariamente).
- Ex. 109.29Proof
Mostre que, para o modelo Bernoulli com prior Beta, o posterior é também Beta. Identifique os parâmetros.
Show solution
Verossimilhança para s sucessos em n Bernoulli(θ): . Prior Beta(α,β): proporcional a . Posterior: proporcional a , que é exatamente o núcleo da Beta(α+s, β+n-s). A constante de normalização é B(α+s, β+n-s). - Ex. 109.30ProofAnswer key
Demonstre que, com prior Beta(1,1) (uniforme), o estimador MAP coincide com o MLE para o modelo Bernoulli.
Show solution
Prior uniforme: Beta(1,1), densidade constante 1 em [0,1]. Posterior com s sucessos em n: Beta(1+s, 1+n-s), proporcional a . Essa é exatamente a verossimilhança (Bernoulli). Logo maximizar o posterior = maximizar a verossimilhança = MAP = MLE = s/n. - Ex. 109.31ApplicationAnswer key
Filtro de spam: 20% dos emails são spam. Em emails spam, cada palavra-chave suspeita aparece com probabilidade 60%; em emails legítimos, 5%. Um email tem 3 palavras-chave. Qual a probabilidade de ser spam?
Show solution
P(email spam | 3 palavras-chave) aplicando Naive Bayes: P(spam) = 0,2, P(palavras | spam) = 0,6^3 = 0,216, P(palavras | legítimo) = 0,05^3 = 0,000125. Posterior: (0,216 × 0,2)/(0,216 × 0,2 + 0,000125 × 0,8) = 0,0432/0,04321 ≈ 99,97%. - Ex. 109.32Application
Dois grupos de ratos: linhagem 1 (10 animais, 8 desenvolveram tumor após exposição) e linhagem 2 (10 animais, 3 desenvolveram). Prior Beta(1,1) para ambas as taxas. Calcule o posterior e a média posterior para cada linhagem.
Show solution
Posteriores: H1: Beta(1+8, 1+2) = Beta(9,3); H2: Beta(1+3, 1+7) = Beta(4,8). Médias: H1 = 9/12 = 0,75; H2 = 4/12 = 0,33. A linhagem 1 tem probabilidade estimada de transmissão bem maior. IC credível 95% para H1 aprox. (0,46; 0,94). - Ex. 109.33Application
Uma urna tem proporção desconhecida de bolas laranjas. Após 100 retiradas com reposição, 50 são laranjas. Prior Beta(1,1). Calcule o posterior, a média e o intervalo credível 95%.
Show solution
Após 50 sorteios de bola laranja em 100: Beta(1+50, 1+50) = Beta(51,51). Média: 0,5. MAP: 50/100 = 0,5. IC 95% aprox. (0,40; 0,60). Com n=100, o IC se estreita muito comparado ao caso de n=10. - Ex. 109.34Challenge
O prior de Jeffreys para a Bernoulli é Beta(0,5; 0,5). Após 6 sucessos em 10, calcule o posterior. Pesquise o que significa esse prior ser "invariante por parametrização" e compare a média posterior com o prior Beta(1,1).
Show solution
O prior Beta(0,5; 0,5) é o prior de Jeffreys para o modelo Bernoulli. É invariante por transformações — se θ → φ = g(θ), o prior resultante também é de Jeffreys para a nova parametrização. É "objetivamente não-informativo" no sentido de não privilegiar nenhuma parametrização. Após 6 sucessos em 10: Beta(6,5; 4,5). Média ≈ 0,591, diferente de 0,60 do MAP com prior uniforme.
Fontes
- Think Bayes — Allen B. Downey · CC-BY-NC-SA · Greenteapress · Capítulos 1–9.
- Introduction to Probability — Grinstead & Snell · GNU FDL · Dartmouth · §4.1.
- OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · OpenIntro · §3.6–3.7.