Math ClubMath Club
v1 · padrão canônico

Lição 109 — Estatística bayesiana introdutória

Prior, verossimilhança, posterior. Regra de Bayes. Conjugados Beta-Bernoulli. MAP versus MLE. Intervalo credível. Introdução à inferência pelo paradigma bayesiano.

Used in: Stochastik LK (Alemanha, Klasse 12) · H2 Math Statistics (Singapura) · AP Statistics (EUA)

P(θD)=P(Dθ)P(θ)P(D)P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)}

A regra de Bayes atualiza nossa crença sobre o parâmetro θ\theta após observar os dados DD. O posterior P(θD)P(\theta \mid D) é proporcional ao produto da verossimilhança P(Dθ)P(D \mid \theta) pelo prior P(θ)P(\theta), normalizado pela evidência P(D)P(D).

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

O teorema de Bayes

"O teorema de Bayes é um resultado básico de probabilidade condicional, mas sua interpretação muda tudo: ele oferece uma receita formal para atualizar crenças à luz de evidências." — OpenIntro Statistics §3.6

Priors conjugados: o caso Beta-Bernoulli

Estimadores pontuais

Intervalo credível

Fator de Bayes

Prior P(θ)Beta(α, β)VerossimilhançaP(D | θ)s sucessos / n×Posterior P(θ|D)Beta(α+s, β+n−s)crença atualizadaCiclo de atualização bayesiana — posterior vira prior para próximos dados

Fluxo bayesiano: prior × verossimilhança → posterior. O posterior vira o novo prior ao chegarem mais dados.

Exemplos resolvidos

Exercise list

34 exercises · 8 with worked solution (25%)

Application 24Understanding 3Modeling 4Challenge 1Proof 2
  1. Ex. 109.1Application

    Prevalência de uma doença: 1%. Sensibilidade do teste: 95%. Taxa de falso-positivo: 10%. Um paciente testa positivo. Calcule a probabilidade de ter a doença.

    Show solution
    Usando Bayes: P(doenc¸a+)=0,95×0,010,95×0,01+0,10×0,99=0,00950,10858,76%P(\text{doença} \mid +) = \frac{0{,}95 \times 0{,}01}{0{,}95 \times 0{,}01 + 0{,}10 \times 0{,}99} = \frac{0{,}0095}{0{,}1085} \approx 8{,}76\%. O prior baixo (1%) gera muitos falsos positivos mesmo com teste razoável.
  2. Ex. 109.2Application

    Uma moeda lançada 10 vezes dá 4 caras. Prior: Beta(1,1) (uniforme). Calcule o posterior, a média posterior e compare com o MLE.

    Show solution
    Posterior: Beta(1+4,1+6)=Beta(5,7)\text{Beta}(1+4, 1+6) = \text{Beta}(5, 7). Média posterior: 5/120,4175/12 \approx 0{,}417. MLE: 4/10=0,404/10 = 0{,}40. O prior uniforme "empurra" ligeiramente a estimativa.
    Show step-by-step (with the why)
    1. Prior uniforme = Beta(1,1). Nada sabemos antes.
    2. Dados: 4 sucessos em 10 tentativas, logo s=4,n=10s=4, n=10.
    3. Posterior: Beta(1+4,1+104)=Beta(5,7)\text{Beta}(1+4, 1+10-4) = \text{Beta}(5,7).
    4. Média posterior: α/(α+β)=5/120,417\alpha/(\alpha+\beta) = 5/12 \approx 0{,}417.
    5. MLE: proporção amostral s/n=0,40s/n = 0{,}40. O prior uniforme puxa muito pouco porque os dados dominam.
    Macete: Com prior Beta(1,1), a média posterior é sempre (s+1)/(n+2) — chamada de estimativa de Laplace.
  3. Ex. 109.3Application

    Prior: Beta(4, 6). Amostra: 7 sucessos em 10. Calcule o posterior, a média posterior e o MAP.

    Show solution
    Posterior: Beta(4+7,6+3)=Beta(11,9)\text{Beta}(4+7, 6+3) = \text{Beta}(11, 9). Média: 11/20=0,5511/20 = 0{,}55. MAP: (111)/(11+92)=10/180,556(11-1)/(11+9-2) = 10/18 \approx 0{,}556.
  4. Ex. 109.4Application

    Prior: Beta(2, 2). Lote 1: 5 sucessos em 10. Lote 2: 8 sucessos em 10. Faça a atualização sequencial e calcule a média posterior final.

    Show solution
    Posterior final: Beta(2+5+8,2+55+108)=Beta(15,4)\text{Beta}(2+5+8, 2+5-5+10-8) = \text{Beta}(15, 4). Média: 15/190,78915/19 \approx 0{,}789.
  5. Ex. 109.5Application

    Prevalência: 0,5%. Sensibilidade: 99%. Taxa de falso-positivo: 2%. Paciente testa positivo. Qual a probabilidade de ter a doença?

    Show solution
    Evidência: P(+)=0,99×0,005+0,02×0,995=0,00495+0,01990=0,02485P(+) = 0{,}99 \times 0{,}005 + 0{,}02 \times 0{,}995 = 0{,}00495 + 0{,}01990 = 0{,}02485. Posterior: 0,00495/0,0248519,9%0{,}00495/0{,}02485 \approx 19{,}9\%. Menos de 20% mesmo com teste muito bom.
  6. Ex. 109.6Application

    3 sucessos em 10 tentativas. Compare a média posterior com priors Beta(1,1) e Beta(5,5). Qual prior tem maior influência sobre o posterior?

    Show solution
    MLE: s/n=3/10=0,30s/n = 3/10 = 0{,}30. Com Beta(1,1): média posterior = 4/12 = 0,333. Com Beta(5,5): média posterior = 8/20 = 0,40. Prior mais forte puxa mais para 0,5.
  7. Ex. 109.7Application

    Três fábricas produzem parafusos: E1 (60% da produção, 30% defeituosos), E2 (30%, 50% defeituosos), E3 (10%, 10% defeituosos). Um parafuso defeituoso é retirado. Qual a probabilidade de vir de E1?

    Show solution
    Tabela de Bayes: P(E1B)=0,6×0,3/(0,6×0,3+0,3×0,5+0,1×0,1)=0,18/0,3452,9%P(E_1 \mid B) = 0{,}6 \times 0{,}3 / (0{,}6 \times 0{,}3 + 0{,}3 \times 0{,}5 + 0{,}1 \times 0{,}1) = 0{,}18/0{,}34 \approx 52{,}9\%.
  8. Ex. 109.8Application

    Prior: Beta(3, 3) (leve crença em moeda justa, média 0,5). Jogam-se 5 vezes e saem 0 caras. Calcule o posterior e a nova média.

    Show solution
    Posterior após 0 sucessos em 5: Beta(3+0,3+5)=Beta(3,8)\text{Beta}(3+0, 3+5) = \text{Beta}(3,8). Média: 3/110,2733/11 \approx 0{,}273. Antes: 0,50. A ausência de sucessos reduz a crença na moeda justa.
  9. Ex. 109.9Application

    Prior: Beta(1,1). Dados: 15 sucessos em 20. Calcule MAP e MLE. São iguais? Por quê?

    Show solution
    MAP da Beta(a,b) com a,b maior que 1 é (a1)/(a+b2)(a-1)/(a+b-2). Posterior: Beta(1+15, 1+5) = Beta(16,6). MAP: 15/20=0,7515/20 = 0{,}75. MLE: 15/20=0,7515/20 = 0{,}75. Com prior uniforme, MAP = MLE.
  10. Ex. 109.10Application

    Saco com duas moedas: uma sempre dá cara (H), outra é justa (J). Escolhida uma ao acaso. Jogada duas vezes, ambas caras. Qual a probabilidade de ser a moeda H?

    Show solution
    P(H2C)=P(2CH)P(H)P(2CH)P(H)+P(2CJ)P(J)=(1)2×0,5(1)2×0,5+(0,5)2×0,5=0,50,625=0,8P(H \mid 2C) = \frac{P(2C \mid H)P(H)}{P(2C \mid H)P(H) + P(2C \mid J)P(J)} = \frac{(1)^2 \times 0{,}5}{(1)^2 \times 0{,}5 + (0{,}5)^2 \times 0{,}5} = \frac{0{,}5}{0{,}625} = 0{,}8. Há 80% de chance de ser a moeda honesta (que sempre dá cara).
  11. Ex. 109.11Understanding

    O que significa um intervalo credível bayesiano de 95%?

    Select the correct option
    Select an option first
    Show solution
    O intervalo credível bayesiano tem interpretação direta: dado o prior e os dados, a probabilidade de θ\theta estar no intervalo é exatamente 1α1-\alpha. Isso é possível porque, no paradigma bayesiano, θ\theta é variável aleatória com distribuição. A opção B descreve o IC frequentista.
  12. Ex. 109.12UnderstandingAnswer key

    Qual afirmação sobre MAP e MLE é INCORRETA?

    Select the correct option
    Select an option first
    Show solution
    A afirmação correta é A: MAP = MLE quando o prior é uniforme, pois maximizar P(Dθ)×cP(D|\theta) \times c (constante) equivale a maximizar P(Dθ)P(D|\theta). A opção B está errada — com prior não uniforme, MAP e MLE diferem. Opção D descreve convergência assintótica, não igualdade.
  13. Ex. 109.13Understanding

    Como o tamanho amostral n afeta a relação entre prior e posterior?

    Select the correct option
    Select an option first
    Show solution
    Com nn grande, a verossimilhança domina — o posterior converge para o MLE independentemente do prior (resultado Bernstein–von Mises). A afirmação D é correta. A afirmação A tem a lógica correta para n pequeno a moderado, mas quando n é grande até o prior forte se dilui.
  14. Ex. 109.14Application

    Um estudante passa no exame (AA). Sabe-se: P(AB1)=0,8P(A \mid B_1) = 0{,}8 (estudou muito, probabilidade 60%), P(AB2)=0,2P(A \mid B_2) = 0{,}2 (não estudou, probabilidade 40%). Dado que passou, qual a probabilidade de ter estudado muito?

    Show solution
    P(AB1)=0,8,P(B1)=0,6,P(AB2)=0,2,P(B2)=0,4P(A \mid B_1) = 0{,}8, P(B_1) = 0{,}6, P(A \mid B_2) = 0{,}2, P(B_2) = 0{,}4. P(B1A)=(0,8×0,6)/(0,8×0,6+0,2×0,4)=0,48/0,5685,7%P(B_1 \mid A) = (0{,}8 \times 0{,}6)/(0{,}8 \times 0{,}6 + 0{,}2 \times 0{,}4) = 0{,}48/0{,}56 \approx 85{,}7\%.
  15. Ex. 109.15Application

    Uma máquina tem taxa de acerto desconhecida. Prior: Beta(4, 2) (histórico de 4 acertos e 2 falhas). Teste novo: 6 acertos consecutivos. Calcule o posterior, média e MAP.

    Show solution
    Beta(10, 2). Média: 10/12 ≈ 0,833. MAP: 9/10 = 0,9. O prior informativo (Beta(4,2)) pesa menos que os dados (6 de 6): o posterior reflete a sequência perfeita mas com lembrança de que falhas ocorreram antes.
  16. Ex. 109.16Application

    Calcule o Bayes Factor para H1:θ=0,7H_1: \theta = 0{,}7 versus H0:θ=0,5H_0: \theta = 0{,}5 após 8 caras em 10 lançamentos.

    Show solution
    BF10=P(8C,2Kθ=0,7)/P(8C,2Kθ=0,5)BF_{10} = P(8C, 2K \mid \theta=0{,}7)/P(8C, 2K \mid \theta=0{,}5). Numerador: (108)(0,7)8(0,3)20,2335\binom{10}{8}(0{,}7)^8(0{,}3)^2 \approx 0{,}2335. Denominador: (108)(0,5)100,0439\binom{10}{8}(0{,}5)^{10} \approx 0{,}0439. BF ≈ 5,32. Evidência moderada para moeda viciada.
  17. Ex. 109.17ApplicationAnswer key

    Três lotes de 10 tentativas cada: 7 sucesso, 6 sucesso, 7 sucesso. Prior: Beta(1,1). Faça a atualização sequencial e calcule a média posterior final.

    Show solution
    Posterior acumulado após 30 tentativas (20 sucesso): Beta(1+20, 1+10) = Beta(21, 11). Média: 21/32 ≈ 0,656. Com n=30, o prior Beta(1,1) tem peso mínimo; a média posterior ≈ MLE = 20/30 = 0,667.
  18. Ex. 109.18Application

    Prevalência: 30%. Sensibilidade: 95%. Taxa de falso-positivo: 20%. Paciente testa positivo. Calcule a probabilidade de ter a doença e compare com o exercício 109.1.

    Show solution
    Evidência: P(+) = 0,95 × 0,30 + 0,20 × 0,70 = 0,285 + 0,14 = 0,425. P(doença | +) = 0,285/0,425 ≈ 67,1%. Alta prevalência muda dramaticamente o VPP.
  19. Ex. 109.19ApplicationAnswer key

    Mostre que a média posterior do modelo Beta-Bernoulli é uma média ponderada entre o prior e a proporção amostral. Identifique os pesos.

    Show solution
    A média da Beta(a,b) é a/(a+b). Após n tentativas com s sucessos e prior Beta(α,β): média posterior = (α+s)/(α+β+n). É uma ponderação entre o prior (α/(α+β)) e a proporção amostral (s/n), com pesos (α+β) e n.
  20. Ex. 109.20Application

    Prior: Beta(2, 2). Dados: 0 sucessos em 3. Calcule o posterior, MAP e média posterior.

    Show solution
    Beta(2+0, 2+3) = Beta(2,5). Média: 2/7 ≈ 0,286. MAP: (2-1)/(2+5-2) = 1/5 = 0,20. Com 0 de 3, o posterior se concentra em valores baixos de θ.
  21. Ex. 109.21Application

    Probabilidade de chuva em Fortaleza em determinado dia: 40%. Se vai chover, há 85% de chance de ter nuvens carregadas. Se não vai chover, 30%. Há nuvens carregadas. Qual a probabilidade de chover?

    Show solution
    P(chuva | nuvem) = P(nuvem | chuva) × P(chuva) / P(nuvem). P(nuvem) = 0,85 × 0,4 + 0,3 × 0,6 = 0,34 + 0,18 = 0,52. Posterior = 0,34/0,52 ≈ 65,4%.
  22. Ex. 109.22ApplicationAnswer key

    Histórico de produção: 10% de defeitos (equivalente a 10 defeitos em 100 peças = Beta(10,90)). Inspeção nova: 3 defeitos em 20. Calcule o posterior e a média posterior.

    Show solution
    Com prior Beta(10, 90) (esperança 10%), após 3 defeituosos em 20: Beta(13, 107). Média: 13/120 ≈ 10,8%. O prior forte (100 observações anteriores) absorve a pequena amostra nova.
  23. Ex. 109.23Application

    Saco com 3 moedas: 1 sempre dá cara (H), 2 são justas (J). Uma moeda é retirada aleatoriamente e lançada: sai cara. Qual a probabilidade de ser a moeda H?

    Show solution
    P(H) = 1/3, P(J) = 2/3. P(cara | H) = 1, P(cara | J) = 0,5. P(H | cara) = (1 × 1/3) / (1 × 1/3 + 0,5 × 2/3) = (1/3) / (2/3) = 0,5. Após 1 cara: 50%.
    Show step-by-step (with the why)
    1. Monte a tabela: hipótese, prior, likelihood, produto.
    2. H (sempre cara): prior 1/3, likelihood 1, produto 1/3.
    3. J (justa): prior 2/3, likelihood 0,5, produto 1/3.
    4. Soma dos produtos = 2/3. Normalize: P(H|cara) = (1/3)/(2/3) = 0,5.
    5. Surpreendente: 1 cara não distingue entre as duas moedas — o prior de J ser mais provável equilibra com a likelihood maior de H.
    Observação: Se saírem 5 caras seguidas, P(H|CCCCC) = (1)⁵×(1/3) / [(1)⁵×(1/3) + (0,5)⁵×(2/3)] ≈ 0,94.
  24. Ex. 109.24Application

    Prior Beta(1,1). Dados: 10 sucessos em 20. Descreva o posterior e o intervalo credível central de 95% (use que o percentil 2,5% da Beta(11,11) ≈ 0,31).

    Show solution
    Posterior após 10 sucessos em 20 com Beta(1,1): Beta(11,11). Intervalo central 95%: percentis 2,5% e 97,5% da Beta(11,11). Por simetria (a=b), centrado em 0,5. Aprox. (0,31; 0,69).
  25. Ex. 109.25Modeling

    Um cursinho histórico aprova 70% dos alunos no ENEM. Nova turma, 20 alunos: 15 passaram. Proponha um prior Beta adequado, calcule o posterior e a média posterior da taxa de aprovação.

    Show solution
    Prior natural: Beta(α, β) com α/(α+β) = taxa histórica de aprovação (ex: 70%). Se histórico sugere 70%: Beta(7,3). Após 15 aprovações em 20 alunos da nova turma: Beta(22,8). Média posterior: 22/30 ≈ 73,3%. Intervalo credível (usar software ou tabela).
  26. Ex. 109.26ModelingAnswer key

    Prevalência de câncer de pâncreas: 0,2%. Biópsia: sensibilidade 92%, especificidade 97%. Exame positivo. Calcule P(câncer | positivo) e discuta a decisão médica.

    Show solution
    Bayes inverso do médico: P(câncer) = 0,002 (raros). Biópsia positiva: sensibilidade 92%, falso-positivo 3%. P(câncer | biópsia+) = (0,92 × 0,002)/(0,92 × 0,002 + 0,03 × 0,998) = 0,00184/0,03178 ≈ 5,8%. Mesmo assim, biópsia é recomendada pois o custo de não tratar é enorme.
  27. Ex. 109.27Modeling

    Uma transportadora relata 20 entregas com atraso em 50 entregas monitoradas. Usando prior Beta(1,1), estime a taxa de atraso com um intervalo credível de 90%.

    Show solution
    Com prior Beta(1,1) e 20 atrasos em 50 entregas: Beta(21, 31). Média: 21/52 ≈ 40,4%. IC credível 90% aprox. (0,29; 0,53). A operação mantém taxa próxima dos 40%. Bayesiano permite dizer "há 90% de chance de a taxa estar entre 29% e 53%".
  28. Ex. 109.28ModelingAnswer key

    Uma fintech sabe que 1% das transações são fraudulentas. Um algoritmo detecta que a transação atual tem valor fora do padrão do cliente. P(valor anormal | fraude) = 85%, P(valor anormal | legítima) = 2%. Calcule a probabilidade de fraude.

    Show solution
    Antes: P(fraude) = 0,01. Transação de R\$ 15.000 fora do padrão. P(transação grande | fraude) = 0,85, P(transação grande | legítima) = 0,02. Posterior: (0,85 × 0,01)/(0,85 × 0,01 + 0,02 × 0,99) = 0,0085/0,0283 ≈ 30,0%. Um sinal suspeito eleva de 1% para 30%.
    Show step-by-step (with the why)
    1. Identificar prior: P(fraude) = 0,01.
    2. Likelihood: P(valor alto | fraude) = 0,85; P(valor alto | legítima) = 0,02.
    3. Calcular evidência: P(valor alto) = 0,85 × 0,01 + 0,02 × 0,99 = 0,0085 + 0,0198 = 0,0283.
    4. Aplicar Bayes: posterior = 0,0085/0,0283 ≈ 30%.
    5. Decisão: com 30% de chance de fraude, vale investigar (bloquear temporariamente).
    Curiosidade: Sistemas antifraude reais encadeiam vários Bayes: cada sinal (localização, horário, valor) atualiza o score de risco sequencialmente.
  29. Ex. 109.29Proof

    Mostre que, para o modelo Bernoulli com prior Beta, o posterior é também Beta. Identifique os parâmetros.

    Show solution
    Verossimilhança para s sucessos em n Bernoulli(θ): L(θ)=(ns)θs(1θ)nsL(\theta) = \binom{n}{s}\theta^s(1-\theta)^{n-s}. Prior Beta(α,β): proporcional a θα1(1θ)β1\theta^{\alpha-1}(1-\theta)^{\beta-1}. Posterior: proporcional a θs+α1(1θ)ns+β1\theta^{s+\alpha-1}(1-\theta)^{n-s+\beta-1}, que é exatamente o núcleo da Beta(α+s, β+n-s). A constante de normalização é B(α+s, β+n-s).
  30. Ex. 109.30ProofAnswer key

    Demonstre que, com prior Beta(1,1) (uniforme), o estimador MAP coincide com o MLE para o modelo Bernoulli.

    Show solution
    Prior uniforme: Beta(1,1), densidade constante 1 em [0,1]. Posterior com s sucessos em n: Beta(1+s, 1+n-s), proporcional a θs(1θ)ns\theta^s(1-\theta)^{n-s}. Essa é exatamente a verossimilhança (Bernoulli). Logo maximizar o posterior = maximizar a verossimilhança = MAP = MLE = s/n.
  31. Ex. 109.31ApplicationAnswer key

    Filtro de spam: 20% dos emails são spam. Em emails spam, cada palavra-chave suspeita aparece com probabilidade 60%; em emails legítimos, 5%. Um email tem 3 palavras-chave. Qual a probabilidade de ser spam?

    Show solution
    P(email spam | 3 palavras-chave) aplicando Naive Bayes: P(spam) = 0,2, P(palavras | spam) = 0,6^3 = 0,216, P(palavras | legítimo) = 0,05^3 = 0,000125. Posterior: (0,216 × 0,2)/(0,216 × 0,2 + 0,000125 × 0,8) = 0,0432/0,04321 ≈ 99,97%.
  32. Ex. 109.32Application

    Dois grupos de ratos: linhagem 1 (10 animais, 8 desenvolveram tumor após exposição) e linhagem 2 (10 animais, 3 desenvolveram). Prior Beta(1,1) para ambas as taxas. Calcule o posterior e a média posterior para cada linhagem.

    Show solution
    Posteriores: H1: Beta(1+8, 1+2) = Beta(9,3); H2: Beta(1+3, 1+7) = Beta(4,8). Médias: H1 = 9/12 = 0,75; H2 = 4/12 = 0,33. A linhagem 1 tem probabilidade estimada de transmissão bem maior. IC credível 95% para H1 aprox. (0,46; 0,94).
  33. Ex. 109.33Application

    Uma urna tem proporção desconhecida de bolas laranjas. Após 100 retiradas com reposição, 50 são laranjas. Prior Beta(1,1). Calcule o posterior, a média e o intervalo credível 95%.

    Show solution
    Após 50 sorteios de bola laranja em 100: Beta(1+50, 1+50) = Beta(51,51). Média: 0,5. MAP: 50/100 = 0,5. IC 95% aprox. (0,40; 0,60). Com n=100, o IC se estreita muito comparado ao caso de n=10.
  34. Ex. 109.34Challenge

    O prior de Jeffreys para a Bernoulli é Beta(0,5; 0,5). Após 6 sucessos em 10, calcule o posterior. Pesquise o que significa esse prior ser "invariante por parametrização" e compare a média posterior com o prior Beta(1,1).

    Show solution
    O prior Beta(0,5; 0,5) é o prior de Jeffreys para o modelo Bernoulli. É invariante por transformações — se θ → φ = g(θ), o prior resultante também é de Jeffreys para a nova parametrização. É "objetivamente não-informativo" no sentido de não privilegiar nenhuma parametrização. Após 6 sucessos em 10: Beta(6,5; 4,5). Média ≈ 0,591, diferente de 0,60 do MAP com prior uniforme.

Fontes

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.