Math ClubMath Club
v1 · padrão canônico

Lição 79 — Teorema de Bayes aprofundado

Priors, posteriors e atualização sequencial. Forma de odds, prior conjugado Beta-binomial, base rate fallacy, Naive Bayes. Aplicações em diagnóstico médico, spam filtering e ML.

Used in: Stochastik LK alemão · H2 Math Statistics singapurense · Math B japonês · Equiv. AP Statistics EUA

P(HE)=P(EH)P(H)P(E)P(H \mid E) = \frac{P(E \mid H)\,P(H)}{P(E)}

O teorema de Bayes é a regra de atualização racional de crenças. O prior P(H)P(H) representa o que acreditamos antes de ver a evidência; a verossimilhança P(EH)P(E \mid H) mede o quanto a evidência favorece a hipótese; o posterior P(HE)P(H \mid E) é a crença atualizada depois de observar EE. O denominador P(E)P(E) normaliza o resultado para que a probabilidade some 1.

Choose your door

Rigorous notation, full derivation, hypotheses

Definições e teoremas

Probabilidade condicional

"The conditional probability P(EF)P(E \mid F), the probability of EE given FF, expresses the probability of EE when we know that FF has occurred. It can be computed using the formula P(EF)=P(EF)/P(F)P(E \mid F) = P(EF)/P(F), assuming P(F)>0P(F) > 0." — Grinstead & Snell, Introduction to Probability, §4.1

Lei da probabilidade total

Teorema de Bayes

"Bayes' Theorem is just a formula that comes from the definition of conditional probability. Yet it is extremely powerful, and is the key to understanding what it means to rationally revise your beliefs in light of new evidence." — OpenIntro Statistics 4e, §3.2

Forma de odds

Atualização sequencial

Prior conjugado Beta-binomial

SVG — Diagrama de Bayes na tabela 2×2

Tabela 2×2 — Valor Preditivo PositivoDoente (prevalência p)Teste + : sens · p(verdadeiro positivo)TPSaudável (1 − p)Teste + : (1−espec)·(1−p)(falso positivo)FPVPP = TP / (TP + FP)= posterior P(doente | teste+)Prevalência baixa → FP domina → VPP baixo (base rate fallacy)

Diagrama de frequências absolutas. O VPP (Valor Preditivo Positivo) é o posterior bayesiano P(doente | teste positivo). Quando a prevalência é baixa, os falsos positivos superam os verdadeiros positivos mesmo com teste de alta qualidade.

Exemplos resolvidos

Exercise list

40 exercises · 10 with worked solution (25%)

Application 18Understanding 4Modeling 10Challenge 5Proof 3
  1. Ex. 79.1ApplicationAnswer key

    P(A)=0,3P(A) = 0{,}3, P(B)=0,5P(B) = 0{,}5, P(AB)=0,15P(A \cap B) = 0{,}15. Calcule P(AB)P(A \mid B).

    Show solution
    Pela definição: P(AB)=P(AB)/P(B)=0,15/0,50=0,30P(A \mid B) = P(A \cap B)/P(B) = 0{,}15/0{,}50 = 0{,}30. Note que P(AB)=P(A)=0,3P(A \mid B) = P(A) = 0{,}3, logo AA e BB são independentes.
  2. Ex. 79.2Application

    P(AB)=0,6P(A \mid B) = 0{,}6, P(B)=0,5P(B) = 0{,}5. Calcule P(AB)P(A \cap B).

    Show solution
    Pela regra do produto: P(AB)=P(AB)P(B)=0,60×0,50=0,30P(A \cap B) = P(A \mid B) \cdot P(B) = 0{,}60 \times 0{,}50 = 0{,}30.
  3. Ex. 79.3Application

    P(A)=0,1P(A) = 0{,}1, P(BA)=0,8P(B \mid A) = 0{,}8, P(BAˉ)=0,2P(B \mid \bar A) = 0{,}2. Calcule P(B)P(B).

    Show solution
    Lei da probabilidade total: P(B)=P(BA)P(A)+P(BAˉ)P(Aˉ)=0,8×0,1+0,2×0,9=0,08+0,18=0,26P(B) = P(B \mid A)P(A) + P(B \mid \bar A)P(\bar A) = 0{,}8 \times 0{,}1 + 0{,}2 \times 0{,}9 = 0{,}08 + 0{,}18 = 0{,}26.
    Show step-by-step (with the why)
    1. Identifique as duas hipóteses: AA (com probabilidade 0,1) e Aˉ\bar A (com probabilidade 0,9).
    2. Anote as likelihoods: P(BA)=0,8P(B \mid A) = 0{,}8 e P(BAˉ)=0,2P(B \mid \bar A) = 0{,}2.
    3. Aplique a lei da probabilidade total — soma ponderada das likelihoods pelos priors: P(B)=0,8×0,1+0,2×0,9=0,26P(B) = 0{,}8 \times 0{,}1 + 0{,}2 \times 0{,}9 = 0{,}26.
    4. Macete: a lei da probabilidade total é o denominador de Bayes. Calcule-o antes de aplicar o teorema.
  4. Ex. 79.4Application

    Com os dados do exercício 79.3, calcule P(AB)P(A \mid B).

    Show solution
    Usando os dados do exercício anterior e Bayes: P(AB)=P(BA)P(A)/P(B)=0,8×0,1/0,26=0,08/0,260,308P(A \mid B) = P(B \mid A)P(A)/P(B) = 0{,}8 \times 0{,}1 / 0{,}26 = 0{,}08/0{,}26 \approx 0{,}308.
  5. Ex. 79.5ApplicationAnswer key

    Doença com prevalência 0,5%. Teste diagnóstico: sensibilidade 95%, especificidade 95%. Calcule o VPP usando frequências em 10 000 pessoas.

    Show solution
    Em 10 000 pessoas: doentes = 50, TP = 50×0,95=47,550 \times 0{,}95 = 47{,}5, FP = 9950×0,05=497,59950 \times 0{,}05 = 497{,}5. VPP = 47,5/(47,5+497,5)8,7%47{,}5/(47{,}5 + 497{,}5) \approx 8{,}7\%. Apesar da alta qualidade do teste, o VPP é baixo porque a prevalência é muito baixa.
  6. Ex. 79.6ApplicationAnswer key

    Mesmos dados do exercício 79.5, mas com prevalência 50%. Calcule o VPP e compare com o resultado anterior.

    Show solution
    Com prevalência 50%: em 10 000, doentes = 5000, TP = 4750, FP = 250. VPP = 4750/5000=0,954750/5000 = 0{,}95, ou seja 95%. Compare com 8,7% do exercício 79.5: o mesmo teste tem VPP radicalmente diferente dependendo da prevalência.
  7. Ex. 79.7Application

    Spam filter: P(spam)=0,3P(\text{spam}) = 0{,}3. Palavra "GRÁTIS" aparece em 60% dos spams e 5% dos e-mails legítimos. Calcule P(spamGRAˊTIS)P(\text{spam} \mid \text{GRÁTIS}).

    Show solution
    Prior odds de spam: 0,30/0,700{,}30/0{,}70. Likelihood ratio: P(Gspam)/P(Gham)=0,60/0,05=12P(G|\text{spam})/P(G|\text{ham}) = 0{,}60/0{,}05 = 12. Posterior odds: (0,30/0,70)×12=3,6/0,705,14(0{,}30/0{,}70) \times 12 = 3{,}6/0{,}70 \approx 5{,}14. Posterior: 5,14/6,1483,7%5{,}14/6{,}14 \approx 83{,}7\%.
    Show step-by-step (with the why)
    1. Prior: P(spam)=0,30P(\text{spam}) = 0{,}30, P(ham)=0,70P(\text{ham}) = 0{,}70.
    2. Likelihoods: P(GRAˊTISspam)=0,60P(\text{GRÁTIS} \mid \text{spam}) = 0{,}60, P(GRAˊTISham)=0,05P(\text{GRÁTIS} \mid \text{ham}) = 0{,}05.
    3. Numerador de Bayes: 0,60×0,30=0,180{,}60 \times 0{,}30 = 0{,}18.
    4. Denominador: 0,18+0,05×0,70=0,18+0,035=0,2150{,}18 + 0{,}05 \times 0{,}70 = 0{,}18 + 0{,}035 = 0{,}215.
    5. Posterior: 0,18/0,2150,8370{,}18/0{,}215 \approx 0{,}837.
    6. Atalho mental: LR = 12 transforma prior odds de 3:73:7 em posterior odds de 36:75,14:136:7 \approx 5{,}14:1, ou seja, aproximadamente 84% de spam.
  8. Ex. 79.8Application

    Urna A: 2 vermelhas, 3 azuis. Urna B: 5 vermelhas, 1 azul. Escolhe-se uma urna ao acaso e retira-se uma bola vermelha. Qual a probabilidade de a urna ser A?

    Show solution
    Prior: P(A)=P(B)=0,5P(A) = P(B) = 0{,}5. Likelihoods: P(VA)=2/5=0,4P(V \mid A) = 2/5 = 0{,}4, P(VB)=5/60,833P(V \mid B) = 5/6 \approx 0{,}833. Total: P(V)=0,4×0,5+0,833×0,5=0,617P(V) = 0{,}4 \times 0{,}5 + 0{,}833 \times 0{,}5 = 0{,}617. Posterior: P(AV)=0,2/0,6170,324P(A \mid V) = 0{,}2/0{,}617 \approx 0{,}324.
  9. Ex. 79.9ApplicationAnswer key

    3 moedas: 2 honestas, 1 com duas caras. Escolhe-se uma ao acaso, lança-se uma vez, sai cara. Qual a probabilidade de a moeda escolhida ser a de duas caras?

    Show solution
    3 moedas: 2 honestas (prob cara = 1/2) e 1 de duas caras (prob cara = 1). Prior: P(2 caras)=1/3P(\text{2 caras}) = 1/3, P(honesta)=2/3P(\text{honesta}) = 2/3. Likelihood de cara: P(C2c)=1P(C \mid 2c) = 1, P(Chonesta)=1/2P(C \mid \text{honesta}) = 1/2. Total: P(C)=1×1/3+1/2×2/3=2/3P(C) = 1 \times 1/3 + 1/2 \times 2/3 = 2/3. Posterior: P(2cC)=(1×1/3)/(2/3)=1/2P(2c \mid C) = (1 \times 1/3)/(2/3) = 1/2.
  10. Ex. 79.10Application

    P(fumante)=0,2P(\text{fumante}) = 0{,}2. P(caˆncerfumante)=0,1P(\text{câncer} \mid \text{fumante}) = 0{,}1. P(caˆncer¬fumante)=0,01P(\text{câncer} \mid \neg\text{fumante}) = 0{,}01. Dado que uma pessoa tem câncer, qual a probabilidade de ser fumante?

    Show solution
    Prior: P(F)=0,2P(F) = 0{,}2. Likelihoods: P(CF)=0,1P(C \mid F) = 0{,}1, P(C¬F)=0,01P(C \mid \neg F) = 0{,}01. Total: P(C)=0,1×0,2+0,01×0,8=0,02+0,008=0,028P(C) = 0{,}1 \times 0{,}2 + 0{,}01 \times 0{,}8 = 0{,}02 + 0{,}008 = 0{,}028. Posterior: P(FC)=0,02/0,02871,4%P(F \mid C) = 0{,}02/0{,}028 \approx 71{,}4\%.
  11. Ex. 79.11Application

    Atualização sequencial: dois testes positivos com sensibilidade 90% e especificidade 90%, aplicados a uma doença com prevalência 1%. Use o posterior do 1.º teste como prior do 2.º. Qual o VPP após os dois testes positivos consecutivos?

    Show solution
    Passo 1 (1.º teste positivo, sens 90%, espec 90%, prevalência 1%): VPP1=(0,9×0,01)/(0,9×0,01+0,1×0,99)=0,009/0,1088,33%\text{VPP}_1 = (0{,}9 \times 0{,}01)/(0{,}9 \times 0{,}01 + 0{,}1 \times 0{,}99) = 0{,}009/0{,}108 \approx 8{,}33\%. Passo 2 (2.º teste positivo, mesmo teste, prior = 8,33%): VPP2=(0,9×0,0833)/(0,9×0,0833+0,1×0,9167)=0,075/0,16744,9%\text{VPP}_2 = (0{,}9 \times 0{,}0833)/(0{,}9 \times 0{,}0833 + 0{,}1 \times 0{,}9167) = 0{,}075/0{,}167 \approx 44{,}9\%. Após dois testes positivos independentes, a probabilidade sobe de 1% para quase 45%.
    Show step-by-step (with the why)
    1. Calcule o VPP após o 1.º teste positivo com prevalência 1%, sens = espec = 90%: VPP1=0,009/0,1088,33%\text{VPP}_1 = 0{,}009/0{,}108 \approx 8{,}33\%.
    2. Use 8,33% como novo prior para o 2.º teste.
    3. Calcule VPP2_2: numerador = 0,9×0,0833=0,0750{,}9 \times 0{,}0833 = 0{,}075; denominador = 0,075+0,1×0,9167=0,1670{,}075 + 0{,}1 \times 0{,}9167 = 0{,}167.
    4. VPP244,9%\text{VPP}_2 \approx 44{,}9\%. A cada teste positivo, a probabilidade cresce — mas lentamente quando o prior é muito baixo.
    5. Curiosidade: via forma de odds, LR+=9\text{LR}^+ = 9 para cada teste. Após dois testes: prior odds =0,01/0,990,0101= 0{,}01/0{,}99 \approx 0{,}0101; posterior odds =0,0101×9×9=0,818= 0{,}0101 \times 9 \times 9 = 0{,}818; posterior =0,818/1,81845%= 0{,}818/1{,}818 \approx 45\%. Mesmo resultado, mais rápido.
  12. Ex. 79.12Application

    Para um teste com sensibilidade 90% e especificidade 95%, calcule a razão de verossimilhança positiva LR+=sens/(1espec)\text{LR}^+ = \text{sens}/(1 - \text{espec}).

    Show solution
    LR+=sens/(1espec)=0,90/(10,95)=0,90/0,05=18\text{LR}^+ = \text{sens}/(1 - \text{espec}) = 0{,}90/(1 - 0{,}95) = 0{,}90/0{,}05 = 18. Interpretação: um resultado positivo torna a doença 18 vezes mais provável (em escala de odds) do que antes do teste.
  13. Ex. 79.13Application

    Prior odds de 1:99 (prevalência 1%). LR+=18\text{LR}^+ = 18 (sensibilidade 90%, especificidade 95%). Calcule os posterior odds e o posterior.

    Show solution
    Prior odds: 1/991/99. LR+=0,9/0,05=18\text{LR}^+ = 0{,}9/0{,}05 = 18. Posterior odds: (1/99)×18=18/990,182(1/99) \times 18 = 18/99 \approx 0{,}182. Posterior: 0,182/1,18215,4%0{,}182/1{,}182 \approx 15{,}4\%.
  14. Ex. 79.14Application

    Qual dos valores a seguir é o posterior correto em um contexto com prior odds 1:99 e LR+=18\text{LR}^+ = 18?

    Select the correct option
    Select an option first
    Show solution
    A alternativa correta é 15,4%. O prior odds é 1:99, o LR+\text{LR}^+ = 18, logo posterior odds = 18/99 e posterior = 18/117 ≈ 15,4%. As outras alternativas mapeiam erros clássicos: confundir VPP com sensibilidade (90%), ignorar o teste (manter 1%), ou esquecer o prior (50% incorreto).
  15. Ex. 79.15Application

    Prior θBeta(2,2)\theta \sim \text{Beta}(2, 2). Observa-se 7 caras em 10 lançamentos. Determine o posterior.

    Show solution
    Prior Beta(2, 2). Lançamentos: n=10n = 10, k=7k = 7 caras. Posterior: Beta(2+7,  2+107)=Beta(9,5)\text{Beta}(2 + 7,\; 2 + 10 - 7) = \text{Beta}(9, 5). Média posterior: 9/140,6439/14 \approx 0{,}643.
  16. Ex. 79.16Application

    Prior θBeta(1,1)\theta \sim \text{Beta}(1, 1) (uniforme). Observa-se 0 caras em 5 lançamentos. Determine o posterior e sua média.

    Show solution
    Posterior: Beta(1+0,  1+50)=Beta(1,6)\text{Beta}(1 + 0,\; 1 + 5 - 0) = \text{Beta}(1, 6). Média posterior: 1/70,1431/7 \approx 0{,}143. Mesmo sem nenhuma cara, o posterior não vai a zero porque o prior uniforme atribuía alguma massa positiva a todos os valores de θ\theta.
  17. Ex. 79.17Application

    No exercício 79.15, qual é a média do posterior?

    Show solution
    Do exercício 79.15: posterior Beta(9, 5). Média: α/(α+β)=9/140,643\alpha/(\alpha + \beta) = 9/14 \approx 0{,}643.
  18. Ex. 79.18Application

    Prior θBeta(2,8)\theta \sim \text{Beta}(2, 8). Novo lote: 30 peças inspecionadas, 6 defeituosas. Determine o posterior e a média posterior.

    Show solution
    Prior Beta(2, 8), n = 30, k = 6. Posterior: Beta(2+6,8+24)=Beta(8,32)\text{Beta}(2 + 6, 8 + 24) = \text{Beta}(8, 32). Média posterior: 8/40=0,208/40 = 0{,}20. Compare com MLE = 6/30=0,206/30 = 0{,}20: coincidem porque o prior já estava calibrado na mesma proporção.
  19. Ex. 79.19ModelingAnswer key

    COVID-19 em fase endêmica: prevalência 5%. Teste rápido: sensibilidade 80%, especificidade 95%. Calcule o VPP usando frequências em 10 000 pessoas. Vale a pena isolar automaticamente todos os positivos?

    Show solution
    COVID screening: prevalência 5%, sens 80%, espec 95%. Em 10 000 pessoas: doentes = 500, TP = 400, saudáveis = 9500, FP = 475. VPP = 400/875 ≈ 45,7%. Menos da metade dos positivos são verdadeiramente infectados — justifica confirmação com PCR antes de decisões de isolamento prolongado.
    Show step-by-step (with the why)
    1. Calcule o número de doentes na população de 10 000: 10000×0,05=50010000 \times 0{,}05 = 500.
    2. TP = doentes × sensibilidade = 500×0,80=400500 \times 0{,}80 = 400.
    3. FP = saudáveis × (1 − especificidade) = 9500×0,05=4759500 \times 0{,}05 = 475.
    4. VPP = TP / (TP + FP) = 400/87545,7%400/875 \approx 45{,}7\%.
    5. Observação: com sensibilidade mais baixa (80% vs 95%), o VPP cai ainda mais do que no exemplo introdutório. Prevalência e especificidade são os fatores determinantes do VPP para rastreamento populacional.
  20. Ex. 79.20Modeling

    Naive Bayes para e-mail: P(spam)=0,3P(\text{spam}) = 0{,}3. No treino: "GRÁTIS" aparece em 60% dos spams e 5% dos hams; "ganhou" aparece em 50% dos spams e 10% dos hams. Um e-mail contém ambas as palavras. Classifique assumindo independência condicional.

    Show solution
    Classify: prior odds spam 3:7. LR para "GRÁTIS": 0,6/0,05=120{,}6/0{,}05 = 12. LR para "ganhou": P(ganhouspam)=0,5P(\text{ganhou}|\text{spam}) = 0{,}5, P(ganhouham)=0,1P(\text{ganhou}|\text{ham}) = 0{,}1, LR = 5. Posterior odds = 3/7×12×5=180/725,73/7 \times 12 \times 5 = 180/7 \approx 25{,}7. Posterior = 25,7/26,796,3%25{,}7/26{,}7 \approx 96{,}3\%. Classifica como spam.
  21. Ex. 79.21Modeling

    Três doenças: A (10% na população), B (5%), C (1%). Paciente apresenta sintoma S com P(SA)=0,3P(S|A) = 0{,}3, P(SB)=0,9P(S|B) = 0{,}9, P(SC)=0,9P(S|C) = 0{,}9. Qual a doença mais provável?

    Show solution
    Priors: P(A)=0,10P(A) = 0{,}10, P(B)=0,05P(B) = 0{,}05, P(C)=0,01P(C) = 0{,}01. Likelihoods: P(SA)=0,3P(S|A) = 0{,}3, P(SB)=0,9P(S|B) = 0{,}9, P(SC)=0,9P(S|C) = 0{,}9. Posteriors não normalizados: A: 0,03; B: 0,045; C: 0,009. Normalizar: soma = 0,084. P(AS)35,7%P(A|S) \approx 35{,}7\%, P(BS)53,6%P(B|S) \approx 53{,}6\%, P(CS)10,7%P(C|S) \approx 10{,}7\%. Diagnóstico mais provável: doença B.
  22. Ex. 79.22Modeling

    Falácia do promotor: evidência de DNA tem frequência 1/1000 na população. O promotor afirma que a probabilidade de inocência é 1/1000. Por que este raciocínio está errado? Calcule o posterior correto assumindo que há 100 000 suspeitos plausíveis na cidade.

    Show solution
    Prior: P(culpado)=1/NP(\text{culpado}) = 1/N onde N é o número de suspeitos plausíveis. Likelihood: P(matchculpado)=1P(\text{match} \mid \text{culpado}) = 1; P(matchinocente)=1/1000P(\text{match} \mid \text{inocente}) = 1/1000. A falácia do promotor é afirmar que a probabilidade de inocência é 1/1000. Com prior 1/100000: posterior = (1×1/100000)/((1×1/100000)+(1/1000×99999/100000))9,1%(1 \times 1/100000)/((1 \times 1/100000) + (1/1000 \times 99999/100000)) \approx 9{,}1\%. O match é evidência, não prova.
  23. Ex. 79.23ModelingAnswer key

    Classificador de fraude: sensibilidade 95%, especificidade 99,9%. Fraudes: 0,1% das transações. Calcule o VPP. Quantos falsos positivos por cada verdadeiro positivo?

    Show solution
    Fraude: prevalência 0,1%, sens 95%, espec 99,9%. Em 1 000 000 transações: fraudes = 1000, TP = 950, FP = 999000×0,001=999999000 \times 0{,}001 = 999. VPP = 950/(950+999)48,7%950/(950 + 999) \approx 48{,}7\%. Para cada alerta genuíno, há quase 1 falso positivo. Em prática: triagem automática, mas revisão humana antes de bloquear definitivamente.
  24. Ex. 79.24Modeling

    Teste de gravidez: sensibilidade 99%, especificidade 98%. Mulher com probabilidade prévia de gravidez de 30%. Calcule o VPP.

    Show solution
    Prev 30%, sens 99%, espec 98%. VPP = (0,99×0,30)/(0,99×0,30+0,02×0,70)=0,297/0,31195,5%(0{,}99 \times 0{,}30)/(0{,}99 \times 0{,}30 + 0{,}02 \times 0{,}70) = 0{,}297/0{,}311 \approx 95{,}5\%. Com prior de 30%, o VPP já é muito alto — a prevalência elevada compensa a pequena taxa de falso positivo.
  25. Ex. 79.25ModelingAnswer key

    Polígrafo: sensibilidade 70%, especificidade 80%. Em interrogatório com suspeito que tem prior de culpa de 5%. Calcule o posterior após resultado positivo. O resultado é admissível como prova suficiente para condenar?

    Show solution
    Prior odds: 0,05/0,950,05260{,}05/0{,}95 \approx 0{,}0526. Polígrafo: sens 70%, espec 80%. LR+=0,70/0,20=3,5\text{LR}^+ = 0{,}70/0{,}20 = 3{,}5. Posterior odds: 0,0526×3,50,1840{,}0526 \times 3{,}5 \approx 0{,}184. Posterior: 0,184/1,18415,5%0{,}184/1{,}184 \approx 15{,}5\%. Com apenas 15% de probabilidade posterior de culpa, não é confiável como prova suficiente para condenação.
  26. Ex. 79.26ModelingAnswer key

    Dois testes independentes positivos (sens1_1 = 0,9, espec1_1 = 0,95; sens2_2 = 0,85, espec2_2 = 0,90). Prevalência 2%. Calcule o posterior após ambos os resultados positivos via atualização sequencial.

    Show solution
    Dois testes independentes positivos: sensibilidades 0,9 e 0,85; especificidades 0,95 e 0,90; prevalência 2%. Após T1+: P1=(0,9×0,02)/(0,9×0,02+0,05×0,98)=0,018/0,0670,269P_1 = (0{,}9 \times 0{,}02)/(0{,}9 \times 0{,}02 + 0{,}05 \times 0{,}98) = 0{,}018/0{,}067 \approx 0{,}269. Após T2+ com prior 0,269: P2=(0,85×0,269)/(0,85×0,269+0,10×0,731)=0,229/0,3020,758P_2 = (0{,}85 \times 0{,}269)/(0{,}85 \times 0{,}269 + 0{,}10 \times 0{,}731) = 0{,}229/0{,}302 \approx 0{,}758.
  27. Ex. 79.27Modeling

    Em uma fila de suspeitos, um tem cabelo vermelho (H) com probabilidade 70% de ser o culpado. Uma testemunha identifica o de cabelo vermelho com probabilidade 90% quando o culpado é H, e erroneamente 15% das vezes quando o culpado não é H. Dado que a testemunha apontou H, qual o posterior de culpa?

    Show solution
    P(H)=0,70P(\text{H}) = 0{,}70, P(C)=0,30P(\text{C}) = 0{,}30. Testemunha identifica suspeito H com probabilidade 0,9 quando é H, e erra 0,15 das vezes quando é C. P(id H)=0,9×0,70+0,15×0,30=0,63+0,045=0,675P(\text{id H}) = 0{,}9 \times 0{,}70 + 0{,}15 \times 0{,}30 = 0{,}63 + 0{,}045 = 0{,}675. P(Hid H)=0,63/0,67593,3%P(H \mid \text{id H}) = 0{,}63/0{,}675 \approx 93{,}3\%.
  28. Ex. 79.28Modeling

    Controle de qualidade com 3 linhas (A: 40% da produção, 2% defeito; B: 35%, 3%; C: 25%, 5%). Encontra-se uma peça defeituosa. Determine a probabilidade de cada linha ser a origem.

    Show solution
    Linha A: 40%, 2% defeito. Linha B: 35%, 3% defeito. Linha C: 25%, 5% defeito. Ao encontrar peça defeituosa: posterior proporcional a taxa de defeito × proporção da linha. P(AD)0,02×0,40=0,008P(A \mid D) \propto 0{,}02 \times 0{,}40 = 0{,}008; P(BD)0,03×0,35=0,0105P(B \mid D) \propto 0{,}03 \times 0{,}35 = 0{,}0105; P(CD)0,05×0,25=0,0125P(C \mid D) \propto 0{,}05 \times 0{,}25 = 0{,}0125. Total = 0,031. Posteriors: A ≈ 25,8%, B ≈ 33,9%, C ≈ 40,3%. Linha C é a mais provável fonte da peça defeituosa.
  29. Ex. 79.29Understanding

    O que é a base rate fallacy (falácia da taxa base)?

    Select the correct option
    Select an option first
    Show solution
    A falácia da taxa base (base rate fallacy) é especificamente a falha em incorporar a prevalência (prior) ao calcular a probabilidade posterior. As outras opções descrevem outros tipos de erro, mas não a base rate fallacy.
  30. Ex. 79.30Understanding

    Por que o prior importa mesmo em "ciência objetiva"? Uma análise que ignora o prior equivale a qual suposição implícita?

    Show solution
    O prior importa porque é o ponto de partida da atualização bayesiana. Sem prior, não há numerador em Bayes — a fórmula não produz posterior. Na prática, mesmo análises "objetivas" implicam priors: testar H0H_0 com pp-valor equivale a atribuir prior pontual em θ=θ0\theta = \theta_0 e rejeitar se a evidência for improvável sob esse prior. Dizer que prior é "subjetivo" enquanto o pp-valor é "objetivo" é uma ilusão — a objetividade do pp-valor está nos procedimentos de controle de erro, não na ausência de assunções sobre os parâmetros.
  31. Ex. 79.31Understanding

    Dois testes positivos independentes com razões de verossimilhança r1r_1 e r2r_2. Qual o efeito na forma de odds?

    Select the correct option
    Select an option first
    Show solution
    Quando os testes são condicionalmente independentes dado a hipótese, a razão de verossimilhança combinada é o produto das razões individuais: LRtotal+=r1×r2\text{LR}^+_{\text{total}} = r_1 \times r_2. Na forma de odds: posterior odds = prior odds ×r1×r2\times r_1 \times r_2. A soma seria incorreta — as razões se multiplicam, não se somam. O segundo teste positivo sempre aumenta o posterior (desde que LR+>1\text{LR}^+ > 1).
  32. Ex. 79.32Understanding

    Qual a diferença prática entre usar um prior Beta(1,1) e um prior Beta(10,10) para uma moeda? Em qual caso o posterior será mais sensível a novos dados?

    Show solution
    O prior Beta(1,1) é uniforme em [0,1][0,1] — não favorece nenhum valor de θ\theta. O prior Beta(α\alpha,β\beta) com α,β>1\alpha,\beta > 1 concentra massa em torno de α/(α+β)\alpha/(\alpha+\beta). Um prior mais "informativo" (maior α+β\alpha + \beta) exige mais dados para ser dominado pela likelihood. Com prior Beta(1,1) e n=10n = 10 observações (k caras), o posterior Beta(1+k, 1+10−k) tem média (k+1)/12(k+1)/12 — levemente puxado para 0,5 em relação ao MLE k/10k/10.
  33. Ex. 79.33Challenge

    Mostre que dois testes positivos independentes condicionalmente dado HH resultam em posterior odds igual a r1×r2×r_1 \times r_2 \times prior odds, onde ri=LRi+r_i = \text{LR}_i^+.

    Show solution
    Via forma de odds: prior odds =P(H)/P(¬H)= P(H)/P(\neg H). Após E1E_1: posterior1_1 odds =LR1×= \text{LR}_1 \times prior odds. Após E2E_2 (com posterior1_1 como novo prior): posterior2_2 odds =LR2×LR1×= \text{LR}_2 \times \text{LR}_1 \times prior odds =r1r2×= r_1 r_2 \times prior odds. Extensão por indução: para nn evidências independentes condicionalmente: posterior odds =r1r2rn×= r_1 r_2 \cdots r_n \times prior odds. A forma de odds transforma atualização sequencial em multiplicação de LRs.
  34. Ex. 79.34Challenge

    Demonstre que o posterior do modelo Bernoulli-Beta é Beta(α+k\alpha + k, β+nk\beta + n - k) quando o prior é Beta(α\alpha, β\beta) e observamos kk sucessos em nn ensaios.

    Show solution
    Beta(α+k\alpha + k, β+nk\beta + n - k) tem densidade proporcional a θα+k1(1θ)β+nk1\theta^{\alpha+k-1}(1-\theta)^{\beta+n-k-1}. Pela regra de Bayes: posterior \propto likelihood ×\times prior =(nk)θk(1θ)nk×θα1(1θ)β1=(nk)θα+k1(1θ)β+nk1= \binom{n}{k}\theta^k(1-\theta)^{n-k} \times \theta^{\alpha-1}(1-\theta)^{\beta-1} = \binom{n}{k}\theta^{\alpha+k-1}(1-\theta)^{\beta+n-k-1}. A constante (nk)\binom{n}{k} não depende de θ\theta, logo posterior θα+k1(1θ)β+nk1\propto \theta^{\alpha+k-1}(1-\theta)^{\beta+n-k-1}, que é a kernel de Beta(α+k\alpha + k, β+nk\beta + n - k). \square
  35. Ex. 79.35Proof

    Demonstre o teorema de Bayes a partir da definição de probabilidade condicional e da lei da probabilidade total.

    Show solution
    Por definição de probabilidade condicional: P(HiE)=P(HiE)/P(E)P(H_i \mid E) = P(H_i \cap E)/P(E). Pelo teorema da multiplicação: P(HiE)=P(EHi)P(Hi)P(H_i \cap E) = P(E \mid H_i)P(H_i). Pela lei da probabilidade total (partição {H1,,Hn}\{H_1,\ldots,H_n\}): P(E)=jP(EHj)P(Hj)P(E) = \sum_j P(E \mid H_j)P(H_j). Substituindo: P(HiE)=P(EHi)P(Hi)/jP(EHj)P(Hj)P(H_i \mid E) = P(E \mid H_i)P(H_i)/\sum_j P(E \mid H_j)P(H_j). \square
  36. Ex. 79.36Proof

    Mostre que P(AB)=P(BA)P(A)/P(B)P(A \mid B) = P(B \mid A)\,P(A)/P(B) usando apenas a definição de probabilidade condicional. Identifique por que P(AB)P(BA)P(A \mid B) \neq P(B \mid A) em geral.

    Show solution
    Pela simetria da definição: P(AB)=P(AB)P(B)=P(BA)P(A)P(A \cap B) = P(A \mid B)P(B) = P(B \mid A)P(A). Portanto P(AB)P(B)=P(BA)P(A)P(A \mid B)P(B) = P(B \mid A)P(A), que implica P(AB)=P(BA)P(A)/P(B)P(A \mid B) = P(B \mid A)P(A)/P(B). Esta é exatamente a forma de Bayes com duas hipóteses (H=AH = A, ¬H=¬A\neg H = \neg A) e evidência E=BE = B. Mostra que P(AB)P(BA)P(A \mid B) \neq P(B \mid A) em geral — a confusão entre os dois é a falácia do promotor.
  37. Ex. 79.37Challenge

    Problema de Monty Hall com 3 portas. Use Bayes para calcular a probabilidade de o carro estar em cada porta depois que Monty (que sabe onde está o carro) abre uma porta vazia. Deve-se trocar?

    Show solution
    Monty Hall: 3 portas, carro em 1. Hipóteses: H1H_1 = carro na porta 1 (prior 1/3), H2H_2 = porta 2, H3H_3 = porta 3. Você escolhe porta 1. Monty abre porta 3 (sem carro). Evidência EE = "Monty abre porta 3". P(EH1)=1/2P(E \mid H_1) = 1/2 (Monty escolhe entre 2 e 3 aleatoriamente), P(EH2)=1P(E \mid H_2) = 1 (só pode abrir 3), P(EH3)=0P(E \mid H_3) = 0 (não abriria com carro). P(E)=1/2×1/3+1×1/3+0=1/2P(E) = 1/2 \times 1/3 + 1 \times 1/3 + 0 = 1/2. Posterior de porta 1: (1/2×1/3)/(1/2)=1/3(1/2 \times 1/3)/(1/2) = 1/3. Posterior de porta 2: (1×1/3)/(1/2)=2/3(1 \times 1/3)/(1/2) = 2/3. Deve-se trocar.
  38. Ex. 79.38ChallengeAnswer key

    No Naive Bayes com features binárias, mostre que o classificador é equivalente a multiplicar os LRs individuais de cada feature. O que acontece quando a suposição de independência condicional é violada?

    Show solution
    Naive Bayes com pp features independentes dado a classe: P(Ckx)P(Ck)j=1pP(xjCk)P(C_k \mid \mathbf{x}) \propto P(C_k) \prod_{j=1}^p P(x_j \mid C_k). Na forma de log: logP(Ckx)logP(Ck)+jlogP(xjCk)\log P(C_k \mid \mathbf{x}) \propto \log P(C_k) + \sum_j \log P(x_j \mid C_k). Para features binárias, P(xj=1Ck)=μjkP(x_j = 1 \mid C_k) = \mu_{jk}. Isso é equivalente a multiplicar os LRs de cada feature individualmente (se independentes), exatamente como na atualização sequencial. Se as features não são condicionalmente independentes, o Naive Bayes superestima a confiança das predições mas frequentemente ainda classifica corretamente.
  39. Ex. 79.39ProofAnswer key

    Demonstre que a forma de odds de Bayes, posterior odds = LR ×\times prior odds, segue diretamente da forma usual do teorema de Bayes para dois eventos complementares HH e ¬H\neg H.

    Show solution
    Para a partição {H,¬H}\{H, \neg H\}: P(HE)=P(EH)P(H)/P(E)P(H \mid E) = P(E \mid H)P(H)/P(E) e P(¬HE)=P(E¬H)P(¬H)/P(E)P(\neg H \mid E) = P(E \mid \neg H)P(\neg H)/P(E). Dividindo: P(HE)/P(¬HE)=[P(EH)/P(E¬H)]×[P(H)/P(¬H)]P(H \mid E)/P(\neg H \mid E) = [P(E \mid H)/P(E \mid \neg H)] \times [P(H)/P(\neg H)]. O primeiro fator é o LR, o segundo são os prior odds. O fator normalizador P(E)P(E) cancela no quociente. \square
  40. Ex. 79.40Challenge

    Mostre que a média do posterior Beta(α+k\alpha + k, β+nk\beta + n - k) converge para o estimador de máxima verossimilhança k/nk/n quando nn \to \infty, para qualquer prior fixo Beta(α\alpha, β\beta). O que isso implica sobre a relação entre Bayes e frequentismo para grandes amostras?

    Show solution
    Com nn lançamentos e kk caras, o MLE é θ^=k/n\hat\theta = k/n. A média posterior com Beta(α\alpha,β\beta) é (α+k)/(α+β+n)(\alpha + k)/(\alpha + \beta + n). Quando nn \to \infty: (α+k)/(α+β+n)k/n(\alpha + k)/(\alpha + \beta + n) \to k/n (pois k/nθk/n \to \theta pela lei dos grandes números e os termos α,β\alpha, \beta tornam-se negligenciáveis). Para qualquer prior fixo (com α+β\alpha + \beta finito), o posterior converge para MLE. Interpretação: com muitos dados, os dados "anonegam" o prior — este é o resultado de consistência da inferência bayesiana.

Fontes

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.