Lição 79 — Teorema de Bayes aprofundado
Priors, posteriors e atualização sequencial. Forma de odds, prior conjugado Beta-binomial, base rate fallacy, Naive Bayes. Aplicações em diagnóstico médico, spam filtering e ML.
Used in: Stochastik LK alemão · H2 Math Statistics singapurense · Math B japonês · Equiv. AP Statistics EUA
O teorema de Bayes é a regra de atualização racional de crenças. O prior representa o que acreditamos antes de ver a evidência; a verossimilhança mede o quanto a evidência favorece a hipótese; o posterior é a crença atualizada depois de observar . O denominador normaliza o resultado para que a probabilidade some 1.
Rigorous notation, full derivation, hypotheses
Definições e teoremas
Probabilidade condicional
"The conditional probability , the probability of given , expresses the probability of when we know that has occurred. It can be computed using the formula , assuming ." — Grinstead & Snell, Introduction to Probability, §4.1
Lei da probabilidade total
Teorema de Bayes
"Bayes' Theorem is just a formula that comes from the definition of conditional probability. Yet it is extremely powerful, and is the key to understanding what it means to rationally revise your beliefs in light of new evidence." — OpenIntro Statistics 4e, §3.2
Forma de odds
Atualização sequencial
Prior conjugado Beta-binomial
SVG — Diagrama de Bayes na tabela 2×2
Diagrama de frequências absolutas. O VPP (Valor Preditivo Positivo) é o posterior bayesiano P(doente | teste positivo). Quando a prevalência é baixa, os falsos positivos superam os verdadeiros positivos mesmo com teste de alta qualidade.
Exemplos resolvidos
Exercise list
40 exercises · 10 with worked solution (25%)
- Ex. 79.1ApplicationAnswer key
, , . Calcule .
Show solution
Pela definição: . Note que , logo e são independentes. - Ex. 79.2Application
, . Calcule .
Show solution
Pela regra do produto: . - Ex. 79.3Application
, , . Calcule .
Show solution
Lei da probabilidade total: .Show step-by-step (with the why)
- Identifique as duas hipóteses: (com probabilidade 0,1) e (com probabilidade 0,9).
- Anote as likelihoods: e .
- Aplique a lei da probabilidade total — soma ponderada das likelihoods pelos priors: .
- Macete: a lei da probabilidade total é o denominador de Bayes. Calcule-o antes de aplicar o teorema.
- Ex. 79.4Application
Com os dados do exercício 79.3, calcule .
Show solution
Usando os dados do exercício anterior e Bayes: . - Ex. 79.5ApplicationAnswer key
Doença com prevalência 0,5%. Teste diagnóstico: sensibilidade 95%, especificidade 95%. Calcule o VPP usando frequências em 10 000 pessoas.
Show solution
Em 10 000 pessoas: doentes = 50, TP = , FP = . VPP = . Apesar da alta qualidade do teste, o VPP é baixo porque a prevalência é muito baixa. - Ex. 79.6ApplicationAnswer key
Mesmos dados do exercício 79.5, mas com prevalência 50%. Calcule o VPP e compare com o resultado anterior.
Show solution
Com prevalência 50%: em 10 000, doentes = 5000, TP = 4750, FP = 250. VPP = , ou seja 95%. Compare com 8,7% do exercício 79.5: o mesmo teste tem VPP radicalmente diferente dependendo da prevalência. - Ex. 79.7Application
Spam filter: . Palavra "GRÁTIS" aparece em 60% dos spams e 5% dos e-mails legítimos. Calcule .
Show solution
Prior odds de spam: . Likelihood ratio: . Posterior odds: . Posterior: .Show step-by-step (with the why)
- Prior: , .
- Likelihoods: , .
- Numerador de Bayes: .
- Denominador: .
- Posterior: .
- Atalho mental: LR = 12 transforma prior odds de em posterior odds de , ou seja, aproximadamente 84% de spam.
- Ex. 79.8Application
Urna A: 2 vermelhas, 3 azuis. Urna B: 5 vermelhas, 1 azul. Escolhe-se uma urna ao acaso e retira-se uma bola vermelha. Qual a probabilidade de a urna ser A?
Show solution
Prior: . Likelihoods: , . Total: . Posterior: . - Ex. 79.9ApplicationAnswer key
3 moedas: 2 honestas, 1 com duas caras. Escolhe-se uma ao acaso, lança-se uma vez, sai cara. Qual a probabilidade de a moeda escolhida ser a de duas caras?
Show solution
3 moedas: 2 honestas (prob cara = 1/2) e 1 de duas caras (prob cara = 1). Prior: , . Likelihood de cara: , . Total: . Posterior: . - Ex. 79.10Application
. . . Dado que uma pessoa tem câncer, qual a probabilidade de ser fumante?
Show solution
Prior: . Likelihoods: , . Total: . Posterior: . - Ex. 79.11Application
Atualização sequencial: dois testes positivos com sensibilidade 90% e especificidade 90%, aplicados a uma doença com prevalência 1%. Use o posterior do 1.º teste como prior do 2.º. Qual o VPP após os dois testes positivos consecutivos?
Show solution
Passo 1 (1.º teste positivo, sens 90%, espec 90%, prevalência 1%): . Passo 2 (2.º teste positivo, mesmo teste, prior = 8,33%): . Após dois testes positivos independentes, a probabilidade sobe de 1% para quase 45%.Show step-by-step (with the why)
- Calcule o VPP após o 1.º teste positivo com prevalência 1%, sens = espec = 90%: .
- Use 8,33% como novo prior para o 2.º teste.
- Calcule VPP: numerador = ; denominador = .
- . A cada teste positivo, a probabilidade cresce — mas lentamente quando o prior é muito baixo.
- Curiosidade: via forma de odds, para cada teste. Após dois testes: prior odds ; posterior odds ; posterior . Mesmo resultado, mais rápido.
- Ex. 79.12Application
Para um teste com sensibilidade 90% e especificidade 95%, calcule a razão de verossimilhança positiva .
Show solution
. Interpretação: um resultado positivo torna a doença 18 vezes mais provável (em escala de odds) do que antes do teste. - Ex. 79.13Application
Prior odds de 1:99 (prevalência 1%). (sensibilidade 90%, especificidade 95%). Calcule os posterior odds e o posterior.
Show solution
Prior odds: . . Posterior odds: . Posterior: . - Ex. 79.14Application
Qual dos valores a seguir é o posterior correto em um contexto com prior odds 1:99 e ?
Show solution
A alternativa correta é 15,4%. O prior odds é 1:99, o = 18, logo posterior odds = 18/99 e posterior = 18/117 ≈ 15,4%. As outras alternativas mapeiam erros clássicos: confundir VPP com sensibilidade (90%), ignorar o teste (manter 1%), ou esquecer o prior (50% incorreto). - Ex. 79.15Application
Prior . Observa-se 7 caras em 10 lançamentos. Determine o posterior.
Show solution
Prior Beta(2, 2). Lançamentos: , caras. Posterior: . Média posterior: . - Ex. 79.16Application
Prior (uniforme). Observa-se 0 caras em 5 lançamentos. Determine o posterior e sua média.
Show solution
Posterior: . Média posterior: . Mesmo sem nenhuma cara, o posterior não vai a zero porque o prior uniforme atribuía alguma massa positiva a todos os valores de . - Ex. 79.17Application
No exercício 79.15, qual é a média do posterior?
Show solution
Do exercício 79.15: posterior Beta(9, 5). Média: . - Ex. 79.18Application
Prior . Novo lote: 30 peças inspecionadas, 6 defeituosas. Determine o posterior e a média posterior.
Show solution
Prior Beta(2, 8), n = 30, k = 6. Posterior: . Média posterior: . Compare com MLE = : coincidem porque o prior já estava calibrado na mesma proporção. - Ex. 79.19ModelingAnswer key
COVID-19 em fase endêmica: prevalência 5%. Teste rápido: sensibilidade 80%, especificidade 95%. Calcule o VPP usando frequências em 10 000 pessoas. Vale a pena isolar automaticamente todos os positivos?
Show solution
COVID screening: prevalência 5%, sens 80%, espec 95%. Em 10 000 pessoas: doentes = 500, TP = 400, saudáveis = 9500, FP = 475. VPP = 400/875 ≈ 45,7%. Menos da metade dos positivos são verdadeiramente infectados — justifica confirmação com PCR antes de decisões de isolamento prolongado.Show step-by-step (with the why)
- Calcule o número de doentes na população de 10 000: .
- TP = doentes × sensibilidade = .
- FP = saudáveis × (1 − especificidade) = .
- VPP = TP / (TP + FP) = .
- Observação: com sensibilidade mais baixa (80% vs 95%), o VPP cai ainda mais do que no exemplo introdutório. Prevalência e especificidade são os fatores determinantes do VPP para rastreamento populacional.
- Ex. 79.20Modeling
Naive Bayes para e-mail: . No treino: "GRÁTIS" aparece em 60% dos spams e 5% dos hams; "ganhou" aparece em 50% dos spams e 10% dos hams. Um e-mail contém ambas as palavras. Classifique assumindo independência condicional.
Show solution
Classify: prior odds spam 3:7. LR para "GRÁTIS": . LR para "ganhou": , , LR = 5. Posterior odds = . Posterior = . Classifica como spam. - Ex. 79.21Modeling
Três doenças: A (10% na população), B (5%), C (1%). Paciente apresenta sintoma S com , , . Qual a doença mais provável?
Show solution
Priors: , , . Likelihoods: , , . Posteriors não normalizados: A: 0,03; B: 0,045; C: 0,009. Normalizar: soma = 0,084. , , . Diagnóstico mais provável: doença B. - Ex. 79.22Modeling
Falácia do promotor: evidência de DNA tem frequência 1/1000 na população. O promotor afirma que a probabilidade de inocência é 1/1000. Por que este raciocínio está errado? Calcule o posterior correto assumindo que há 100 000 suspeitos plausíveis na cidade.
Show solution
Prior: onde N é o número de suspeitos plausíveis. Likelihood: ; . A falácia do promotor é afirmar que a probabilidade de inocência é 1/1000. Com prior 1/100000: posterior = . O match é evidência, não prova. - Ex. 79.23ModelingAnswer key
Classificador de fraude: sensibilidade 95%, especificidade 99,9%. Fraudes: 0,1% das transações. Calcule o VPP. Quantos falsos positivos por cada verdadeiro positivo?
Show solution
Fraude: prevalência 0,1%, sens 95%, espec 99,9%. Em 1 000 000 transações: fraudes = 1000, TP = 950, FP = . VPP = . Para cada alerta genuíno, há quase 1 falso positivo. Em prática: triagem automática, mas revisão humana antes de bloquear definitivamente. - Ex. 79.24Modeling
Teste de gravidez: sensibilidade 99%, especificidade 98%. Mulher com probabilidade prévia de gravidez de 30%. Calcule o VPP.
Show solution
Prev 30%, sens 99%, espec 98%. VPP = . Com prior de 30%, o VPP já é muito alto — a prevalência elevada compensa a pequena taxa de falso positivo. - Ex. 79.25ModelingAnswer key
Polígrafo: sensibilidade 70%, especificidade 80%. Em interrogatório com suspeito que tem prior de culpa de 5%. Calcule o posterior após resultado positivo. O resultado é admissível como prova suficiente para condenar?
Show solution
Prior odds: . Polígrafo: sens 70%, espec 80%. . Posterior odds: . Posterior: . Com apenas 15% de probabilidade posterior de culpa, não é confiável como prova suficiente para condenação. - Ex. 79.26ModelingAnswer key
Dois testes independentes positivos (sens = 0,9, espec = 0,95; sens = 0,85, espec = 0,90). Prevalência 2%. Calcule o posterior após ambos os resultados positivos via atualização sequencial.
Show solution
Dois testes independentes positivos: sensibilidades 0,9 e 0,85; especificidades 0,95 e 0,90; prevalência 2%. Após T1+: . Após T2+ com prior 0,269: . - Ex. 79.27Modeling
Em uma fila de suspeitos, um tem cabelo vermelho (H) com probabilidade 70% de ser o culpado. Uma testemunha identifica o de cabelo vermelho com probabilidade 90% quando o culpado é H, e erroneamente 15% das vezes quando o culpado não é H. Dado que a testemunha apontou H, qual o posterior de culpa?
Show solution
, . Testemunha identifica suspeito H com probabilidade 0,9 quando é H, e erra 0,15 das vezes quando é C. . . - Ex. 79.28Modeling
Controle de qualidade com 3 linhas (A: 40% da produção, 2% defeito; B: 35%, 3%; C: 25%, 5%). Encontra-se uma peça defeituosa. Determine a probabilidade de cada linha ser a origem.
Show solution
Linha A: 40%, 2% defeito. Linha B: 35%, 3% defeito. Linha C: 25%, 5% defeito. Ao encontrar peça defeituosa: posterior proporcional a taxa de defeito × proporção da linha. ; ; . Total = 0,031. Posteriors: A ≈ 25,8%, B ≈ 33,9%, C ≈ 40,3%. Linha C é a mais provável fonte da peça defeituosa. - Ex. 79.29Understanding
O que é a base rate fallacy (falácia da taxa base)?
Show solution
A falácia da taxa base (base rate fallacy) é especificamente a falha em incorporar a prevalência (prior) ao calcular a probabilidade posterior. As outras opções descrevem outros tipos de erro, mas não a base rate fallacy. - Ex. 79.30Understanding
Por que o prior importa mesmo em "ciência objetiva"? Uma análise que ignora o prior equivale a qual suposição implícita?
Show solution
O prior importa porque é o ponto de partida da atualização bayesiana. Sem prior, não há numerador em Bayes — a fórmula não produz posterior. Na prática, mesmo análises "objetivas" implicam priors: testar com -valor equivale a atribuir prior pontual em e rejeitar se a evidência for improvável sob esse prior. Dizer que prior é "subjetivo" enquanto o -valor é "objetivo" é uma ilusão — a objetividade do -valor está nos procedimentos de controle de erro, não na ausência de assunções sobre os parâmetros. - Ex. 79.31Understanding
Dois testes positivos independentes com razões de verossimilhança e . Qual o efeito na forma de odds?
Show solution
Quando os testes são condicionalmente independentes dado a hipótese, a razão de verossimilhança combinada é o produto das razões individuais: . Na forma de odds: posterior odds = prior odds . A soma seria incorreta — as razões se multiplicam, não se somam. O segundo teste positivo sempre aumenta o posterior (desde que ). - Ex. 79.32Understanding
Qual a diferença prática entre usar um prior Beta(1,1) e um prior Beta(10,10) para uma moeda? Em qual caso o posterior será mais sensível a novos dados?
Show solution
O prior Beta(1,1) é uniforme em — não favorece nenhum valor de . O prior Beta(,) com concentra massa em torno de . Um prior mais "informativo" (maior ) exige mais dados para ser dominado pela likelihood. Com prior Beta(1,1) e observações (k caras), o posterior Beta(1+k, 1+10−k) tem média — levemente puxado para 0,5 em relação ao MLE . - Ex. 79.33Challenge
Mostre que dois testes positivos independentes condicionalmente dado resultam em posterior odds igual a prior odds, onde .
Show solution
Via forma de odds: prior odds . Após : posterior odds prior odds. Após (com posterior como novo prior): posterior odds prior odds prior odds. Extensão por indução: para evidências independentes condicionalmente: posterior odds prior odds. A forma de odds transforma atualização sequencial em multiplicação de LRs. - Ex. 79.34Challenge
Demonstre que o posterior do modelo Bernoulli-Beta é Beta(, ) quando o prior é Beta(, ) e observamos sucessos em ensaios.
Show solution
Beta(, ) tem densidade proporcional a . Pela regra de Bayes: posterior likelihood prior . A constante não depende de , logo posterior , que é a kernel de Beta(, ). - Ex. 79.35Proof
Demonstre o teorema de Bayes a partir da definição de probabilidade condicional e da lei da probabilidade total.
Show solution
Por definição de probabilidade condicional: . Pelo teorema da multiplicação: . Pela lei da probabilidade total (partição ): . Substituindo: . - Ex. 79.36Proof
Mostre que usando apenas a definição de probabilidade condicional. Identifique por que em geral.
Show solution
Pela simetria da definição: . Portanto , que implica . Esta é exatamente a forma de Bayes com duas hipóteses (, ) e evidência . Mostra que em geral — a confusão entre os dois é a falácia do promotor. - Ex. 79.37Challenge
Problema de Monty Hall com 3 portas. Use Bayes para calcular a probabilidade de o carro estar em cada porta depois que Monty (que sabe onde está o carro) abre uma porta vazia. Deve-se trocar?
Show solution
Monty Hall: 3 portas, carro em 1. Hipóteses: = carro na porta 1 (prior 1/3), = porta 2, = porta 3. Você escolhe porta 1. Monty abre porta 3 (sem carro). Evidência = "Monty abre porta 3". (Monty escolhe entre 2 e 3 aleatoriamente), (só pode abrir 3), (não abriria com carro). . Posterior de porta 1: . Posterior de porta 2: . Deve-se trocar. - Ex. 79.38ChallengeAnswer key
No Naive Bayes com features binárias, mostre que o classificador é equivalente a multiplicar os LRs individuais de cada feature. O que acontece quando a suposição de independência condicional é violada?
Show solution
Naive Bayes com features independentes dado a classe: . Na forma de log: . Para features binárias, . Isso é equivalente a multiplicar os LRs de cada feature individualmente (se independentes), exatamente como na atualização sequencial. Se as features não são condicionalmente independentes, o Naive Bayes superestima a confiança das predições mas frequentemente ainda classifica corretamente. - Ex. 79.39ProofAnswer key
Demonstre que a forma de odds de Bayes, posterior odds = LR prior odds, segue diretamente da forma usual do teorema de Bayes para dois eventos complementares e .
Show solution
Para a partição : e . Dividindo: . O primeiro fator é o LR, o segundo são os prior odds. O fator normalizador cancela no quociente. - Ex. 79.40Challenge
Mostre que a média do posterior Beta(, ) converge para o estimador de máxima verossimilhança quando , para qualquer prior fixo Beta(, ). O que isso implica sobre a relação entre Bayes e frequentismo para grandes amostras?
Show solution
Com lançamentos e caras, o MLE é . A média posterior com Beta(,) é . Quando : (pois pela lei dos grandes números e os termos tornam-se negligenciáveis). Para qualquer prior fixo (com finito), o posterior converge para MLE. Interpretação: com muitos dados, os dados "anonegam" o prior — este é o resultado de consistência da inferência bayesiana.
Fontes
-
Grinstead, C.M. & Snell, J.L. — Introduction to Probability (2nd ed.) · GNU FDL · Dartmouth College. Capítulo 4 (§4.1): Probabilidade condicional, independência, teorema de Bayes — fonte primária da maioria dos exercícios de urnas, moedas e demonstrações desta lição.
-
Diez, D.M., Çetinkaya-Rundel, M., Barr, C.D. — OpenIntro Statistics (4th ed.) · CC-BY-SA · OpenIntro. Seções §3.2–3.4: probabilidade condicional, Bayes, tabelas de frequência e atualização bayesiana — fonte dos exercícios de VPP, atualização sequencial e prior conjugado.
-
Illowsky, B. & Dean, S. — Statistics (OpenStax) · CC-BY · OpenStax. Seção §3.4 (Contingency Tables and Probability Trees): diagnóstico médico, spam filtering e árvores de probabilidade — base dos exercícios de Naive Bayes e fraude.