Lição 79 — Teorema de Bayes aprofundado
Priors, posteriors e atualização sequencial. Forma de odds, prior conjugado Beta-binomial, base rate fallacy, Naive Bayes. Aplicações em diagnóstico médico, spam filtering e ML.
Used in: Stochastik LK alemão · H2 Math Statistics singapurense · Math B japonês · Equiv. AP Statistics EUA
Rigorous notation, full derivation, hypotheses
Definições e teoremas
Probabilidade condicional
"The conditional probability , the probability of given , expresses the probability of when we know that has occurred. It can be computed using the formula , assuming ." — Grinstead & Snell, Introduction to Probability, §4.1
Lei da probabilidade total
Teorema de Bayes
"Bayes' Theorem is just a formula that comes from the definition of conditional probability. Yet it is extremely powerful, and is the key to understanding what it means to rationally revise your beliefs in light of new evidence." — OpenIntro Statistics 4e, §3.2
Forma de odds
Atualização sequencial
Prior conjugado Beta-binomial
SVG — Diagrama de Bayes na tabela 2×2
Diagrama de frequências absolutas. O VPP (Valor Preditivo Positivo) é o posterior bayesiano P(doente | teste positivo). Quando a prevalência é baixa, os falsos positivos superam os verdadeiros positivos mesmo com teste de alta qualidade.
Exemplos resolvidos
Exercise list
40 exercises · 10 with worked solution (25%)
- Ex. 79.1ApplicationAnswer key
, , . Calcule .
- Ex. 79.2Application
, . Calcule .
- Ex. 79.3Application
, , . Calcule .
- Ex. 79.4Application
Com os dados do exercício 79.3, calcule .
- Ex. 79.5ApplicationAnswer key
Doença com prevalência 0,5%. Teste diagnóstico: sensibilidade 95%, especificidade 95%. Calcule o VPP usando frequências em 10 000 pessoas.
- Ex. 79.6ApplicationAnswer key
Mesmos dados do exercício 79.5, mas com prevalência 50%. Calcule o VPP e compare com o resultado anterior.
- Ex. 79.7Application
Spam filter: . Palavra "GRÁTIS" aparece em 60% dos spams e 5% dos e-mails legítimos. Calcule .
- Ex. 79.8Application
Urna A: 2 vermelhas, 3 azuis. Urna B: 5 vermelhas, 1 azul. Escolhe-se uma urna ao acaso e retira-se uma bola vermelha. Qual a probabilidade de a urna ser A?
- Ex. 79.9ApplicationAnswer key
3 moedas: 2 honestas, 1 com duas caras. Escolhe-se uma ao acaso, lança-se uma vez, sai cara. Qual a probabilidade de a moeda escolhida ser a de duas caras?
- Ex. 79.10Application
. . . Dado que uma pessoa tem câncer, qual a probabilidade de ser fumante?
- Ex. 79.11Application
Atualização sequencial: dois testes positivos com sensibilidade 90% e especificidade 90%, aplicados a uma doença com prevalência 1%. Use o posterior do 1.º teste como prior do 2.º. Qual o VPP após os dois testes positivos consecutivos?
- Ex. 79.12Application
Para um teste com sensibilidade 90% e especificidade 95%, calcule a razão de verossimilhança positiva .
- Ex. 79.13Application
Prior odds de 1:99 (prevalência 1%). (sensibilidade 90%, especificidade 95%). Calcule os posterior odds e o posterior.
- Ex. 79.14Application
Qual dos valores a seguir é o posterior correto em um contexto com prior odds 1:99 e ?
- Ex. 79.15Application
Prior . Observa-se 7 caras em 10 lançamentos. Determine o posterior.
- Ex. 79.16Application
Prior (uniforme). Observa-se 0 caras em 5 lançamentos. Determine o posterior e sua média.
- Ex. 79.17Application
No exercício 79.15, qual é a média do posterior?
- Ex. 79.18Application
Prior . Novo lote: 30 peças inspecionadas, 6 defeituosas. Determine o posterior e a média posterior.
- Ex. 79.19ModelingAnswer key
COVID-19 em fase endêmica: prevalência 5%. Teste rápido: sensibilidade 80%, especificidade 95%. Calcule o VPP usando frequências em 10 000 pessoas. Vale a pena isolar automaticamente todos os positivos?
- Ex. 79.20Modeling
Naive Bayes para e-mail: . No treino: "GRÁTIS" aparece em 60% dos spams e 5% dos hams; "ganhou" aparece em 50% dos spams e 10% dos hams. Um e-mail contém ambas as palavras. Classifique assumindo independência condicional.
- Ex. 79.21Modeling
Três doenças: A (10% na população), B (5%), C (1%). Paciente apresenta sintoma S com , , . Qual a doença mais provável?
- Ex. 79.22Modeling
Falácia do promotor: evidência de DNA tem frequência 1/1000 na população. O promotor afirma que a probabilidade de inocência é 1/1000. Por que este raciocínio está errado? Calcule o posterior correto assumindo que há 100 000 suspeitos plausíveis na cidade.
- Ex. 79.23ModelingAnswer key
Classificador de fraude: sensibilidade 95%, especificidade 99,9%. Fraudes: 0,1% das transações. Calcule o VPP. Quantos falsos positivos por cada verdadeiro positivo?
- Ex. 79.24Modeling
Teste de gravidez: sensibilidade 99%, especificidade 98%. Mulher com probabilidade prévia de gravidez de 30%. Calcule o VPP.
- Ex. 79.25ModelingAnswer key
Polígrafo: sensibilidade 70%, especificidade 80%. Em interrogatório com suspeito que tem prior de culpa de 5%. Calcule o posterior após resultado positivo. O resultado é admissível como prova suficiente para condenar?
- Ex. 79.26ModelingAnswer key
Dois testes independentes positivos (sens = 0,9, espec = 0,95; sens = 0,85, espec = 0,90). Prevalência 2%. Calcule o posterior após ambos os resultados positivos via atualização sequencial.
- Ex. 79.27Modeling
Em uma fila de suspeitos, um tem cabelo vermelho (H) com probabilidade 70% de ser o culpado. Uma testemunha identifica o de cabelo vermelho com probabilidade 90% quando o culpado é H, e erroneamente 15% das vezes quando o culpado não é H. Dado que a testemunha apontou H, qual o posterior de culpa?
- Ex. 79.28Modeling
Controle de qualidade com 3 linhas (A: 40% da produção, 2% defeito; B: 35%, 3%; C: 25%, 5%). Encontra-se uma peça defeituosa. Determine a probabilidade de cada linha ser a origem.
- Ex. 79.29Understanding
O que é a base rate fallacy (falácia da taxa base)?
- Ex. 79.30Understanding
Por que o prior importa mesmo em "ciência objetiva"? Uma análise que ignora o prior equivale a qual suposição implícita?
- Ex. 79.31Understanding
Dois testes positivos independentes com razões de verossimilhança e . Qual o efeito na forma de odds?
- Ex. 79.32Understanding
Qual a diferença prática entre usar um prior Beta(1,1) e um prior Beta(10,10) para uma moeda? Em qual caso o posterior será mais sensível a novos dados?
- Ex. 79.33Challenge
Mostre que dois testes positivos independentes condicionalmente dado resultam em posterior odds igual a prior odds, onde .
- Ex. 79.34Challenge
Demonstre que o posterior do modelo Bernoulli-Beta é Beta(, ) quando o prior é Beta(, ) e observamos sucessos em ensaios.
- Ex. 79.35Proof
Demonstre o teorema de Bayes a partir da definição de probabilidade condicional e da lei da probabilidade total.
- Ex. 79.36Proof
Mostre que usando apenas a definição de probabilidade condicional. Identifique por que em geral.
- Ex. 79.37Challenge
Problema de Monty Hall com 3 portas. Use Bayes para calcular a probabilidade de o carro estar em cada porta depois que Monty (que sabe onde está o carro) abre uma porta vazia. Deve-se trocar?
- Ex. 79.38ChallengeAnswer key
No Naive Bayes com features binárias, mostre que o classificador é equivalente a multiplicar os LRs individuais de cada feature. O que acontece quando a suposição de independência condicional é violada?
- Ex. 79.39ProofAnswer key
Demonstre que a forma de odds de Bayes, posterior odds = LR prior odds, segue diretamente da forma usual do teorema de Bayes para dois eventos complementares e .
- Ex. 79.40Challenge
Mostre que a média do posterior Beta(, ) converge para o estimador de máxima verossimilhança quando , para qualquer prior fixo Beta(, ). O que isso implica sobre a relação entre Bayes e frequentismo para grandes amostras?
Fontes
-
Grinstead, C.M. & Snell, J.L. — Introduction to Probability (2nd ed.) · GNU FDL · Dartmouth College. Capítulo 4 (§4.1): Probabilidade condicional, independência, teorema de Bayes — fonte primária da maioria dos exercícios de urnas, moedas e demonstrações desta lição.
-
Diez, D.M., Çetinkaya-Rundel, M., Barr, C.D. — OpenIntro Statistics (4th ed.) · CC-BY-SA · OpenIntro. Seções §3.2–3.4: probabilidade condicional, Bayes, tabelas de frequência e atualização bayesiana — fonte dos exercícios de VPP, atualização sequencial e prior conjugado.
-
Illowsky, B. & Dean, S. — Statistics (OpenStax) · CC-BY · OpenStax. Seção §3.4 (Contingency Tables and Probability Trees): diagnóstico médico, spam filtering e árvores de probabilidade — base dos exercícios de Naive Bayes e fraude.