v1 · padrão canônico

Lección 79 — Teorema de Bayes profundizado

Priors, posteriors y actualización secuencial. Forma de odds, prior conjugado Beta-binomial, base rate fallacy, Naive Bayes. Aplicaciones en diagnóstico médico, filtro de spam y ML.

Used in: Stochastik LK alemão · H2 Math Statistics singapurense · Math B japonês · Equiv. AP Statistics EUA

P(H \mid E) = \frac{P(E \mid H)\,P(H)}{P(E)}

Choose your door

Rigorous notation, full derivation, hypotheses

Definiciones y teoremas

Probabilidad condicional

"The conditional probability $P(E \mid F)$ , the probability of $E$ given $F$ , expresses the probability of $E$ when we know that $F$ has occurred. It can be computed using the formula $P(E \mid F) = P(EF)/P(F)$ , assuming $P(F) > 0$ ." — Grinstead & Snell, Introduction to Probability, §4.1

Teorema de Bayes

"Bayes' Theorem is just a formula that comes from the definition of conditional probability. Yet it is extremely powerful, and is the key to understanding what it means to rationally revise your beliefs in light of new evidence." — OpenIntro Statistics 4e, §3.2

Forma de odds

Definition· Forma de odds (razón de probabilidades)

La forma de odds reescribe Bayes como una multiplicación de razones:

$\underbrace{\frac{P(H \mid E)}{P(\neg H \mid E)}}_{\text{posterior odds}} = \underbrace{\frac{P(E \mid H)}{P(E \mid \neg H)}}_{\text{razón de verosimilitud (LR)}} \times \underbrace{\frac{P(H)}{P(\neg H)}}_{\text{prior odds}}$

La razón de verosimilitud positiva $\text{LR}^+ = \text{sensibilidad}/(1 - \text{especificidad})$ cuantifica en qué medida un resultado positivo del test favorece la hipótesis.

Actualización secuencial

Prior conjugado Beta-binomial

Definition· Prior conjugado

El prior $\pi(\theta)$ es conjugado a la likelihood $L(\theta \mid \mathbf{x})$ si el posterior $\pi(\theta \mid \mathbf{x})$ pertenece a la misma familia paramétrica que el prior.

Para el modelo Bernoulli: si $X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(\theta)$ y $k = \sum X_i$ , con prior $\theta \sim \text{Beta}(\alpha, \beta)$ :

$\theta \mid k \sim \text{Beta}(\alpha + k,\; \beta + n - k)$

Prior Beta(1,1) = uniforme en $[0,1]$ (prior no informativo). Media del posterior: $(\alpha + k)/(\alpha + \beta + n)$ .

SVG — Diagrama de Bayes en la tabla 2×2

Diagrama de frecuencias absolutas. El VPP (Valor Predictivo Positivo) es el posterior bayesiano P(enfermo | test positivo). Cuando la prevalencia es baja, los falsos positivos superan a los verdaderos positivos incluso con un test de alta calidad.

Ejemplos resueltos

Example— 1· Cálculo directo con la ley de la probabilidad total (aplicacion)

Problema: Una fábrica tiene tres líneas de producción: A (40% de la producción), B (35%) y C (25%). Las tasas de defecto son: A: 2%, B: 3%, C: 5%. Se extrae una pieza al azar y está defectuosa. ¿Cuál es la probabilidad de que haya sido producida por la línea B?

Estrategia: Aplicar la ley de la probabilidad total para calcular $P(\text{defecto})$ , luego usar el teorema de Bayes para obtener $P(B \mid \text{defecto})$ .

Resolución:

Definir los eventos: $H_A$ , $H_B$ , $H_C$ = la pieza proviene de la línea A, B, C. $D$ = pieza defectuosa.
Priors: $P(H_A) = 0{,}40$ , $P(H_B) = 0{,}35$ , $P(H_C) = 0{,}25$ .
Likelihoods: $P(D \mid H_A) = 0{,}02$ , $P(D \mid H_B) = 0{,}03$ , $P(D \mid H_C) = 0{,}05$ .
Ley de la probabilidad total: $P(D) = 0{,}02 \times 0{,}40 + 0{,}03 \times 0{,}35 + 0{,}05 \times 0{,}25 = 0{,}008 + 0{,}0105 + 0{,}0125 = 0{,}031$
Bayes para la línea B: $P(H_B \mid D) = \frac{0{,}03 \times 0{,}35}{0{,}031} = \frac{0{,}0105}{0{,}031} \approx 0{,}339$

Verificación: Calculemos también para A y C: $P(H_A \mid D) = 0{,}008/0{,}031 \approx 0{,}258$ ; $P(H_C \mid D) = 0{,}0125/0{,}031 \approx 0{,}403$ . Suma: $0{,}258 + 0{,}339 + 0{,}403 = 1{,}000$ . Correcto.

Fuente. Grinstead & Snell — Introduction to Probability §4.1 — GNU FDL. (Problema adaptado de la estructura del Ejemplo 4.11, tres causas con distintas likelihoods.)

Example— 2· Base rate fallacy y VPP (aplicacion)

Problema: La enfermedad X afecta al 0,5% de la población. Test diagnóstico: sensibilidad 95%, especificidad 90%. Un paciente da positivo. ¿Cuál es el valor predictivo positivo?

Estrategia: Usar frecuencias absolutas en una muestra de 10 000 personas — método recomendado por OpenIntro Statistics para evitar errores de intuición.

Resolución:

En 10 000 personas:

Enfermos: $10000 \times 0{,}005 = 50$ .
Verdaderos positivos (TP): $50 \times 0{,}95 = 47{,}5 \approx 48$ (redondeado).
Sanos: $10000 - 50 = 9950$ .
Falsos positivos (FP): $9950 \times (1 - 0{,}90) = 9950 \times 0{,}10 = 995$ .
Total de positivos: $48 + 995 = 1043$ .
$\text{VPP} = 48/1043 \approx 4{,}6\%$ .

Verificación: Por fórmula directa: $\text{VPP} = \frac{0{,}95 \times 0{,}005}{0{,}95 \times 0{,}005 + 0{,}10 \times 0{,}995} = \frac{0{,}00475}{0{,}00475 + 0{,}0995} = \frac{0{,}00475}{0{,}10425} \approx 4{,}6\%$

Coincide. La intuición de "95% de probabilidad de estar enfermo" está equivocada por un factor de 20 — ilustración clásica de la base rate fallacy.

Fuente. OpenIntro Statistics 4e §3.2 — CC-BY-SA. (Estructura del Ejemplo 3.10, diagnóstico médico con prevalencia baja.)

Example— 3· Urna con dos causas — forma clásica (aplicacion)

Problema: La urna A contiene 3 bolas rojas y 2 azules. La urna B contiene 1 bola roja y 4 azules. Se escoge una urna al azar (50%-50%) y se extrae una bola. La bola es roja. ¿Cuál es la probabilidad de que la urna elegida haya sido la A?

Estrategia: Dos hipótesis ( $H_A$ y $H_B$ ), prior uniforme, evidencia = bola roja. Aplicar Bayes directamente.

Resolución:

Priors: $P(H_A) = P(H_B) = 0{,}5$ .
Likelihoods: $P(V \mid H_A) = 3/5 = 0{,}60$ ; $P(V \mid H_B) = 1/5 = 0{,}20$ .
Probabilidad total de la bola roja: $P(V) = 0{,}60 \times 0{,}50 + 0{,}20 \times 0{,}50 = 0{,}30 + 0{,}10 = 0{,}40$
Posterior: $P(H_A \mid V) = \frac{0{,}60 \times 0{,}50}{0{,}40} = \frac{0{,}30}{0{,}40} = 0{,}75$

Verificación: $P(H_B \mid V) = 0{,}10/0{,}40 = 0{,}25$ . Suma $= 1$ . La urna A tiene bolas rojas en proporción 3 veces mayor que la urna B, por lo que tiene sentido que el posterior de A sea 3 veces el de B ( $0{,}75 = 3 \times 0{,}25$ ).

Fuente. Grinstead & Snell — Introduction to Probability §4.1 — GNU FDL. (Adaptado del Ejercicio 4.1.1 sobre dos urnas.)

Example— 4· Actualización secuencial con dos tests (intermediario)

Problema: Prevalencia de una enfermedad: 2%. Dos tests independientes: Test 1 con sensibilidad 90% y especificidad 95%; Test 2 con sensibilidad 85% y especificidad 92%. Ambos dan positivo. ¿Cuál es el posterior tras los dos resultados positivos?

Estrategia: Aplicar Bayes secuencialmente: el posterior del Test 1 se convierte en el prior para el Test 2.

Resolución:

Paso 1 — tras Test 1 positivo: $P(D \mid T_1^+) = \frac{0{,}90 \times 0{,}02}{0{,}90 \times 0{,}02 + 0{,}05 \times 0{,}98} = \frac{0{,}018}{0{,}018 + 0{,}049} = \frac{0{,}018}{0{,}067} \approx 0{,}269$

Paso 2 — tras Test 2 positivo (prior = 0,269): $P(D \mid T_1^+, T_2^+) = \frac{0{,}85 \times 0{,}269}{0{,}85 \times 0{,}269 + 0{,}08 \times 0{,}731} = \frac{0{,}229}{0{,}229 + 0{,}0585} = \frac{0{,}229}{0{,}287} \approx 0{,}798$

Verificación por forma de odds:

Prior odds: $0{,}02/0{,}98 \approx 0{,}0204$ .
$\text{LR}_1^+ = 0{,}90/0{,}05 = 18$ ; $\text{LR}_2^+ = 0{,}85/0{,}08 = 10{,}625$ .
Posterior odds: $0{,}0204 \times 18 \times 10{,}625 = 3{,}898$ .
Posterior: $3{,}898/(1 + 3{,}898) \approx 79{,}6\%$ . Confirma el cálculo anterior.

Fuente. OpenIntro Statistics 4e §3.3 — CC-BY-SA. (Extensión del Ejemplo 3.13 sobre actualización secuencial con dos tests independientes.)

Example— 5· Prior conjugado Beta-binomial (avancado)

Problema: Un control de calidad utiliza prior Beta(2, 8) para la tasa de defectos $\theta$ de una línea de producción (equivalente a "hemos observado históricamente 2 defectos en 10 inspecciones"). En un nuevo lote se inspeccionan 20 piezas y se encuentran 4 defectuosas. Determine: (a) el posterior, (b) la media posterior, (c) un intervalo de credibilidad aproximado del 90%.

Estrategia: Usar la propiedad de conjugación Beta-Binomial. Posterior = Beta( $\alpha + k$ , $\beta + n - k$ ). Para el intervalo, usar la aproximación normal de la Beta para parámetros moderados.

Resolución:

(a) Posterior: Prior Beta(2, 8), $n = 20$ , $k = 4$ . $\theta \mid 4 \sim \text{Beta}(2 + 4,\; 8 + 20 - 4) = \text{Beta}(6, 24)$

(b) Media posterior: $\mu = \alpha/(\alpha + \beta) = 6/(6 + 24) = 6/30 = 0{,}20$ .

Comparemos con el prior: $\mu_{\text{prior}} = 2/10 = 0{,}20$ . El MLE sería $k/n = 4/20 = 0{,}20$ . En este caso coinciden porque el prior fue construido con las mismas proporciones.

(c) Intervalo de credibilidad 90%: La distribución Beta(6, 24) tiene desviación estándar $\sigma = \sqrt{\alpha\beta/((\alpha+\beta)^2(\alpha+\beta+1))} = \sqrt{6 \times 24/(900 \times 31)} \approx \sqrt{144/27900} \approx 0{,}0718$ .

Intervalo aproximado $\mu \pm 1{,}645\sigma$ : $[0{,}20 - 0{,}118, 0{,}20 + 0{,}118] = [0{,}082, 0{,}318]$ . (El intervalo exacto, por cuantiles de Beta(6,24), es aproximadamente $[0{,}090, 0{,}338]$ .)

Verificación: A medida que $n \to \infty$ , la influencia del prior disminuye y el posterior se concentra en el MLE. Con prior Beta(2,8) y 200 piezas observadas con 40 defectos, el posterior sería Beta(42, 168) con media $42/210 \approx 0{,}20$ y desviación estándar $\approx 0{,}028$ — mucho más concentrado.

Fuente. OpenIntro Statistics 4e §3.4 — CC-BY-SA. (Estructura del ejercicio sobre inferencia bayesiana con prior conjugado, sección de inferencia bayesiana introductoria.)

Exercise list

40 exercises · 10 with worked solution (25%)

Application 18Understanding 4Modeling 10Challenge 5Proof 3

Ex. 79.1ApplicationAnswer key
$P(A) = 0{,}3$ , $P(B) = 0{,}5$ , $P(A \cap B) = 0{,}15$ . Calcula $P(A \mid B)$ .
Solve online
Ex. 79.2Application
$P(A \mid B) = 0{,}6$ , $P(B) = 0{,}5$ . Calcula $P(A \cap B)$ .
Solve online
Ex. 79.3Application
$P(A) = 0{,}1$ , $P(B \mid A) = 0{,}8$ , $P(B \mid \bar A) = 0{,}2$ . Calcula $P(B)$ .
Solve online
Ex. 79.4Application
Con los datos del ejercicio 79.3, calcula $P(A \mid B)$ .
Solve online
Ex. 79.5ApplicationAnswer key
Enfermedad con prevalencia 0,5%. Test diagnóstico: sensibilidad 95%, especificidad 95%. Calcula el VPP usando frecuencias en 10 000 personas.
Solve online
Ex. 79.6ApplicationAnswer key
Mismos datos del ejercicio 79.5, pero con prevalencia 50%. Calcula el VPP y compáralo con el resultado anterior.
Solve online
Ex. 79.7Application
Filtro de spam: $P(\text{spam}) = 0{,}3$ . La palabra "GRATIS" aparece en el 60% de los spams y en el 5% de los correos legítimos. Calcula $P(\text{spam} \mid \text{GRATIS})$ .
Solve online
Ex. 79.8Application
Urna A: 2 rojas, 3 azules. Urna B: 5 rojas, 1 azul. Se escoge una urna al azar y se extrae una bola roja. ¿Cuál es la probabilidad de que la urna sea A?
Solve online
Ex. 79.9ApplicationAnswer key
3 monedas: 2 justas, 1 con dos caras. Se elige una al azar, se lanza una vez y sale cara. ¿Cuál es la probabilidad de que la moneda elegida sea la de dos caras?
Solve online
Ex. 79.10Application
$P(\text{fumador}) = 0{,}2$ . $P(\text{cáncer} \mid \text{fumador}) = 0{,}1$ . $P(\text{cáncer} \mid \neg\text{fumador}) = 0{,}01$ . Dado que una persona tiene cáncer, ¿cuál es la probabilidad de que sea fumadora?
Solve online
Ex. 79.11Application
Actualización secuencial: dos tests positivos con sensibilidad 90% y especificidad 90%, aplicados a una enfermedad con prevalencia 1%. Usa el posterior del 1.er test como prior del 2.º. ¿Cuál es el VPP tras los dos tests positivos consecutivos?
Solve online
Ex. 79.12Application
Para un test con sensibilidad 90% y especificidad 95%, calcula la razón de verosimilitud positiva $\text{LR}^+ = \text{sens}/(1 - \text{espec})$ .
Solve online
Ex. 79.13Application
Prior odds de 1:99 (prevalencia 1%). $\text{LR}^+ = 18$ (sensibilidad 90%, especificidad 95%). Calcula los posterior odds y el posterior.
Solve online
Ex. 79.14Application
¿Cuál de los siguientes valores es el posterior correcto en un contexto con prior odds 1:99 y $\text{LR}^+ = 18$ ?
Solve online
Ex. 79.15Application
Prior $\theta \sim \text{Beta}(2, 2)$ . Se observan 7 caras en 10 lanzamientos. Determina el posterior.
Solve online
Ex. 79.16Application
Prior $\theta \sim \text{Beta}(1, 1)$ (uniforme). Se observan 0 caras en 5 lanzamientos. Determina el posterior y su media.
Solve online
Ex. 79.17Application
En el ejercicio 79.15, ¿cuál es la media del posterior?
Solve online
Ex. 79.18Application
Prior $\theta \sim \text{Beta}(2, 8)$ . Nuevo lote: 30 piezas inspeccionadas, 6 defectuosas. Determina el posterior y la media posterior.
Solve online
Ex. 79.19ModelingAnswer key
COVID-19 en fase endémica: prevalencia 5%. Test rápido: sensibilidad 80%, especificidad 95%. Calcula el VPP usando frecuencias en 10 000 personas. ¿Vale la pena aislar automáticamente a todos los positivos?
Solve online
Ex. 79.20Modeling
Naive Bayes para correo electrónico: $P(\text{spam}) = 0{,}3$ . En el entrenamiento: "GRATIS" aparece en el 60% de los spams y en el 5% de los hams; "ganaste" aparece en el 50% de los spams y en el 10% de los hams. Un correo contiene ambas palabras. Clasifícalo asumiendo independencia condicional.
Solve online
Ex. 79.21Modeling
Tres enfermedades: A (10% en la población), B (5%), C (1%). El paciente presenta el síntoma S con $P(S|A) = 0{,}3$ , $P(S|B) = 0{,}9$ , $P(S|C) = 0{,}9$ . ¿Cuál es la enfermedad más probable?
Solve online
Ex. 79.22Modeling
Falacia del fiscal: la evidencia de ADN tiene una frecuencia de 1/1000 en la población. El fiscal afirma que la probabilidad de inocencia es 1/1000. ¿Por qué este razonamiento es incorrecto? Calcula el posterior correcto asumiendo que hay 100 000 sospechosos plausibles en la ciudad.
Solve online
Ex. 79.23ModelingAnswer key
Clasificador de fraude: sensibilidad 95%, especificidad 99,9%. Fraudes: 0,1% de las transacciones. Calcula el VPP. ¿Cuántos falsos positivos hay por cada verdadero positivo?
Solve online
Ex. 79.24Modeling
Test de embarazo: sensibilidad 99%, especificidad 98%. Mujer con probabilidad previa de embarazo del 30%. Calcula el VPP.
Solve online
Ex. 79.25ModelingAnswer key
Polígrafo: sensibilidad 70%, especificidad 80%. En un interrogatorio con un sospechoso que tiene prior de culpa del 5%. Calcula el posterior tras un resultado positivo. ¿Es el resultado admisible como prueba suficiente para condenar?
Solve online
Ex. 79.26ModelingAnswer key
Dos tests independientes positivos (sens $_1$ = 0,9, espec $_1$ = 0,95; sens $_2$ = 0,85, espec $_2$ = 0,90). Prevalencia 2%. Calcula el posterior tras ambos resultados positivos mediante actualización secuencial.
Solve online
Ex. 79.27Modeling
En una rueda de reconocimiento, uno de los sospechosos tiene el pelo rojo (H) con probabilidad 70% de ser el culpable. Un testigo identifica al de pelo rojo con probabilidad 90% cuando el culpable es H, y erróneamente el 15% de las veces cuando el culpable no es H. Dado que el testigo señaló a H, ¿cuál es el posterior de culpabilidad?
Solve online
Ex. 79.28Modeling
Control de calidad con 3 líneas (A: 40% de la producción, 2% defecto; B: 35%, 3%; C: 25%, 5%). Se encuentra una pieza defectuosa. Determina la probabilidad de que cada línea sea el origen.
Solve online
Ex. 79.29Understanding
¿Qué es la base rate fallacy (falacia de la tasa base)?
Solve online
Ex. 79.30Understanding
¿Por qué importa el prior incluso en la "ciencia objetiva"? ¿A qué supuesto implícito equivale un análisis que ignora el prior?
Solve online
Ex. 79.31Understanding
Dos tests positivos independientes con razones de verosimilitud $r_1$ y $r_2$ . ¿Cuál es el efecto en la forma de odds?
Solve online
Ex. 79.32Understanding
¿Cuál es la diferencia práctica entre usar un prior Beta(1,1) y un prior Beta(10,10) para una moneda? ¿En qué caso el posterior será más sensible a los nuevos datos?
Solve online
Ex. 79.33Challenge
Demuestra que dos tests positivos condicionalmente independientes dado $H$ dan lugar a un posterior odds igual a $r_1 \times r_2 \times$ prior odds, donde $r_i = \text{LR}_i^+$ .
Solve online
Ex. 79.34Challenge
Demuestra que el posterior del modelo Bernoulli-Beta es Beta( $\alpha + k$ , $\beta + n - k$ ) cuando el prior es Beta( $\alpha$ , $\beta$ ) y se observan $k$ éxitos en $n$ ensayos.
Solve online
Ex. 79.35Proof
Demuestra el teorema de Bayes a partir de la definición de probabilidad condicional y la ley de la probabilidad total.
Solve online
Ex. 79.36Proof
Demuestra que $P(A \mid B) = P(B \mid A)\,P(A)/P(B)$ usando solo la definición de probabilidad condicional. Identifica por qué $P(A \mid B) \neq P(B \mid A)$ en general.
Solve online
Ex. 79.37Challenge
Problema de Monty Hall con 3 puertas. Usa Bayes para calcular la probabilidad de que el coche esté en cada puerta después de que Monty (que sabe dónde está el coche) abra una puerta vacía. ¿Conviene cambiar?
Solve online
Ex. 79.38ChallengeAnswer key
En Naive Bayes con características binarias, demuestra que el clasificador es equivalente a multiplicar los LRs individuales de cada característica. ¿Qué ocurre cuando se viola el supuesto de independencia condicional?
Solve online
Ex. 79.39ProofAnswer key
Demuestra que la forma de odds de Bayes, posterior odds = LR $\times$ prior odds, se deduce directamente de la forma usual del teorema de Bayes para dos eventos complementarios $H$ y $\neg H$ .
Solve online
Ex. 79.40Challenge
Demuestra que la media del posterior Beta( $\alpha + k$ , $\beta + n - k$ ) converge al estimador de máxima verosimilitud $k/n$ cuando $n \to \infty$ , para cualquier prior fijo Beta( $\alpha$ , $\beta$ ). ¿Qué implica esto sobre la relación entre Bayes y el frecuentismo para muestras grandes?
Solve online

Fuentes

Grinstead, C.M. & Snell, J.L. — Introduction to Probability (2nd ed.) · GNU FDL · Dartmouth College. Capítulo 4 (§4.1): Probabilidad condicional, independencia, teorema de Bayes — fuente primaria de la mayoría de los ejercicios de urnas, monedas y demostraciones de esta lección.
Diez, D.M., Çetinkaya-Rundel, M., Barr, C.D. — OpenIntro Statistics (4th ed.) · CC-BY-SA · OpenIntro. Secciones §3.2–3.4: probabilidad condicional, Bayes, tablas de frecuencias y actualización bayesiana — fuente de los ejercicios de VPP, actualización secuencial y prior conjugado.
Illowsky, B. & Dean, S. — Statistics (OpenStax) · CC-BY · OpenStax. Sección §3.4 (Contingency Tables and Probability Trees): diagnóstico médico, filtro de spam y árboles de probabilidad — base de los ejercicios de Naive Bayes y fraude.