Lección 109 — Estadística bayesiana introductoria
Prior, verosimilitud, posterior. Regla de Bayes. Conjugados Beta-Bernoulli. MAP versus MLE. Intervalo creíble. Introducción a la inferencia mediante el paradigma bayesiano.
Used in: Stochastik LK (Alemania, Klasse 12) · H2 Math Statistics (Singapur) · AP Statistics (EUA)
Rigorous notation, full derivation, hypotheses
Definición rigurosa
El teorema de Bayes
"El teorema de Bayes es un resultado básico de probabilidad condicional, pero su interpretación lo cambia todo: ofrece una receta formal para actualizar creencias a la luz de evidencias." — OpenIntro Statistics §3.6
Priors conjugados: el caso Beta-Bernoulli
Estimadores puntuales
Intervalo creíble
Factor de Bayes
Para comparar hipótesis y :
Escala de Jeffreys: — evidencia fuerte para ; — fuerte para ; — inconcluyente.
Flujo bayesiano: prior × verosimilitud → posterior. El posterior se convierte en el nuevo prior cuando llegan más datos.
Ejemplos resueltos
Problema. Una enfermedad afecta el 2% de la población. Una prueba tiene sensibilidad 90% y especificidad 85%. Un paciente prueba positivo. ¿Cuál es la probabilidad de que tenga la enfermedad?
Estrategia. Aplicar la fórmula de Bayes con partición y calcular .
Resolución.
, , , .
Evidencia total:
Posterior:
Verificación. Con solo 2% de prevalencia, incluso una prueba relativamente buena genera muchos falsos positivos. La respuesta tiene sentido: la mayoría de los positivos proviene de la enorme población sana.
Fuente. OpenIntro Statistics §3.6, ejemplo de diagnóstico médico — CC-BY-SA.
Problema. Una urna tiene proporción desconocida de bolas rojas. Prior: . Se retira con reposición: 1ª muestra — 3 rojas en 5 retiradas; 2ª muestra — 4 rojas en 6 retiradas. Calcule el posterior tras cada muestra y la media posterior final.
Estrategia. Beta-Bernoulli: tras éxitos en intentos, . Aplicar iterativamente.
Resolución.
Prior: , media .
Tras 1ª muestra (, ):
Tras 2ª muestra (, ):
Verificación. Total de datos: 7 rojas en 11 retiradas, proporción muestral = . Media posterior 0,60 está entre el prior (0,50) y la proporción muestral — tiene sentido. Con prior débil, el posterior converge al MLE conforme crece.
Fuente. Think Bayes §3 — Allen Downey — CC-BY-NC-SA.
Problema. Para el modelo Beta-Bernoulli con , , tras 6 éxitos en 10 intentos, calcule el MLE, el MAP y la media posterior. Interprete la diferencia.
Estrategia. MLE maximiza la verosimilitud; MAP maximiza el posterior; media posterior es .
Resolución.
MLE: .
Posterior: .
MAP (moda de Beta con es ):
Media posterior:
Verificación. Ordenación: media entre MAP y la moda de Beta(9,7). MLE es el mayor — el prior "tira" hacia 0,5 (prior simétrico alrededor de 0,5). Con grande, los tres convergen al MLE.
Fuente. Think Bayes §4, §6 — Allen Downey — CC-BY-NC-SA.
Problema. Tras 12 éxitos en 20 intentos con prior (uniforme), calcule el intervalo creíble central de 95% para .
Estrategia. Posterior . El intervalo central de 95% está dado por los percentiles 2,5% y 97,5% de la distribución Beta.
Resolución.
Posterior: .
Media posterior: .
Por tabla o software (R: qbeta(c(0.025, 0.975), 13, 9)):
Percentil 2,5%: . Percentil 97,5%: .
Intervalo creíble 95%: .
Verificación. Interpretación directa: "dado el prior uniforme y los datos, la probabilidad de estar entre 0,376 y 0,779 es 95%". Note que el intervalo no está centrado en 0,6 — es asimétrico porque la Beta es asimétrica en este caso.
Fuente. Introduction to Probability §4.1 — Grinstead & Snell — GNU FDL.
Problema. Para probar si (moneda justa) versus (moneda viciada), con prior equiprobable (), calcule el factor de Bayes y la probabilidad posterior de tras 8 caras en 10 lanzamientos.
Estrategia. Calcular para cada hipótesis, luego aplicar Bayes.
Resolución.
Factor de Bayes:
Con prior :
Verificación. — evidencia moderada a favor de (escala de Jeffreys: entre 3 y 10 es "moderada"). La probabilidad posterior de moneda viciada pasó de 50% a 84%. Coherente con los datos (8 de 10 favorece ).
Fuente. OpenIntro Statistics §3.7 — Diez, Çetinkaya-Rundel, Barr — CC-BY-SA.
Exercise list
34 exercises · 8 with worked solution (25%)
- Ex. 109.1Application
Prevalencia de una enfermedad: 1%. Sensibilidad de la prueba: 95%. Tasa de falso-positivo: 10%. Un paciente prueba positivo. Calcule la probabilidad de tener la enfermedad.
- Ex. 109.2Application
Una moneda lanzada 10 veces da 4 caras. Prior: Beta(1,1) (uniforme). Calcule el posterior, la media posterior y compare con el MLE.
- Ex. 109.3Application
Prior: Beta(4, 6). Muestra: 7 éxitos en 10. Calcule el posterior, la media posterior y el MAP.
- Ex. 109.4Application
Prior: Beta(2, 2). Lote 1: 5 éxitos en 10. Lote 2: 8 éxitos en 10. Haga la actualización secuencial y calcule la media posterior final.
- Ex. 109.5Application
Prevalencia: 0,5%. Sensibilidad: 99%. Tasa de falso-positivo: 2%. El paciente prueba positivo. ¿Cuál es la probabilidad de tener la enfermedad?
- Ex. 109.6Application
3 éxitos en 10 intentos. Compare la media posterior con priors Beta(1,1) y Beta(5,5). ¿Cuál prior tiene mayor influencia sobre el posterior?
- Ex. 109.7Application
Tres fábricas producen tornillos: E1 (60% de la producción, 30% defectuosos), E2 (30%, 50% defectuosos), E3 (10%, 10% defectuosos). Se retira un tornillo defectuoso. ¿Cuál es la probabilidad de venir de E1?
- Ex. 109.8Application
Prior: Beta(3, 3) (leve creencia en moneda justa, media 0,5). Se lanzan 5 veces y no salen caras. Calcule el posterior y la nueva media.
- Ex. 109.9Application
Prior: Beta(1,1). Datos: 15 éxitos en 20. Calcule MAP y MLE. ¿Son iguales? ¿Por qué?
- Ex. 109.10Application
Bolsa con dos monedas: una siempre da cara (H), otra es justa (J). Se elige una al azar. Se lanza dos veces, ambas caras. ¿Cuál es la probabilidad de que sea la moneda H?
- Ex. 109.11Understanding
¿Qué significa un intervalo creíble bayesiano de 95%?
- Ex. 109.12UnderstandingAnswer key
¿Cuál afirmación sobre MAP y MLE es INCORRECTA?
- Ex. 109.13Understanding
¿Cómo el tamaño muestral n afecta la relación entre prior y posterior?
- Ex. 109.14Application
Un estudiante aprueba el examen (). Se sabe: (estudió mucho, probabilidad 60%), (no estudió, probabilidad 40%). Dado que aprobó, ¿cuál es la probabilidad de haber estudiado mucho?
- Ex. 109.15Application
Una máquina tiene tasa de acierto desconocida. Prior: Beta(4, 2) (histórico de 4 aciertos y 2 fallos). Prueba nueva: 6 aciertos consecutivos. Calcule el posterior, media y MAP.
- Ex. 109.16Application
Calcule el Factor de Bayes para versus tras 8 caras en 10 lanzamientos.
- Ex. 109.17ApplicationAnswer key
Tres lotes de 10 intentos cada uno: 7 éxito, 6 éxito, 7 éxito. Prior: Beta(1,1). Haga la actualización secuencial y calcule la media posterior final.
- Ex. 109.18Application
Prevalencia: 30%. Sensibilidad: 95%. Tasa de falso-positivo: 20%. El paciente prueba positivo. Calcule la probabilidad de tener la enfermedad y compare con el ejercicio 109.1.
- Ex. 109.19ApplicationAnswer key
Muestre que la media posterior del modelo Beta-Bernoulli es una media ponderada entre el prior y la proporción muestral. Identifique los pesos.
- Ex. 109.20Application
Prior: Beta(2, 2). Datos: 0 éxitos en 3. Calcule el posterior, MAP y media posterior.
- Ex. 109.21Application
Probabilidad de lluvia en Fortaleza en determinado día: 40%. Si llueve, hay 85% de chance de tener nubes cargadas. Si no llueve, 30%. Hay nubes cargadas. ¿Cuál es la probabilidad de llover?
- Ex. 109.22ApplicationAnswer key
Histórico de producción: 10% de defectos (equivalente a 10 defectos en 100 piezas = Beta(10,90)). Inspección nueva: 3 defectos en 20. Calcule el posterior y la media posterior.
- Ex. 109.23Application
Bolsa con 3 monedas: 1 siempre da cara (H), 2 son justas (J). Una moneda se retira aleatoriamente y se lanza: sale cara. ¿Cuál es la probabilidad de que sea la moneda H?
- Ex. 109.24Application
Prior Beta(1,1). Datos: 10 éxitos en 20. Describa el posterior y el intervalo creíble central de 95% (use que el percentil 2,5% de Beta(11,11) ≈ 0,31).
- Ex. 109.25Modeling
Un cursillo histórico aprueba 70% de los estudiantes en el ENEM. Nueva turma, 20 estudiantes: 15 pasaron. Proponga un prior Beta adecuado, calcule el posterior y la media posterior de la tasa de aprobación.
- Ex. 109.26ModelingAnswer key
Prevalencia de cáncer de páncreas: 0,2%. Biopsia: sensibilidad 92%, especificidad 97%. Examen positivo. Calcule P(cáncer | positivo) y discuta la decisión médica.
- Ex. 109.27Modeling
Una transportista reporta 20 entregas con atraso en 50 entregas monitoreadas. Usando prior Beta(1,1), estime la tasa de atraso con un intervalo creíble de 90%.
- Ex. 109.28ModelingAnswer key
Una fintech sabe que 1% de las transacciones son fraudulentas. Un algoritmo detecta que la transacción actual tiene valor fuera del estándar del cliente. P(valor anormal | fraude) = 85%, P(valor anormal | legítima) = 2%. Calcule la probabilidad de fraude.
- Ex. 109.29Proof
Muestre que, para el modelo Bernoulli con prior Beta, el posterior también es Beta. Identifique los parámetros.
- Ex. 109.30ProofAnswer key
Demuestre que, con prior Beta(1,1) (uniforme), el estimador MAP coincide con el MLE para el modelo Bernoulli.
- Ex. 109.31ApplicationAnswer key
Filtro de spam: 20% de los emails son spam. En emails spam, cada palabra-clave sospechosa aparece con probabilidad 60%; en emails legítimos, 5%. Un email tiene 3 palabras-clave. ¿Cuál es la probabilidad de que sea spam?
- Ex. 109.32Application
Dos grupos de ratas: línea 1 (10 animales, 8 desarrollaron tumor tras exposición) y línea 2 (10 animales, 3 desarrollaron). Prior Beta(1,1) para ambas tasas. Calcule el posterior y la media posterior para cada línea.
- Ex. 109.33Application
Una urna tiene proporción desconocida de bolas naranjas. Tras 100 retiradas con reposición, 50 son naranjas. Prior Beta(1,1). Calcule el posterior, la media y el intervalo creíble 95%.
- Ex. 109.34Challenge
El prior de Jeffreys para la Bernoulli es Beta(0,5; 0,5). Tras 6 éxitos en 10, calcule el posterior. Investigue qué significa que este prior sea "invariante por parametrización" y compare la media posterior con el prior Beta(1,1).
Fuentes
- Think Bayes — Allen B. Downey · CC-BY-NC-SA · Greenteapress · Capítulos 1–9.
- Introduction to Probability — Grinstead & Snell · GNU FDL · Dartmouth · §4.1.
- OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · OpenIntro · §3.6–3.7.