v1 · padrão canônico

Lección 109 — Estadística bayesiana introductoria

Prior, verosimilitud, posterior. Regla de Bayes. Conjugados Beta-Bernoulli. MAP versus MLE. Intervalo creíble. Introducción a la inferencia mediante el paradigma bayesiano.

Used in: Stochastik LK (Alemania, Klasse 12) · H2 Math Statistics (Singapur) · AP Statistics (EUA)

P(\theta \mid D) = \frac{P(D \mid \theta)\,P(\theta)}{P(D)}

Choose your door

Rigorous notation, full derivation, hypotheses

Definición rigurosa

El teorema de Bayes

Definition· Regla de Bayes (forma general)

Sea $\theta$ un parámetro (o hipótesis) y $D$ los datos observados. Definiciones:

$P(\theta)$ — prior: distribución de probabilidad del parámetro antes de observar datos.
$P(D \mid \theta)$ — verosimilitud (likelihood): probabilidad de los datos dado el parámetro.
$P(D)$ — evidencia marginal: $P(D) = \int P(D \mid \theta) P(\theta)\, d\theta$ (o suma discreta).
$P(\theta \mid D)$ — posterior: distribución actualizada tras observar $D$ .

La regla de Bayes:

P(\theta \mid D) = \frac{P(D \mid \theta)\, P(\theta)}{P(D)} \propto P(D \mid \theta)\, P(\theta)

what this means · El posterior es proporcional a la verosimilitud por el prior. El denominador P(D) es solo una constante de normalización.

"El teorema de Bayes es un resultado básico de probabilidad condicional, pero su interpretación lo cambia todo: ofrece una receta formal para actualizar creencias a la luz de evidencias." — OpenIntro Statistics §3.6

Priors conjugados: el caso Beta-Bernoulli

Definition· Familia conjugada Beta-Bernoulli

Cuando $X_1, \ldots, X_n \stackrel{\text{iid}}{\sim} \text{Bernoulli}(\theta)$ y el prior es $\theta \sim \text{Beta}(\alpha, \beta)$ , el posterior tiene forma cerrada:

\theta \mid D \;\sim\; \text{Beta}(\alpha + s,\; \beta + n - s)

what this means · Tras s éxitos en n intentos, el posterior es otra Beta con parámetros actualizados.

donde $s = \sum_i X_i$ es el número de éxitos. La Beta es conjugada para la Bernoulli: prior y posterior pertenecen a la misma familia.

La distribución Beta tiene densidad:

f(\theta; a, b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)}, \quad \theta \in [0, 1]

what this means · Densidad de Beta(a,b): definida en [0,1], controlada por los parámetros a y b.

con $B(a, b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$ .

Estimadores puntuales

Definition· MAP y MLE

Dado el posterior $P(\theta \mid D)$ :

MAP (maximum a posteriori): $\hat\theta_{\text{MAP}} = \arg\max_\theta P(\theta \mid D)$ . Maximiza el posterior — incluye información del prior.
MLE (maximum likelihood): $\hat\theta_{\text{MLE}} = \arg\max_\theta P(D \mid \theta)$ . Maximiza la verosimilitud — ignora el prior.
Media posterior (estimador de Bayes cuadrático): $E[\theta \mid D]$ .

Relación: Con prior uniforme ( $P(\theta) = c$ ), MAP = MLE. Con $n \to \infty$ , el posterior se concentra en $\hat\theta_{\text{MLE}}$ — el prior se vuelve irrelevante conforme aumentan los datos.

Para Beta-Bernoulli:

\hat\theta_{\text{MAP}} = \frac{\alpha + s - 1}{\alpha + \beta + n - 2}, \quad E[\theta \mid D] = \frac{\alpha + s}{\alpha + \beta + n}

what this means · MAP y media posterior para el caso Beta-Bernoulli. Compare con MLE = s/n (proporción empírica).

Intervalo creíble

Factor de Bayes

Flujo bayesiano: prior × verosimilitud → posterior. El posterior se convierte en el nuevo prior cuando llegan más datos.

Ejemplos resueltos

Example— 1· Regla de Bayes discreta — diagnóstico (básico)

Problema. Una enfermedad afecta el 2% de la población. Una prueba tiene sensibilidad 90% y especificidad 85%. Un paciente prueba positivo. ¿Cuál es la probabilidad de que tenga la enfermedad?

Estrategia. Aplicar la fórmula de Bayes con partición $\{D, \neg D\}$ y calcular $P(D \mid +)$ .

Resolución.

$P(D) = 0{,}02$ , $P(\neg D) = 0{,}98$ , $P(+ \mid D) = 0{,}90$ , $P(+ \mid \neg D) = 0{,}15$ .

Evidencia total: $P(+) = P(+ \mid D)\,P(D) + P(+ \mid \neg D)\,P(\neg D)$ $= 0{,}90 \times 0{,}02 + 0{,}15 \times 0{,}98 = 0{,}018 + 0{,}147 = 0{,}165$

Posterior: $P(D \mid +) = \frac{0{,}90 \times 0{,}02}{0{,}165} = \frac{0{,}018}{0{,}165} \approx 0{,}109 = 10{,}9\%$

Verificación. Con solo 2% de prevalencia, incluso una prueba relativamente buena genera muchos falsos positivos. La respuesta $\approx 11\%$ tiene sentido: la mayoría de los positivos proviene de la enorme población sana.

Fuente. OpenIntro Statistics §3.6, ejemplo de diagnóstico médico — CC-BY-SA.

Example— 2· Actualización secuencial Beta-Bernoulli (intermedio)

Problema. Una urna tiene proporción desconocida $\theta$ de bolas rojas. Prior: $\theta \sim \text{Beta}(2, 2)$ . Se retira con reposición: 1ª muestra — 3 rojas en 5 retiradas; 2ª muestra — 4 rojas en 6 retiradas. Calcule el posterior tras cada muestra y la media posterior final.

Estrategia. Beta-Bernoulli: tras $s$ éxitos en $n$ intentos, $\text{Beta}(\alpha, \beta) \to \text{Beta}(\alpha+s, \beta+n-s)$ . Aplicar iterativamente.

Resolución.

Prior: $\text{Beta}(2, 2)$ , media $= 2/4 = 0{,}50$ .

Tras 1ª muestra ( $s = 3$ , $n = 5$ ): $\text{Beta}(2+3,\; 2+5-3) = \text{Beta}(5, 4), \quad E[\theta] = \frac{5}{9} \approx 0{,}556$

Tras 2ª muestra ( $s = 4$ , $n = 6$ ): $\text{Beta}(5+4,\; 4+6-4) = \text{Beta}(9, 6), \quad E[\theta] = \frac{9}{15} = 0{,}600$

Verificación. Total de datos: 7 rojas en 11 retiradas, proporción muestral = $7/11 \approx 0{,}636$ . Media posterior 0,60 está entre el prior (0,50) y la proporción muestral — tiene sentido. Con prior débil, el posterior converge al MLE conforme $n$ crece.

Fuente. Think Bayes §3 — Allen Downey — CC-BY-NC-SA.

Example— 3· MAP vs MLE vs media posterior (intermedio)

Problema. Para el modelo Beta-Bernoulli con $\alpha = 3$ , $\beta = 3$ , tras 6 éxitos en 10 intentos, calcule el MLE, el MAP y la media posterior. Interprete la diferencia.

Estrategia. MLE maximiza la verosimilitud; MAP maximiza el posterior; media posterior es $E[\theta \mid D]$ .

Resolución.

MLE: $\hat\theta_{\text{MLE}} = s/n = 6/10 = 0{,}600$ .

Posterior: $\text{Beta}(3+6, 3+4) = \text{Beta}(9, 7)$ .

MAP (moda de Beta $(a, b)$ con $a, b > 1$ es $(a-1)/(a+b-2)$ ): $\hat\theta_{\text{MAP}} = \frac{9 - 1}{9 + 7 - 2} = \frac{8}{14} \approx 0{,}571$

Media posterior: $E[\theta \mid D] = \frac{9}{9 + 7} = \frac{9}{16} = 0{,}5625$

Verificación. Ordenación: media $(0{,}5625)$ entre MAP $(0{,}571)$ y la moda de Beta(9,7). MLE $(0{,}60)$ es el mayor — el prior "tira" hacia 0,5 (prior simétrico alrededor de 0,5). Con $n$ grande, los tres convergen al MLE.

Fuente. Think Bayes §4, §6 — Allen Downey — CC-BY-NC-SA.

Example— 4· Intervalo creíble 95% Beta (avanzado)

Problema. Tras 12 éxitos en 20 intentos con prior $\text{Beta}(1, 1)$ (uniforme), calcule el intervalo creíble central de 95% para $\theta$ .

Estrategia. Posterior $\text{Beta}(13, 9)$ . El intervalo central de 95% está dado por los percentiles 2,5% y 97,5% de la distribución Beta.

Resolución.

Posterior: $\text{Beta}(1+12, 1+8) = \text{Beta}(13, 9)$ .

Media posterior: $13/(13+9) = 13/22 \approx 0{,}591$ .

Por tabla o software (R: qbeta(c(0.025, 0.975), 13, 9)):

Percentil 2,5%: $\approx 0{,}376$ . Percentil 97,5%: $\approx 0{,}779$ .

Intervalo creíble 95%: $(0{,}376;\; 0{,}779)$ .

Verificación. Interpretación directa: "dado el prior uniforme y los datos, la probabilidad de $\theta$ estar entre 0,376 y 0,779 es 95%". Note que el intervalo no está centrado en 0,6 — es asimétrico porque la Beta es asimétrica en este caso.

Fuente. Introduction to Probability §4.1 — Grinstead & Snell — GNU FDL.

Example— 5· Bayes factor — comparación de hipótesis (demostración)

Problema. Para probar si $\theta = 0{,}5$ (moneda justa) versus $\theta = 0{,}7$ (moneda viciada), con prior equiprobable ( $P(H_0) = P(H_1) = 0{,}5$ ), calcule el factor de Bayes y la probabilidad posterior de $H_1$ tras 8 caras en 10 lanzamientos.

Estrategia. Calcular $P(D \mid H_i)$ para cada hipótesis, luego aplicar Bayes.

Resolución.

$P(D \mid H_0) = \binom{10}{8}(0{,}5)^{10} = 45 \times \frac{1}{1024} \approx 0{,}0439$

$P(D \mid H_1) = \binom{10}{8}(0{,}7)^8(0{,}3)^2 = 45 \times 0{,}05765 \times 0{,}09 \approx 0{,}2335$

Factor de Bayes: $BF_{10} = \frac{0{,}2335}{0{,}0439} \approx 5{,}32$

Con prior $P(H_0) = P(H_1) = 0{,}5$ :

$P(H_1 \mid D) = \frac{BF_{10}}{1 + BF_{10}} = \frac{5{,}32}{6{,}32} \approx 0{,}842$

Verificación. $BF_{10} \approx 5{,}32$ — evidencia moderada a favor de $H_1$ (escala de Jeffreys: entre 3 y 10 es "moderada"). La probabilidad posterior de moneda viciada pasó de 50% a 84%. Coherente con los datos (8 de 10 favorece $\theta = 0{,}7$ ).

Fuente. OpenIntro Statistics §3.7 — Diez, Çetinkaya-Rundel, Barr — CC-BY-SA.

Exercise list

34 exercises · 8 with worked solution (25%)

Application 24Understanding 3Modeling 4Challenge 1Proof 2

Ex. 109.1Application
Prevalencia de una enfermedad: 1%. Sensibilidad de la prueba: 95%. Tasa de falso-positivo: 10%. Un paciente prueba positivo. Calcule la probabilidad de tener la enfermedad.
Solve online
Ex. 109.2Application
Una moneda lanzada 10 veces da 4 caras. Prior: Beta(1,1) (uniforme). Calcule el posterior, la media posterior y compare con el MLE.
Solve online
Ex. 109.3Application
Prior: Beta(4, 6). Muestra: 7 éxitos en 10. Calcule el posterior, la media posterior y el MAP.
Solve online
Ex. 109.4Application
Prior: Beta(2, 2). Lote 1: 5 éxitos en 10. Lote 2: 8 éxitos en 10. Haga la actualización secuencial y calcule la media posterior final.
Solve online
Ex. 109.5Application
Prevalencia: 0,5%. Sensibilidad: 99%. Tasa de falso-positivo: 2%. El paciente prueba positivo. ¿Cuál es la probabilidad de tener la enfermedad?
Solve online
Ex. 109.6Application
3 éxitos en 10 intentos. Compare la media posterior con priors Beta(1,1) y Beta(5,5). ¿Cuál prior tiene mayor influencia sobre el posterior?
Solve online
Ex. 109.7Application
Tres fábricas producen tornillos: E1 (60% de la producción, 30% defectuosos), E2 (30%, 50% defectuosos), E3 (10%, 10% defectuosos). Se retira un tornillo defectuoso. ¿Cuál es la probabilidad de venir de E1?
Solve online
Ex. 109.8Application
Prior: Beta(3, 3) (leve creencia en moneda justa, media 0,5). Se lanzan 5 veces y no salen caras. Calcule el posterior y la nueva media.
Solve online
Ex. 109.9Application
Prior: Beta(1,1). Datos: 15 éxitos en 20. Calcule MAP y MLE. ¿Son iguales? ¿Por qué?
Solve online
Ex. 109.10Application
Bolsa con dos monedas: una siempre da cara (H), otra es justa (J). Se elige una al azar. Se lanza dos veces, ambas caras. ¿Cuál es la probabilidad de que sea la moneda H?
Solve online
Ex. 109.11Understanding
¿Qué significa un intervalo creíble bayesiano de 95%?
Solve online
Ex. 109.12UnderstandingAnswer key
¿Cuál afirmación sobre MAP y MLE es INCORRECTA?
Solve online
Ex. 109.13Understanding
¿Cómo el tamaño muestral n afecta la relación entre prior y posterior?
Solve online
Ex. 109.14Application
Un estudiante aprueba el examen ( $A$ ). Se sabe: $P(A \mid B_1) = 0{,}8$ (estudió mucho, probabilidad 60%), $P(A \mid B_2) = 0{,}2$ (no estudió, probabilidad 40%). Dado que aprobó, ¿cuál es la probabilidad de haber estudiado mucho?
Solve online
Ex. 109.15Application
Una máquina tiene tasa de acierto desconocida. Prior: Beta(4, 2) (histórico de 4 aciertos y 2 fallos). Prueba nueva: 6 aciertos consecutivos. Calcule el posterior, media y MAP.
Solve online
Ex. 109.16Application
Calcule el Factor de Bayes para $H_1: \theta = 0{,}7$ versus $H_0: \theta = 0{,}5$ tras 8 caras en 10 lanzamientos.
Solve online
Ex. 109.17ApplicationAnswer key
Tres lotes de 10 intentos cada uno: 7 éxito, 6 éxito, 7 éxito. Prior: Beta(1,1). Haga la actualización secuencial y calcule la media posterior final.
Solve online
Ex. 109.18Application
Prevalencia: 30%. Sensibilidad: 95%. Tasa de falso-positivo: 20%. El paciente prueba positivo. Calcule la probabilidad de tener la enfermedad y compare con el ejercicio 109.1.
Solve online
Ex. 109.19ApplicationAnswer key
Muestre que la media posterior del modelo Beta-Bernoulli es una media ponderada entre el prior y la proporción muestral. Identifique los pesos.
Solve online
Ex. 109.20Application
Prior: Beta(2, 2). Datos: 0 éxitos en 3. Calcule el posterior, MAP y media posterior.
Solve online
Ex. 109.21Application
Probabilidad de lluvia en Fortaleza en determinado día: 40%. Si llueve, hay 85% de chance de tener nubes cargadas. Si no llueve, 30%. Hay nubes cargadas. ¿Cuál es la probabilidad de llover?
Solve online
Ex. 109.22ApplicationAnswer key
Histórico de producción: 10% de defectos (equivalente a 10 defectos en 100 piezas = Beta(10,90)). Inspección nueva: 3 defectos en 20. Calcule el posterior y la media posterior.
Solve online
Ex. 109.23Application
Bolsa con 3 monedas: 1 siempre da cara (H), 2 son justas (J). Una moneda se retira aleatoriamente y se lanza: sale cara. ¿Cuál es la probabilidad de que sea la moneda H?
Solve online
Ex. 109.24Application
Prior Beta(1,1). Datos: 10 éxitos en 20. Describa el posterior y el intervalo creíble central de 95% (use que el percentil 2,5% de Beta(11,11) ≈ 0,31).
Solve online
Ex. 109.25Modeling
Un cursillo histórico aprueba 70% de los estudiantes en el ENEM. Nueva turma, 20 estudiantes: 15 pasaron. Proponga un prior Beta adecuado, calcule el posterior y la media posterior de la tasa de aprobación.
Solve online
Ex. 109.26ModelingAnswer key
Prevalencia de cáncer de páncreas: 0,2%. Biopsia: sensibilidad 92%, especificidad 97%. Examen positivo. Calcule P(cáncer | positivo) y discuta la decisión médica.
Solve online
Ex. 109.27Modeling
Una transportista reporta 20 entregas con atraso en 50 entregas monitoreadas. Usando prior Beta(1,1), estime la tasa de atraso con un intervalo creíble de 90%.
Solve online
Ex. 109.28ModelingAnswer key
Una fintech sabe que 1% de las transacciones son fraudulentas. Un algoritmo detecta que la transacción actual tiene valor fuera del estándar del cliente. P(valor anormal | fraude) = 85%, P(valor anormal | legítima) = 2%. Calcule la probabilidad de fraude.
Solve online
Ex. 109.29Proof
Muestre que, para el modelo Bernoulli con prior Beta, el posterior también es Beta. Identifique los parámetros.
Solve online
Ex. 109.30ProofAnswer key
Demuestre que, con prior Beta(1,1) (uniforme), el estimador MAP coincide con el MLE para el modelo Bernoulli.
Solve online
Ex. 109.31ApplicationAnswer key
Filtro de spam: 20% de los emails son spam. En emails spam, cada palabra-clave sospechosa aparece con probabilidad 60%; en emails legítimos, 5%. Un email tiene 3 palabras-clave. ¿Cuál es la probabilidad de que sea spam?
Solve online
Ex. 109.32Application
Dos grupos de ratas: línea 1 (10 animales, 8 desarrollaron tumor tras exposición) y línea 2 (10 animales, 3 desarrollaron). Prior Beta(1,1) para ambas tasas. Calcule el posterior y la media posterior para cada línea.
Solve online
Ex. 109.33Application
Una urna tiene proporción desconocida de bolas naranjas. Tras 100 retiradas con reposición, 50 son naranjas. Prior Beta(1,1). Calcule el posterior, la media y el intervalo creíble 95%.
Solve online
Ex. 109.34Challenge
El prior de Jeffreys para la Bernoulli es Beta(0,5; 0,5). Tras 6 éxitos en 10, calcule el posterior. Investigue qué significa que este prior sea "invariante por parametrización" y compare la media posterior con el prior Beta(1,1).
Solve online

Fuentes

Think Bayes — Allen B. Downey · CC-BY-NC-SA · Greenteapress · Capítulos 1–9.
Introduction to Probability — Grinstead & Snell · GNU FDL · Dartmouth · §4.1.
OpenIntro Statistics — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · OpenIntro · §3.6–3.7.