v1 · padrão canônico

Lección 101 — Muestreo: tipos, sesgos y distribución muestral

Muestreo aleatorio simple, estratificado y por conglomerados. Sesgos de selección. Distribución muestral de la media y el Teorema Central del Límite.

Used in: 3.º año de Bachillerato (17-18 años) · Equiv. Stochastik LK alemán · Equiv. Math B japonés · H2 Statistics singapurense

\bar X = \frac{1}{n}\sum_{i=1}^{n} X_i, \quad \mathrm{E}[\bar X] = \mu, \quad \mathrm{Var}(\bar X) = \frac{\sigma^2}{n}

Choose your door

Rigorous notation, full derivation, hypotheses

Definición rigurosa

Estructura: población, muestra y parámetros

"Una muestra es un subconjunto de la población. Un estadístico es un número calculado a partir de una muestra. Los parámetros son números que resumen datos de una población entera." — OpenStax Statistics, §1.1

Tipos de muestreo

"En el muestreo estratificado, la población se divide en grupos llamados estratos. A continuación se selecciona una muestra aleatoria de cada estrato." — OpenStax Statistics, §1.3

Propiedades deseables de los estimadores

Distribución muestral de la media

Theorem· Teorema Central del Límite (TCL)

Sean $X_1, X_2, \ldots, X_n$ iid con $\mathrm{E}[X_i] = \mu$ y $\mathrm{Var}(X_i) = \sigma^2 < \infty$ . Entonces:

\frac{\bar X - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0,1) \quad \text{cuando } n \to \infty

what this means · La tipificación de la media muestral converge en distribución a la Normal estándar.

De forma equivalente, para $n$ grande: $\bar X \overset{\text{aprox.}}{\sim} \mathcal{N}\!\left(\mu,\, \sigma^2/n\right)$ .

Regla práctica: $n \geq 30$ es suficiente para poblaciones aproximadamente simétricas; poblaciones muy asimétricas requieren un $n$ mayor.

Sesgos habituales

Cuatro fuentes clásicas de sesgo muestral. Cada una hace que la muestra no represente a la población objetivo.

Ejemplos resueltos

Example— 101.1· Error estándar de la media muestral (básico)

Problema. Una encuesta sobre renta mensual recoge datos de $n = 64$ trabajadores. La desviación típica poblacional es conocida: $\sigma = 800$ (en reales). Calcula el error estándar de la media muestral.

Estrategia. Aplicar directamente la fórmula $\mathrm{SE}(\bar X) = \sigma/\sqrt{n}$ .

Resolución.

$\mathrm{SE}(\bar X) = \frac{\sigma}{\sqrt{n}} = \frac{800}{\sqrt{64}} = \frac{800}{8} = 100$

El error estándar es 100 reales (BRL).

Verificación. Para $n = 256$ (cuatro veces mayor): $\mathrm{SE} = 800/16 = 50$ . Cuadruplicar $n$ reduce el error estándar a la mitad. Coherente con la relación $\mathrm{SE} \propto 1/\sqrt{n}$ .

Fuente. OpenStax Statistics, §7.1, Ejemplo 7.1 — CC-BY.

Example— 101.2· Tamaño de muestra para margen de error (intermedio)

Problema. Un investigador quiere estimar la proporción de estudiantes de bachillerato que trabajan, con un margen de error máximo del 3% al 95% de confianza. ¿Cuál es el tamaño mínimo de muestra?

Estrategia. Usar la fórmula conservadora $n = z_{\alpha/2}^2/(4E^2)$ con $p = 0{,}5$ (caso más desfavorable).

Resolución.

$n = \frac{z_{\alpha/2}^2}{4E^2} = \frac{(1{,}960)^2}{4 \cdot (0{,}03)^2} = \frac{3{,}8416}{0{,}0036} \approx 1068$

Se redondea hacia arriba: $n = 1068$ .

Verificación. Con $n = 1068$ y $p = 0{,}5$ : $\mathrm{ME} = 1{,}96\sqrt{0{,}25/1068} = 1{,}96 \cdot 0{,}01531 \approx 0{,}030$ . Dentro del límite del 3%.

Fuente. OpenIntro Statistics, §5.2, Ejemplo 5.10 — CC-BY-SA.

Example— 101.3· Aplicación del TCL — probabilidad de la media muestral (intermedio)

Problema. El tiempo de atención en un centro de salud tiene media $\mu = 18$ min y desviación $\sigma = 6$ min. Se recoge una muestra de $n = 36$ atenciones. ¿Cuál es la probabilidad de que la media muestral sea mayor que 20 min?

Estrategia. Por el TCL, $\bar X \approx \mathcal{N}(18,\, 36/36) = \mathcal{N}(18, 1)$ . Tipificar y usar la tabla Z.

Resolución.

$Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} = \frac{20 - 18}{6/\sqrt{36}} = \frac{2}{1} = 2{,}00$

$P(\bar X > 20) = P(Z > 2{,}00) = 1 - \Phi(2{,}00) = 1 - 0{,}9772 = 0{,}0228$

Probabilidad de aproximadamente el 2,3%.

Verificación. El valor $\bar X = 20$ está 2 desviaciones típicas por encima de la media: por la regla 68-95-99,7, solo alrededor del 2,5% de las medias muestrales deben caer por encima de $\mu + 2\,\mathrm{SE}$ . El resultado 2,28% es coherente.

Fuente. OpenStax Statistics, §7.2, Ejemplo 7.3 — CC-BY.

Example— 101.4· Identificación de sesgo muestral (conceptual)

Problema. Una revista de negocios realiza una encuesta online sobre satisfacción con el sistema tributario, obteniendo un 80% de respuestas negativas. El editor afirma: "8 de cada 10 empresarios están insatisfechos con los impuestos". Identifica los sesgos presentes.

Estrategia. Verificar cada etapa del proceso muestral: quién tiene acceso, quién responde, quién está representado.

Resolución.

Se acumulan tres sesgos:

Sesgo de selección: la encuesta online excluye a empresarios sin acceso digital (pequeños negocios rurales, microemprendedores informales).
Sesgo de no-respuesta: las cuestiones tributarias movilizan más a quienes están insatisfechos (quien está satisfecho no siente urgencia en responder).
Sesgo de marco muestral: los lectores de la revista son empresarios de mayor tamaño o con interés específico en gestión — no representan al universo de todos los "empresarios".

Conclusión: la estimación del 80% sobreestima sistemáticamente la insatisfacción en la población general.

Verificación. Una encuesta del instituto nacional de estadística con muestra probabilística, llevada a cabo por entrevistadores, produciría un resultado distinto — y metodológicamente defendible.

Fuente. OpenIntro Statistics, §1.4, Sección "Sampling Bias" — CC-BY-SA.

Example— 101.5· Muestreo estratificado: cálculo de eficiencia (avanzado)

Problema. Una empresa tiene 3 departamentos: A (200 empleados, $\sigma_A = 4$ mil), B (500 empleados, $\sigma_B = 2$ mil), C (300 empleados, $\sigma_C = 6$ mil). Presupuesto para $n = 100$ entrevistas. Compara la varianza del MAS con la del estratificado proporcional para estimar el salario medio.

Estrategia. Calcular la varianza del MAS y la del estratificado (asignación proporcional).

Resolución.

Varianza de la población: $\sigma^2 = \sum (N_k/N)\sigma_k^2$ (aproximación — ignora la varianza entre medias de los estratos para simplificar):

Asignación proporcional: $n_A = 20$ , $n_B = 50$ , $n_C = 30$ .

$\mathrm{Var}(\bar X_{\text{est}}) = \sum_{k} \left(\frac{N_k}{N}\right)^2 \frac{\sigma_k^2}{n_k}$

$= \left(\frac{200}{1000}\right)^2\frac{16}{20} + \left(\frac{500}{1000}\right)^2\frac{4}{50} + \left(\frac{300}{1000}\right)^2\frac{36}{30}$

$= 0{,}04 \cdot 0{,}8 + 0{,}25 \cdot 0{,}08 + 0{,}09 \cdot 1{,}2 = 0{,}032 + 0{,}020 + 0{,}108 = 0{,}160$

Error estándar estratificado: $\sqrt{0{,}160} \approx 0{,}40$ mil.

Para comparación, el MAS simple con $n = 100$ y varianza total aproximada $\sigma^2 \approx (200 \cdot 16 + 500 \cdot 4 + 300 \cdot 36)/1000 = (3200 + 2000 + 10800)/1000 = 16$ daría $\mathrm{Var}(\bar X_{\text{MAS}}) = 16/100 = 0{,}160$ . En este caso la asignación proporcional coincide numéricamente con el MAS — la ganancia de eficiencia surge cuando las medias de los estratos difieren mucho.

Verificación. El resultado confirma la teoría: con asignación proporcional y estratos con varianzas distintas, el estratificado es al menos tan eficiente como el MAS.

Fuente. OpenIntro Statistics, §1.4, Ejercicio 1.35 — CC-BY-SA.

Exercise list

30 exercises · 7 with worked solution (25%)

Application 20Understanding 4Modeling 4Challenge 1Proof 1

Ex. 101.1Application
Una fábrica produce tornillos con peso medio $\mu$ y desviación típica $\sigma = 50$ g. Se recoge una muestra de $n = 100$ tornillos. Calcula el error estándar de la media muestral.
Solve online
Ex. 101.2Application
Una encuesta comienza con $n = 25$ . ¿Cuántas veces hay que aumentar $n$ para reducir el error estándar a la mitad? Explícalo usando la fórmula.
Solve online
Ex. 101.3ApplicationAnswer key
El tiempo de espera en una sucursal bancaria tiene distribución normal con $\mu = 120$ s y $\sigma = 15$ s. Se recoge una muestra de $n = 9$ clientes. ¿Cuál es la probabilidad de que $\bar X > 125$ s?
Solve online
Ex. 101.4Application
Un hospital quiere estimar la satisfacción de los pacientes con la atención. La directora sabe que el género y la franja de edad influyen mucho en la percepción. ¿Qué tipo de muestreo es más adecuado? Justifica tu respuesta.
Solve online
Ex. 101.5Application
Una tienda online envía un correo electrónico pidiendo una valoración tras cada compra. Solo el 12% de los clientes responde. Identifica el tipo de sesgo más probable y explica su efecto sobre la estimación.
Solve online
Ex. 101.6Application
Una encuesta quiere estimar la proporción de hogares con acceso a internet en zona rural, con margen de error del 4% al 95% de confianza. ¿Cuál es el tamaño mínimo de muestra?
Solve online
Ex. 101.7Application
Un consultor analiza el crecimiento medio de 50 startups fundadas hace 5 años que aún están activas, concluyendo que "las startups crecen de media un 120% al año". ¿Qué sesgo está presente?
Solve online
Ex. 101.8Application
Muestra que la media muestral $\bar X$ es (a) insesgada, (b) consistente y (c) eficiente para $\mu$ , en la clase de los estimadores lineales.
Solve online
Ex. 101.9Application
Un estudio sobre gasto en transporte público recoge $n = 400$ registros. La desviación típica histórica es $\sigma = R\$ ,40$ (en reales). Calcula el error estándar e interpreta su significado.
Solve online
Ex. 101.10Application
El INE quiere estimar la renta media de las empresas. Describe cómo serían un MAS, un estratificado por sector y uno por conglomerado. ¿Cuál sería más eficiente? ¿Por qué?
Solve online
Ex. 101.11UnderstandingAnswer key
Para la media muestral $\bar X$ con $n$ fijo y población iid, ¿cuál afirmación es correcta?
Solve online
Ex. 101.12UnderstandingAnswer key
¿Por qué, en muchas encuestas prácticas, la media muestral tiene distribución aproximadamente normal, aunque no se conozca la distribución exacta de la población?
Solve online
Ex. 101.13Understanding
Afirmación: "En el muestreo aleatorio simple, cada individuo tiene la misma probabilidad de ser elegido. Esto equivale a decir que cada conjunto de $n$ individuos tiene la misma probabilidad de ser la muestra." ¿Es correcta la afirmación?
Solve online
Ex. 101.14Application
La nota media histórica de un examen es $\mu = 3{,}5$ con $\sigma = 1{,}5$ . Para un grupo de $n = 36$ estudiantes, ¿cuál es la probabilidad de que la media del grupo sea menor que 3,2?
Solve online
Ex. 101.15Application
El INE necesita estimar el acceso al saneamiento básico en municipios de toda España, con presupuesto limitado. La lista de hogares no está disponible, pero sí la de municipios y calles. Propón un plan de muestreo.
Solve online
Ex. 101.16Application
Una encuesta con $n = 400$ votantes encontró $\hat p = 60\%$ de aprobación al gobierno municipal. Calcula el error estándar y el margen de error al 95% de confianza.
Solve online
Ex. 101.17ApplicationAnswer key
Calcula los tamaños mínimos de muestra para estimar una proporción con margen de error del (a) 5% y (b) 2,5%, ambos con 95% de confianza. Explica la relación entre los resultados.
Solve online
Ex. 101.18Application
Una empresa tiene 3000 clientes registrados en orden de número de contrato. Quiere seleccionar 300 para una encuesta. Describe el procedimiento de muestreo sistemático y analiza cuándo puede introducir sesgo.
Solve online
Ex. 101.19Application
El peso de paquetes de arroz tiene $\mu = 70$ kg y $\sigma = 10$ kg. Para una muestra de $n = 64$ , calcula $P(68 \leq \bar X \leq 72)$ .
Solve online
Ex. 101.20Understanding
Una universidad hace una encuesta de satisfacción con alumnos actualmente matriculados. ¿Cuál es el sesgo más relevante en este enfoque?
Solve online
Ex. 101.21Application
Sin conocimiento previo de $p$ , ¿cuál es el tamaño mínimo de muestra para estimar una proporción con margen de error del 2% al 95%?
Solve online
Ex. 101.22Application
Un investigador entrevista a vecinos de una ciudad llamando a puertas entre las 9h y las 17h de días laborables. Quiere estimar la renta media familiar. Identifica el sesgo y describe su dirección (¿subestima o sobreestima la renta media?).
Solve online
Ex. 101.23ApplicationAnswer key
El tiempo de consulta médica tiene $\sigma = 12$ min. Calcula el error estándar de la media para $n = 25$ y $n = 100$ , y compáralos.
Solve online
Ex. 101.24Application
El consumo mensual de electricidad de una ciudad tiene $\mu = 500$ kWh y $\sigma = 80$ kWh. Para $n = 100$ hogares sorteados, calcula $P(\bar X > 510)$ .
Solve online
Ex. 101.25Modeling
El INE usa unas 65 000 familias en la EPA. La tasa de desempleo nacional es de aproximadamente el 12%. (a) ¿Cuál sería el $n$ mínimo teórico para estimar el desempleo con margen de $\pm 0{,}5\%$ al 95%? (b) ¿Por qué el INE usa un $n$ mucho mayor?
Solve online
Ex. 101.26ModelingAnswer key
Un banco quiere estimar la morosidad media en su cartera de crédito de 500 000 clientes. La variabilidad de la morosidad varía mucho según el nivel de renta. Propón un plan de muestreo eficiente y justifica la asignación de entrevistas por estrato.
Solve online
Ex. 101.27Modeling
Un analista financiero compara el rendimiento medio histórico de fondos de inversión activos y concluye que los gestores activos superan al índice. Los datos incluyen únicamente fondos que aún existen hoy. Identifica el sesgo y explica cómo afecta a la conclusión.
Solve online
Ex. 101.28Modeling
Muestra algebraicamente que $S^2 = \frac{1}{n-1}\sum(X_i - \bar X)^2$ es insesgado para $\sigma^2$ . ¿Por qué el divisor es $n-1$ y no $n$ ?
Solve online
Ex. 101.29ChallengeAnswer key
Aplica la desigualdad de Hoeffding para $X_i \in [0, 1]$ : $P(|\bar X - \mu| > t) \leq 2\exp(-2nt^2)$ . Para $t = 0{,}05$ , calcula la cota para $n = 100$ y $n = 1000$ . Interpreta el resultado.
Solve online
Ex. 101.30Proof
Prueba formalmente que la media muestral $\bar X = \frac{1}{n}\sum X_i$ es (a) insesgada y (b) consistente para $\mu$ , usando la desigualdad de Chebyshev para la parte (b).
Solve online

Fuentes

OpenIntro Statistics (4.ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Secciones §1.3–1.4 (tipos de muestreo y sesgos) y §4.1–4.2 (distribución muestral).
Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 1 (introducción al muestreo) y Capítulo 7 (distribución muestral y TCL).
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 3–4 (sesgo muestral y distribución muestral con simulaciones).