v1 · padrão canônico

Lección 105 — Regresión lineal simple

Modelo OLS, estimadores de mínimos cuadrados, R², residuos, inferencia sobre la pendiente. Fundamento del aprendizaje supervisado y la econometría.

Used in: Stochastik LK alemán (Klasse 12) · H2 Mathematics Singapur (§14) · Math B japonés

\hat{Y} = \hat\beta_0 + \hat\beta_1 X, \qquad \hat\beta_1 = \frac{S_{xy}}{S_{xx}}

Choose your door

Rigorous notation, full derivation, hypotheses

Definición rigurosa

Modelo de regresión lineal simple

"The regression equation is written as $\hat{y} = a + bx$ , where $b$ is the slope and $a$ is the $y$ -intercept." — OpenStax Statistics, §12.3

Definition· Estimadores de mínimos cuadrados (OLS)

Los estimadores OLS minimizan $SSE = \sum_{i=1}^n (Y_i - \hat Y_i)^2$ . La solución en forma cerrada es:

\hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2}

what this means · Pendiente muestral: covarianza de X e Y dividida por la varianza de X.

\hat\beta_0 = \bar Y - \hat\beta_1 \bar X

what this means · Intercepto: fuerza la recta a pasar por el centroide de los datos.

El residuo $e_i = Y_i - \hat Y_i$ es la distancia vertical de cada punto a la recta ajustada.

Descomposición de la varianza y R²

"The coefficient of determination $r^2$ is the square of the correlation coefficient $r$ . It tells you the fraction of total variability in the response that is explained by the least-squares line." — OpenIntro Statistics, §7.2, p. 331

Inferencia sobre la pendiente

Recta de mínimos cuadrados (dorada) minimizando la suma de los cuadrados de los residuos (naranjas). Cada residuo e es la distancia vertical del punto a la recta.

Ejemplos resueltos

Example— 105.1· Calcular la recta de regresión con datos pequeños

Problema. Cinco municipios del interior de São Paulo registraron PIB per cápita $X$ (en mil R$/año) e IDH $Y$ :

$X$	18	24	30	36	42
$Y$	0,62	0,68	0,72	0,78	0,84

Encuentre la recta de mínimos cuadrados e interprete los coeficientes.

Estrategia. Calcular $\bar X$ , $\bar Y$ , $S_{xx}$ , $S_{xy}$ , después aplicar las fórmulas de los estimadores.

Resolución.

$\bar X = (18+24+30+36+42)/5 = 30$ ; $\bar Y = (0{,}62+0{,}68+0{,}72+0{,}78+0{,}84)/5 = 0{,}728$ .

$S_{xx} = (18-30)^2+(24-30)^2+(30-30)^2+(36-30)^2+(42-30)^2 = 144+36+0+36+144 = 360$ .

$S_{xy} = (18-30)(0{,}62-0{,}728)+\ldots = (-12)(-0{,}108)+(-6)(-0{,}048)+0+(6)(0{,}052)+(12)(0{,}112)$ $= 1{,}296+0{,}288+0+0{,}312+1{,}344 = 3{,}24$ .

$\hat\beta_1 = 3{,}24/360 = 0{,}009$ (punto de IDH por mil R$ de PIB per cápita).

$\hat\beta_0 = 0{,}728 - 0{,}009 \times 30 = 0{,}458$ .

Recta: $\hat Y = 0{,}458 + 0{,}009 X$ .

Verificación. Para $X=30$ : $\hat Y = 0{,}458+0{,}009\times30 = 0{,}728 = \bar Y$ . Correcto — la recta pasa por el centroide.

Fuente. OpenStax Statistics, §12.3, Ejemplo 12.5 — CC-BY

Example— 105.2· Calcular e interpretar R²

Problema. Con los datos del ejemplo anterior, calcule $SST$ , $SSE$ , $SSR$ y $R^2$ .

Estrategia. Calcular $\hat Y_i$ para cada punto, después las tres sumas de cuadrados.

Resolución.

$X$	$Y$	$\hat Y$	$e = Y-\hat Y$	$e^2$	$(Y-\bar Y)^2$
18	0,62	0,620	0	0	0,01166
24	0,68	0,674	0,006	0,000036	0,00230
30	0,72	0,728	-0,008	0,000064	0,000064
36	0,78	0,782	-0,002	0,000004	0,00274
42	0,84	0,836	0,004	0,000016	0,01254

$SSE = 0{,}000120$ ; $SST = 0{,}02930$ ; $SSR = 0{,}02918$ .

$R^2 = 0{,}02918/0{,}02930 \approx 0{,}996$ .

Verificación. $R^2$ muy cercano a 1 — tiene sentido: los puntos están casi perfectamente alineados.

Fuente. OpenIntro Statistics, §7.2, Ejercicio 7.9 — CC-BY-SA

Example— 105.3· Prueba t para la pendiente

Problema. Con $n=25$ pares de observaciones, se obtuvo $\hat\beta_1 = 3{,}42$ y $SE(\hat\beta_1) = 1{,}14$ . Pruebe $H_0: \beta_1 = 0$ al nivel de 5% (bilateral).

Estrategia. Calcular la estadística $T$ y comparar con el valor crítico $t_{23;\,0{,}025}$ .

Resolución.

$T = \hat\beta_1 / SE(\hat\beta_1) = 3{,}42/1{,}14 = 3{,}00$ .

Grados de libertad: $n-2 = 23$ . Valor crítico $t_{23;\,0{,}025} \approx 2{,}069$ .

Como $|T| = 3{,}00 > 2{,}069$ , rechazamos $H_0$ al nivel de 5%.

Verificación. p-valor: $P(|t_{23}| > 3{,}00) \approx 0{,}006 < 0{,}05$ . Consistente con el rechazo.

Fuente. OpenStax Statistics, §12.4, Ejemplo 12.8 — CC-BY

Example— 105.4· Predicción puntual e intervalo de confianza

Problema. La recta ajustada es $\hat Y = 42{,}6 + 1{,}8 X$ con $n=20$ , $MSE = 9{,}61$ , $\bar X = 15$ , $S_{xx} = 280$ . Obtenga: (a) predicción puntual para $X^* = 20$ ; (b) IC 95% para el valor medio de $Y$ cuando $X = 20$ .

Estrategia. Sustituir $X^*$ en la recta ajustada. Usar fórmula del IC para la media condicional.

Resolución.

(a) $\hat Y^* = 42{,}6 + 1{,}8 \times 20 = 42{,}6 + 36 = 78{,}6$ .

(b) $SE(\hat Y^*) = \hat\sigma\sqrt{\frac{1}{n} + \frac{(X^*-\bar X)^2}{S_{xx}}} = \sqrt{9{,}61}\sqrt{\frac{1}{20}+\frac{25}{280}} = 3{,}10 \times \sqrt{0{,}0500+0{,}0893} = 3{,}10 \times 0{,}373 = 1{,}156$ .

$t_{18;\,0{,}025} \approx 2{,}101$ .

IC 95%: $78{,}6 \pm 2{,}101 \times 1{,}156 = 78{,}6 \pm 2{,}43 = (76{,}2;\; 81{,}0)$ .

Verificación. Cuanto más lejos está $X^*$ de $\bar X$ , mayor es el SE — el IC se amplia en los extremos.

Fuente. OpenIntro Statistics, §7.3 — CC-BY-SA

Example— 105.5· Diagnóstico de residuos y violación de supuesto

Problema. Una regresión de consumo de energía $(Y)$ vs. temperatura $(X)$ produjo el gráfico de residuos vs. $\hat Y$ con forma de "U" (residuos negativos en el centro, positivos en los extremos). ¿Qué supuesto fue violado y qué hacer?

Estrategia. Identificar el patrón en el gráfico de residuos y relacionarlo al supuesto de linealidad.

Resolución.

Patrón en "U" (curvatura sistemática) en residuos vs. $\hat Y$ indica violación del supuesto de linealidad: la relación real entre $X$ e $Y$ no es lineal.

Acción correctiva: incluir $X^2$ en el modelo (regresión polinomial) o aplicar transformación en $X$ (ej., $\log X$ , $\sqrt{X}$ ).

Otros patrones comunes:

Embudo (varianza creciente con $\hat Y$ ) → homocedasticidad violada → transformar $Y$ (ej., $\log Y$ ) o usar errores robustos.
Bandas diagonales → datos discretos o agrupados → efecto mixto.

Verificación. Después de incluir $X^2$ , el nuevo gráfico de residuos debe ser aleatorio alrededor de cero.

Fuente. OpenIntro Statistics, §7.4, Figura 7.17 — CC-BY-SA

Exercise list

30 exercises · 7 with worked solution (25%)

Application 15Understanding 4Modeling 5Challenge 4Proof 2

Ex. 105.1Application
Datos: $n=6$ , $\bar X = 4$ , $\bar Y = 10$ , $S_{xx} = 20$ , $S_{xy} = 30$ . Calcule $\hat\beta_0$ y $\hat\beta_1$ .
Solve online
Ex. 105.2Application
Pares $(X,Y)$ : $(2,5)$ , $(4,9)$ , $(6,11)$ , $(8,15)$ , $(10,20)$ . Calcule la recta de mínimos cuadrados.
Solve online
Ex. 105.3Application
Usando $\hat Y = 1{,}2 + 1{,}8X$ (ejercicio anterior), prediga $Y$ para $X=7$ y $X=12$ . Identifique cuál predicción es extrapolación.
Solve online
Ex. 105.4Application
Para los datos del Ejercicio 105.1: $\bar X=4$ , $\bar Y=10$ , $S_{xx}=20$ , $S_{xy}=30$ , $S_{yy}=52$ . Calcule $R^2$ e interprete.
Solve online
Ex. 105.5ApplicationAnswer key
El coeficiente de correlación de Pearson entre dos variables es $r = 0{,}87$ . ¿Cuál es el $R^2$ de la regresión simple de $Y$ en $X$ ?
Solve online
Ex. 105.6ApplicationAnswer key
Regresión de salario anual (en mil R$) en años de experiencia produjo $\hat Y = 32{,}4 + 2{,}5X$ . Interprete $\hat\beta_0$ y $\hat\beta_1$ .
Solve online
Ex. 105.7Application
Usando $\hat Y = 32{,}4 + 2{,}5X$ , un empleado con 14 años de experiencia gana R$ 72 mil/año. Calcule el residuo.
Solve online
Ex. 105.8ApplicationAnswer key
Cinco valores observados de $Y$ : $(8, 10, 12, 9, 11)$ con $\bar Y = 10$ . El SSE de la regresión es 3,2. Calcule SST, SSR y $R^2$ .
Solve online
Ex. 105.9Application
Una regresión con $n=20$ produjo $SSE = 48{,}6$ . Calcule $MSE$ y $\hat\sigma$ e interprete.
Solve online
Ex. 105.10Application
$\hat\beta_1 = 3{,}6$ , $\hat\sigma = 2{,}1$ , $S_{xx} = 144$ . Calcule $SE(\hat\beta_1)$ y la estadística $T$ .
Solve online
Ex. 105.11Application
$n=30$ , $\hat\beta_1 = 1{,}4$ , $SE(\hat\beta_1) = 0{,}38$ . Construya IC 95% para $\beta_1$ e interprete.
Solve online
Ex. 105.12Application
$r = -0{,}73$ , $s_X = 4$ , $s_Y = 6$ . ¿Cuál es el signo de $\hat\beta_1$ ? Calcule $\hat\beta_1$ usando la relación $\hat\beta_1 = r(s_Y/s_X)$ .
Solve online
Ex. 105.13UnderstandingAnswer key
¿Cuál de las afirmaciones sobre la recta de mínimos cuadrados es CORRECTA?
Solve online
Ex. 105.14Understanding
¿Cuál es la interpretación correcta de $R^2 = 0$ en regresión lineal simple?
Solve online
Ex. 105.15Understanding
Una regresión produjo $R^2 = 0{,}85$ y $\hat\beta_1 = 2{,}3 > 0$ . ¿Qué se puede concluir?
Solve online
Ex. 105.16Modeling
Un inmobiliario de Curitiba recopiló datos de 10 apartamentos: área ( $X$ , en m²) y costo de alquiler ( $Y$ , en R$/mes). $\bar X=80$ , $\bar Y=1600$ , $S_{xx}=3200$ , $S_{xy}=64000$ . Ajuste la recta y prediga el alquiler para un apartamento de 95 m².
Solve online
Ex. 105.17Modeling
Niños de 10 a 25 años: $\bar X = 22$ años, $\bar Y = 74$ kg, $s_X = 2{,}3$ , $s_Y = 8{,}5$ , $r = 0{,}82$ . Ajuste la recta usando $\hat\beta_1 = r(s_Y/s_X)$ y prediga el peso de un niño de 30 años.
Solve online
Ex. 105.18ModelingAnswer key
Regresión con $n=25$ , $SST=1200$ , $R^2=0{,}72$ . Monte la tabla ANOVA (SSR, SSE, MSR, MSE, F) y pruebe $H_0: \beta_1 = 0$ al nivel 5%.
Solve online
Ex. 105.19Modeling
Una regresión de consumo de agua (litros/día) en temperatura (°C) produjo $\hat Y = 50 + 8X$ con $R^2=0{,}91$ para $n=30$ puntos. El punto $(15; 430)$ aparece muy lejos de los demás. ¿Qué procedimiento usar para evaluar su influencia?
Solve online
Ex. 105.20Modeling
Una transportista registró número de pedidos $X$ y costo logístico mensual $Y$ (en R$ mil) para 5 filiales: $(10,100)$ , $(20,180)$ , $(30,270)$ , $(40,340)$ , $(50,400)$ . Ajuste la recta.
Solve online
Ex. 105.21Application
Usando $\hat Y = 30 + 7{,}6X$ , calcule la predicción y el residuo para una filial con $X=35$ pedidos y costo observado de R$ 310 mil.
Solve online
Ex. 105.22Application
Para la regresión del Ejercicio 105.20, calcule los 5 residuos, el SSE y la desviación estándar residual $\hat\sigma$ .
Solve online
Ex. 105.23Understanding
El gráfico de residuos vs. $\hat Y$ tiene forma de embudo (varianza creciente). ¿Qué indica esto?
Solve online
Ex. 105.24Application
Para la regresión del Ejercicio 105.20 ( $\hat Y = 30 + 7{,}6X$ , $n=5$ , $\bar X=30$ , $S_{xx}=1000$ , $\hat\sigma \approx 10{,}95$ ), construya IC 95% para el costo medio de una filial con $X^*=40$ pedidos. Use $t_{3;\,0{,}025} = 3{,}182$ .
Solve online
Ex. 105.25ChallengeAnswer key
Pruebe algebraicamente que, para regresión lineal simple, $R^2 = r^2$ (cuadrado del coeficiente de correlación de Pearson).
Solve online
Ex. 105.26ChallengeAnswer key
Derive las fórmulas de $\hat\beta_0$ y $\hat\beta_1$ por minimización de $SSE = \sum (Y_i - \beta_0 - \beta_1 X_i)^2$ vía cálculo diferencial (ecuaciones normales).
Solve online
Ex. 105.27Proof
Pruebe que, para cualquier recta de mínimos cuadrados, la suma de los residuos es cero: $\sum_{i=1}^n e_i = 0$ .
Solve online
Ex. 105.28Challenge
Datos resumidos: $n=15$ , $\bar X=12$ , $\bar Y=45$ , $S_{xx}=420$ , $S_{xy}=1260$ , $S_{yy}=4800$ . Calcule: recta ajustada, $R^2$ , pruebe $H_0:\beta_1=0$ al nivel 5%.
Solve online
Ex. 105.29Challenge
¿Por qué reducir la variabilidad de $X$ (estrechar el intervalo muestreado) perjudica la estimación de $\beta_1$ ? Relacione con la fórmula de $SE(\hat\beta_1)$ .
Solve online
Ex. 105.30Proof
Pruebe que los estimadores OLS $\hat\beta_0$ y $\hat\beta_1$ son no sesgados, es decir, $E[\hat\beta_j] = \beta_j$ .
Solve online

Fuentes

Statistics — OpenStax — Illowsky, Dean · CC-BY · Capítulos 12 (Linear Regression and Correlation). Fuente primaria para ejemplos, ecuaciones y ejercicios de esta lección.
OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Capítulo 7 (Introduction to linear regression). Fuente primaria para diagnóstico de residuos, inferencia y ejercicios con datos reales.
Probabilidade e Estatística — Wikilivros — colaborativo · CC-BY-SA · Sección de regresión lineal. Referencia en PT-BR con notación compatible con el currículo nacional.