v1 · padrão canônico

Lição 72 — Variância e desvio padrão

Dispersão estatística: quanto os dados se afastam da média. Variância populacional e amostral, desvio padrão, fórmula computacional, propriedades de linearidade e independência.

Used in: 2.º ano do EM (16-17 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · Equiv. H2 Statistics singapurense

\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

A variância é a média dos desvios ao quadrado. Para uma população de $n$ valores com média $\bar{x}$ , cada desvio $(x_i - \bar{x})$ é elevado ao quadrado — para que positivos e negativos não se cancelem — e tira-se a média. O desvio padrão $\sigma = \sqrt{\sigma^2}$ devolve a dispersão na unidade original dos dados.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Variância e desvio padrão — população e amostra

"A variância é mais ou menos a distância quadrática média de cada ponto de dados até a média. A unidade associada à variância está em unidades quadráticas. Para que a medida de dispersão tenha as mesmas unidades que os dados, tomamos a raiz quadrada da variância, chamada de desvio padrão." — OpenIntro Statistics §2.1, Diez et al., CC-BY-SA.

"Nos problemas de estatística, geralmente não temos acesso a toda a população, por isso usamos os dados amostrais para estimar os parâmetros populacionais. Para isso, dividimos pelo grau de liberdade da amostra, $n-1$ , em vez de $n$ ." — OpenStax Statistics §2.7, Illowsky & Dean, CC-BY.

Propriedades algébricas

Theorem· Propriedades da variância

Para variáveis aleatórias $X, Y$ e constantes $a, b \in \mathbb{R}$ :

\text{Var}(b) = 0

what this means · Constante tem variância zero: não há dispersão.

\text{Var}(aX + b) = a^2 \, \text{Var}(X)

what this means · Translação não afeta dispersão; escala entra ao quadrado.

\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) \quad (X, Y \text{ independentes})

what this means · Para X e Y independentes, variâncias se somam — analogia com Pitágoras em L² .

\text{Var}(X) \geq 0

what this means · Variância é sempre não negativa.

Demonstração de $\text{Var}(aX+b) = a^2 \text{Var}(X)$ : como $E[aX+b] = a\mu + b$ , temos $\text{Var}(aX+b) = E[(aX+b - a\mu - b)^2] = E[(a(X-\mu))^2] = a^2 E[(X-\mu)^2] = a^2 \text{Var}(X)$ . $\square$

Representação geométrica — diagrama de dispersão

Dois conjuntos com mesma média mas dispersões distintas. Pontos afastados da linha pontilhada (média) geram variância alta; pontos agrupados geram variância baixa.

Exemplos resolvidos

Example— 1· Cálculo direto de variância e desvio padrão (aplicação)

Problema: Calcule a variância populacional $\sigma^2$ e o desvio padrão $\sigma$ para os dados $\{2, 4, 4, 4, 5, 5, 7, 9\}$ .

Estratégia: Aplicar a definição em quatro passos: média, desvios, quadrados dos desvios, média dos quadrados.

Resolução:

Média: $\mu = \frac{2+4+4+4+5+5+7+9}{8} = \frac{40}{8} = 5$ .
Desvios $x_i - \mu$ : $-3, -1, -1, -1, 0, 0, 2, 4$ .
Desvios ao quadrado: $9, 1, 1, 1, 0, 0, 4, 16$ . Soma $= 32$ .
Variância populacional: $\sigma^2 = \frac{32}{8} = 4$ .
Desvio padrão: $\sigma = \sqrt{4} = 2$ .

Verificação: $\sigma = 2$ tem mesma unidade dos dados. Checamos: o intervalo $[\mu - \sigma, \mu + \sigma] = [3, 7]$ contém os valores 4, 4, 4, 5, 5, 7 — seis dos oito dados (75%), compatível com a regra empírica (ao menos 68% para qualquer distribuição de Bell, Chebyshev garante ao menos 75% pra qualquer distribuição).

Fonte. OpenIntro Statistics §2.1, exemplo "Toy data for variance" — licença CC-BY-SA.

Example— 2· Variância amostral com correção de Bessel (aplicação)

Problema: Oito estudantes fizeram uma prova de estatística. As notas foram: 72, 85, 90, 68, 78, 92, 81, 74. Calcule a variância amostral $s^2$ e o desvio padrão amostral $s$ .

Estratégia: Uso divisor $n-1$ porque os dados são uma amostra de uma turma maior. Usarei a fórmula computacional $s^2 = \frac{\sum x_i^2 - n\bar{x}^2}{n-1}$ para eficiência.

Resolução:

$n = 8$ . Soma: $72+85+90+68+78+92+81+74 = 640$ . Média: $\bar{x} = 640/8 = 80$ .
$\sum x_i^2 = 5184 + 7225 + 8100 + 4624 + 6084 + 8464 + 6561 + 5476 = 51718$ .
$\sum x_i^2 - n\bar{x}^2 = 51718 - 8 \times 6400 = 51718 - 51200 = 518$ .
$s^2 = \frac{518}{7} \approx 74{,}0$ .
$s = \sqrt{74{,}0} \approx 8{,}6$ pontos.

Verificação: Inspecionando os dados, todos os valores estão entre 68 e 92, amplitude 24. Um desvio padrão de 8,6 é razoável — corresponde a aproximadamente $1/3$ da amplitude, valor típico.

Fonte. OpenStax Statistics §2.7, exemplo "Find the Standard Deviation" — licença CC-BY.

Example— 3· Variância de variável aleatória discreta (intermediário)

Problema: Um dado honesto de 6 faces. Seja $X$ o resultado. Calcule $\text{Var}(X)$ .

Estratégia: Usar a fórmula $\text{Var}(X) = E[X^2] - (E[X])^2$ com a distribuição uniforme discreta.

Resolução:

$P(X = k) = 1/6$ para $k \in \{1, 2, 3, 4, 5, 6\}$ .
$E[X] = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = \frac{7}{2}$ .
$E[X^2] = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$ .
$\text{Var}(X) = \frac{91}{6} - \left(\frac{7}{2}\right)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182}{12} - \frac{147}{12} = \frac{35}{12}$ .
Desvio padrão: $\sigma = \sqrt{35/12} \approx 1{,}71$ .

Verificação: A fórmula geral para $X$ uniforme em $\{1, \ldots, n\}$ é $\text{Var}(X) = (n^2-1)/12$ . Para $n=6$ : $(36-1)/12 = 35/12$ . Confere.

Fonte. Grinstead & Snell, Introduction to Probability, Ch. 6, Example 6.1 — licença GNU FDL.

Example— 4· Propriedade de linearidade e coeficiente de variação (intermediário)

Problema: Uma máquina enche garrafas com volume médio $\mu = 500$ mL e $\sigma = 4$ mL. A empresa vende em caixas de 12 garrafas. (a) Qual o desvio padrão do volume total de uma caixa, assumindo garrafas independentes? (b) Qual o coeficiente de variação ( $CV$ ) de uma garrafa individual?

Estratégia: Para (a), usar a propriedade de independência: $\text{Var}(X_1 + \cdots + X_{12}) = 12\sigma^2$ . Para (b), aplicar $CV = \sigma/\mu$ .

Resolução:

(a) Seja $S = X_1 + X_2 + \cdots + X_{12}$ com $X_i$ independentes e idênticas.

$\text{Var}(S) = 12 \cdot \sigma^2 = 12 \cdot 16 = 192 \text{ mL}^2$ .

$\sigma_S = \sqrt{192} = 8\sqrt{3} \approx 13{,}9$ mL.

(b) $CV = \frac{\sigma}{\mu} = \frac{4}{500} = 0{,}008 = 0{,}8\%$ .

Um $CV$ de 0,8% é muito baixo — a máquina é consistente.

Verificação: Para 12 garrafas independentes, o desvio padrão cresce com $\sqrt{12}$ , não com 12. $4\sqrt{12} \approx 13{,}9$ . Consistente com o cálculo.

Fonte. OpenStax Statistics §2.7, exercício de propriedades — licença CC-BY.

Example— 5· Desigualdade de Chebyshev — cotas de probabilidade (modelagem)

Problema: Uma linha de produção fabrica peças com massa média $\mu = 200$ g e desvio padrão $\sigma = 5$ g. Sem conhecer a distribuição exata, determine uma cota inferior para a proporção de peças com massa entre 185 g e 215 g.

Estratégia: Chebyshev fornece uma cota universal: $P(|X - \mu| < k\sigma) \geq 1 - 1/k^2$ . Identificar $k$ a partir da faixa pedida.

Resolução:

Faixa pedida: $[185, 215] = [\mu - 15, \mu + 15]$ .
$15 = 3\sigma$ (pois $\sigma = 5$ ). Logo $k = 3$ .
Chebyshev: $P(|X - 200| < 15) \geq 1 - \frac{1}{3^2} = 1 - \frac{1}{9} = \frac{8}{9} \approx 88{,}9\%$ .

Pelo menos 88,9% das peças estão dentro da tolerância, independentemente da distribuição.

Verificação: Se a produção fosse normal, com $k=3$ teríamos 99,7% — bem mais. Chebyshev é conservador. O valor 88,9% é a pior cota possível para qualquer distribuição com $\mu = 200, \sigma = 5$ .

Fonte. Grinstead & Snell, Introduction to Probability, §8.1, Chebyshev Inequality — licença GNU FDL.

Exercise list

40 exercises · 10 with worked solution (25%)

Application 24Understanding 3Modeling 9Proof 4

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Fonte primária desta lição. §2.1–§2.2 cobrem variância amostral, desvio padrão, boxplot e exemplos aplicados.
Statistics (OpenStax) — Illowsky, Dean · CC-BY. §2.7 cobre medidas de dispersão, fórmula computacional, exercícios com calculadora e dados educacionais/saúde.
Introduction to Probability — Grinstead & Snell (Dartmouth) — GNU FDL. Ch. 6 cobre variância de variáveis aleatórias discretas, propriedades algébricas, Chebyshev e conexão com lei dos grandes números.