v1 · padrão canônico

Lição 71 — Medidas de tendência central: média, mediana, moda

Resumir um conjunto de dados com um único número: média, mediana, moda. Quando usar cada uma e o que a escolha revela sobre a distribuição.

Used in: 2.º ano do EM (16-17 anos) · Stochastik LK alemão · H2 Math Statistics singapurense · Math B japonês

\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i

A média aritmética de $n$ valores: soma todos e divide por $n$ . Ao lado dela vivem a mediana (o valor do meio quando os dados estão ordenados) e a moda (o valor mais frequente). As três são medidas de tendência central — cada uma responde a uma pergunta diferente sobre onde os dados se concentram.

Choose your door

Rigorous notation, full derivation, hypotheses

Definições e propriedades

Estatística descritiva: o problema de resumo

Dado um conjunto de $n$ observações $x_1, x_2, \ldots, x_n$ , queremos um único número que represente o "centro" da distribuição. Não há resposta única — há três perguntas diferentes, três respostas diferentes.

"A média amostral pode ser calculada para qualquer variável quantitativa. Para uma distribuição discreta, a média é a soma de cada valor multiplicado por sua probabilidade; para uma distribuição contínua, a integral correspondente." — OpenIntro Statistics, §1.6

Propriedades algébricas da média

"A media minimiza a soma dos quadrados dos desvios (erro $L^2$ ). A mediana minimiza a soma dos valores absolutos dos desvios (erro $L^1$ ). Esta distinção tem consequências profundas em regressão e aprendizado de máquina." — OpenIntro Statistics, §2.1

Relação entre as três medidas e assimetria

Relação entre moda, mediana e média segundo a assimetria da distribuição. Na assimetria à direita (cauda longa positiva): moda menor que mediana menor que média.

Forma da distribuição	Relação
Simétrica unimodal	Moda $=$ Mediana $=$ Média
Assimetria à direita (cauda positiva)	Moda $<$ Mediana $<$ Média
Assimetria à esquerda (cauda negativa)	Média $<$ Mediana $<$ Moda

Exemplos resolvidos

Example— 1· Cálculo direto das três medidas (iniciação)

Problema: O tempo (em minutos) que sete alunos levaram para resolver uma questão de ENEM foi: 8, 12, 7, 15, 12, 10, 9. Calcule a média, a mediana e a moda.

Estratégia: Para a média, somamos e dividimos. Para a mediana, precisamos ordenar primeiro. Para a moda, identificamos o valor mais frequente.

Resolução:

Dados ordenados: 7, 8, 9, 10, 12, 12, 15.

Média: $\bar{x} = \frac{7 + 8 + 9 + 10 + 12 + 12 + 15}{7} = \frac{73}{7} \approx 10{,}43 \text{ min}$

Mediana: $n = 7$ (ímpar), posição do meio = $(7+1)/2 = 4$ . O 4.º valor na lista ordenada é 10. Mediana = 10 min.

Moda: o valor 12 aparece duas vezes; todos os outros, uma vez. Moda = 12 min.

Verificação: A média (10,43) está entre a mediana (10) e a moda (12). A distribuição tem leve assimetria à direita puxada pelo valor 15 — coerente com moda menor que ou igual a mediana menor que ou igual a média.

Fonte. OpenIntro Statistics §1.6 — CC-BY-SA 4.0. Exercício adaptado da seção de estatística descritiva introdutória.

Example— 2· Media para dados agrupados em tabela de frequencias (intermediario)

Problema: Uma pesquisa com 40 estudantes sobre horas semanais dedicadas a estudo extraclasse produziu a tabela:

Horas	Frequência ( $f_i$ )
0 a 4	5
4 a 8	12
8 a 12	15
12 a 16	6
16 a 20	2

Calcule a média aritmética usando os pontos médios dos intervalos.

Estratégia: Para dados agrupados, substituímos cada intervalo pelo seu ponto médio e aplicamos a fórmula da média ponderada.

Resolução:

Pontos médios: 2, 6, 10, 14, 18.

$\bar{x} = \frac{5 \cdot 2 + 12 \cdot 6 + 15 \cdot 10 + 6 \cdot 14 + 2 \cdot 18}{40} = \frac{10 + 72 + 150 + 84 + 36}{40} = \frac{352}{40} = 8{,}8 \text{ horas}$

Verificação: O valor 8,8 cai dentro do intervalo de maior frequência (8 a 12 horas), que concentra 15 dos 40 alunos. Consistente. A soma das frequências é $5 + 12 + 15 + 6 + 2 = 40$ . Correto.

Fonte. OpenStax Introductory Statistics 2e §2.5 — CC-BY 4.0. Adaptado do exemplo de dados agrupados em classes.

Example— 3· Mediana com n par e impacto de outlier (intermediario-avancado)

Problema: Os salários mensais (em R$ mil) de 8 funcionários de uma startup são: 4, 4, 5, 5, 6, 7, 8, 60.

(a) Calcule média e mediana. (b) O CEO (R$ 60 mil) sai e é substituído por alguém com R$ 7 mil. Recalcule. (c) Qual medida é mais adequada para descrever o salário do "funcionário típico" nos dois casos?

Estratégia: Calcular as duas medidas antes e depois da troca, e comparar a sensibilidade de cada uma ao outlier.

Resolução:

(a) Com o CEO (R$ 60 mil):

Dados ordenados: 4, 4, 5, 5, 6, 7, 8, 60.

Média: $(4 + 4 + 5 + 5 + 6 + 7 + 8 + 60)/8 = 99/8 = 12{,}375$ mil.

Mediana ( $n = 8$ par): média do 4.º e 5.º valores = $(5 + 6)/2 = 5{,}5$ mil.

(b) Sem o CEO, com R$ 7 mil:

Dados ordenados: 4, 4, 5, 5, 6, 7, 7, 8.

Média: $(4 + 4 + 5 + 5 + 6 + 7 + 7 + 8)/8 = 46/8 = 5{,}75$ mil.

Mediana: $(5 + 6)/2 = 5{,}5$ mil.

(c) Comparação: A média saltou de 5,75 para 12,375 — variação de +115% — com a entrada de um único outlier. A mediana permaneceu 5,5 mil em ambos os casos. Para representar o salário do funcionário típico, a mediana é mais adequada na presença de outliers extremos.

Verificação: Em (a), apenas 1 dos 8 funcionários (12,5%) ganha acima da média. A mediana reflete melhor a massa salarial.

Fonte. OpenIntro Statistics §1.6 — CC-BY-SA 4.0. Contexto adaptado para dados de startup brasileira.

Example— 4· Escolha de medida central: renda, tempo de espera, cor (modelagem)

Problema: Para cada situação abaixo, identifique a medida de tendência central mais adequada e justifique:

(a) Renda per capita dos municípios brasileiros para comparação entre estados. (b) Tempo de espera (em minutos) no pronto-socorro de um hospital público. (c) Sistema operacional mais instalado em laboratórios de informática de escolas públicas.

Estratégia: Para cada variável, identifique: é quantitativa ou categórica? Se quantitativa, há assimetria ou outliers esperados?

Resolução:

(a) Renda per capita: variável quantitativa com assimetria à direita esperada (municípios riquíssimos como São Paulo e Brasília puxam a média para cima, mas a maior parte dos municípios tem renda baixa). Mediana é mais adequada — o IBGE usa mediana justamente por este motivo.

(b) Tempo de espera no pronto-socorro: variável quantitativa com cauda pesada à direita (a maioria dos pacientes é atendida em 1 a 3 horas, mas casos críticos podem esperar 12 ou mais horas, distorcendo a média). Mediana ou percentil 90 são as métricas padrão em gestão hospitalar.

(c) Sistema operacional: variável categórica — não há ordenação natural entre Windows, Linux, macOS. Só faz sentido perguntar qual é o mais frequente. Moda é a única medida de tendência central aplicável.

Verificação: As três situações cobrem os três casos típicos de aplicação: (a) quantitativa assimétrica → mediana; (b) quantitativa com outliers → mediana; (c) categórica → moda. A média só seria adequada em variáveis simétricas sem outliers.

Fonte. OpenIntro Statistics §1.6–§2.1 — CC-BY-SA 4.0. Classificação baseada nos critérios de escolha de medida central da seção de variáveis e medidas.

Example— 5· Demonstracao: media minimiza o erro quadratico (desafio)

Problema: Prove que para qualquer constante $c \in \mathbb{R}$ , a soma $S(c) = \sum_{i=1}^{n}(x_i - c)^2$ é minimizada em $c = \bar{x}$ .

Estratégia: Expandir $S(c)$ adicionando e subtraindo $\bar{x}$ , completando o quadrado. A estrutura algébrica revelará que $S(c) \geq S(\bar{x})$ para todo $c$ .

Resolução:

Escreva $x_i - c = (x_i - \bar{x}) + (\bar{x} - c)$ . Então:

$S(c) = \sum_{i=1}^{n}\bigl[(x_i - \bar{x}) + (\bar{x} - c)\bigr]^2$

Expandindo o quadrado:

$S(c) = \sum_{i=1}^{n}(x_i - \bar{x})^2 + 2(\bar{x} - c)\sum_{i=1}^{n}(x_i - \bar{x}) + n(\bar{x} - c)^2$

Pelo Teorema 1 desta lição, $\sum_{i=1}^{n}(x_i - \bar{x}) = 0$ . Logo o termo do meio é zero:

$S(c) = \underbrace{\sum_{i=1}^{n}(x_i - \bar{x})^2}_{\text{constante (não depende de } c)} + \underbrace{n(\bar{x} - c)^2}_{\geq\; 0,\text{ anula-se em } c = \bar{x}}$

O segundo termo é não-negativo e se anula se e somente se $c = \bar{x}$ . Portanto $S(c) \geq S(\bar{x})$ para todo $c$ , com igualdade em $c = \bar{x}$ . $\square$

Verificação: A prova usa apenas: (i) expansão algébrica do quadrado; (ii) o fato de que $\sum(x_i - \bar{x}) = 0$ . Nenhuma suposição sobre a distribuição dos $x_i$ foi necessária — o resultado vale para qualquer conjunto finito de números reais.

Fonte. OpenIntro Statistics §2.1 — CC-BY-SA 4.0. Demonstração baseada na caracterização variacional da média.

Exercise list

42 exercises · 10 with worked solution (25%)

Application 12Understanding 10Modeling 11Challenge 5Proof 4

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA 4.0 · §1.6 (medidas descritivas básicas, escolha de medida, skewness) e §2.1 (caracterização variacional, robustez). Fonte primária desta lição.
Introductory Statistics 2e (OpenStax) — Illowsky, Dean et al. · CC-BY 4.0 · §2.5 (cálculo de média para dados agrupados, exemplos extensos com tabelas de frequência).
Estatística (Wikilivros) — colaborativo · CC-BY-SA 4.0 · Seções: Média, Mediana, Moda, Medidas de tendência central (referência em PT-BR; fórmula de Czuber para moda em dados agrupados).
Prêmio Nobel de Economia 2000 — Heckman e McFadden — métodos microeconométricos baseados em estimação robusta de locação central.