Lição 73 — Quartis, percentis e boxplot
Resumo de 5 números: mín, Q1, mediana, Q3, máx. IQR, boxplot e regra 1,5 IQR para detectar outliers. Medidas robustas em dados assimétricos.
Used in: Stochastik — Leistungskurs alemão · H2 Math Statistics — Singapura · AP Statistics — EUA · Math B — Japão
O intervalo interquartil cobre os 50% centrais dos dados. A regra de Tukey (1977) sinaliza como outlier qualquer ponto além de de cada quartil — critério robusto, pois não depende de média nem de desvio padrão.
Rigorous notation, full derivation, hypotheses
Definição rigorosa
Estatísticas de ordem e percentis
"The first quartile, , is the value such that 25% of the data fall below it, and the third quartile, , is such that 75% of the data fall below it." — OpenIntro Statistics §2.1
Anatomia do boxplot: caixa (Q1 a Q3), linha de mediana, bigodes até o extremo não-outlier, pontos isolados para outliers.
Exemplos resolvidos
Exercise list
40 exercises · 10 with worked solution (25%)
- Ex. 73.1ApplicationAnswer key
Dados: 1, 3, 5, 7, 9. Calcule mediana, e .
Show solution
Ordenados: 1, 3, 5, 7, 9 (). Mediana: posição 3 = 5. : mediana de (1, 3) = 2. : mediana de (7, 9) = 8. Resumo de 5: (1, 2, 5, 8, 9).Show step-by-step (with the why)
- Ordene: 1, 3, 5, 7, 9. Com ímpar, a mediana é o 3.º valor: 5.
- = mediana da metade inferior (1, 3) = média de 1 e 3 = 2.
- = mediana da metade superior (7, 9) = média de 7 e 9 = 8.
- Ex. 73.2Application
Dados: 2, 4, 6, 8, 10, 12. Calcule o resumo de 5 números.
Show solution
Ordenados: 2, 4, 6, 8, 10, 12 (). Mediana: . : mediana de (2, 4, 6) = 4. : mediana de (8, 10, 12) = 10. Resumo: (2, 4, 7, 10, 12). - Ex. 73.3ApplicationAnswer key
Notas: 4, 5, 6, 6, 7, 7, 8, 8, 9, 10. Calcule , , .
Show solution
Ordenados: 4, 5, 6, 6, 7, 7, 8, 8, 9, 10 (). . : mediana de (4, 5, 6, 6, 7) = 6. : mediana de (7, 8, 8, 9, 10) = 8. - Ex. 73.4Application
Calcule o dos dados: 12, 14, 18, 22, 25, 28, 32.
Show solution
Ordenados: 12, 14, 18, 22, 25, 28, 32 (). = 14 (2.º valor). = 28 (6.º valor). . - Ex. 73.5ApplicationAnswer key
Idades: 18, 20, 21, 22, 23, 24, 25, 27, 30, 35, 60. Aplique a regra 1,5 IQR. Há outlier?
Show solution
Dados ordenados: 18, 20, 21, 22, 23, 24, 25, 27, 30, 35, 60 (). , , . Limite superior: . Valor 60 está além: outlier.Show step-by-step (with the why)
- Ordene e localize: (3.ª posição), mediana = 24, (9.ª posição).
- .
- Limite superior: .
- O valor 60 é maior que 43,5 — classificado como outlier pela regra de Tukey.
- Ex. 73.6Application
Salários (RIQR$.
Show solution
Dados: 2, 3, 3, 4, 4, 5, 5, 6, 8, 50 (). Mediana = . = mediana de (2, 3, 3, 4, 4) = 3. = mediana de (5, 5, 6, 8, 50) = 6. . - Ex. 73.7ApplicationAnswer key
Para dados ordenados, qual é a posição de pelo método de interpolação linear?
Show solution
Usando fórmula com , : . Interpola entre posições 75 e 76. - Ex. 73.8Application
Tempos (s): 10, 11, 11, 12, 13, 13, 14, 14, 15, 100. Calcule limites de Tukey e identifique o(s) outlier(s).
Show solution
Dados: 10, 11, 11, 12, 13, 13, 14, 14, 15, 100 (). , , . Limite superior: . Valor 100 é outlier. - Ex. 73.9Application
Pesos (kg): 60, 62, 64, 65, 65, 67, 70, 72, 75, 80. Descreva todos os elementos do boxplot.
Show solution
Pesos ordenados: 60, 62, 64, 65, 65, 67, 70, 72, 75, 80. , mediana = 66, . Caixa de 64,5 a 71, linha em 66. Bigodes de 60 a 80 (nenhum outlier). Distribuição levemente assimétrica à direita.Show step-by-step (with the why)
- Ordenar: 60, 62, 64, 65, 65, 67, 70, 72, 75, 80 ().
- Mediana: média das posições 5 e 6 = .
- : mediana de (60, 62, 64, 65, 65) = 64; : mediana de (67, 70, 72, 75, 80) = 72. Atenção: alguns livros excluem mediana central — verifique seu método.
- . Limites: e . Todos os pesos estão dentro.
- Ex. 73.10Application
Para ,
Show solution
Para : e . Por simetria . - Ex. 73.11Application
Dados com . Usando o estimador robusto , calcule .
Show solution
Estimador robusto: . Útil quando suspeita de outliers contamina o desvio padrão clássico. - Ex. 73.12Application
Quantos pontos acima de esperaríamos numa amostra de 1000 observações normais?
Show solution
A regra equivale a . . Em 1000 observações normais, esperamos — essencialmente zero. - Ex. 73.13Application
Boxplot A: caixa estreita, mediana centrada. Boxplot B: caixa larga, mediana próxima a . Compare dispersão e simetria dos dois conjuntos.
Show solution
Boxplot A: caixa estreita ( pequeno) com mediana centrada → baixa dispersão e simetria. Boxplot B: caixa larga ( grande) com mediana próxima a → alta dispersão e assimetria à direita (cauda longa superior). - Ex. 73.14Application
Distribuição com cauda longa à direita. A média está em que posição em relação à mediana?
Show solution
Em distribuição com cauda longa à direita, a cauda puxa a média para cima. A mediana, sendo posicional, não é afetada pela cauda. Logo média está acima da mediana. - Ex. 73.15Application
Conjunto A tem , conjunto B tem . Em qual há mais dispersão nos dados centrais?
Show solution
mede a dispersão dos 50% centrais. em B é 4 vezes maior que em A — conjunto B tem muito mais dispersão. - Ex. 73.16Application
Mediana de . de , de . Qual dos dois tem distribuição mais assimétrica à direita?
Show solution
Ambos têm mediana 50. Em A, (metade superior estreita). Em B, (metade superior larga). Conjunto B é muito mais assimétrico à direita. - Ex. 73.17Application
de salários da empresa = R$ 30 mil. Interprete esta informação.
Show solution
de salários = R$ 30 mil significa: 90% dos funcionários ganham até R$ 30 mil por mês, e 10% ganham mais que isso. - Ex. 73.18Application
Um aluno está no do ENEM. O que isso significa?
Show solution
Aluno no do ENEM significa: ele tirou nota maior ou igual a 85% dos candidatos que fizeram o exame naquele ano. - Ex. 73.19Application
Se , o que se pode concluir sobre os dados?
Show solution
Se , então . Isso significa que pelo menos metade dos dados tem exatamente o mesmo valor — máxima concentração nos 50% centrais. Pode indicar que todos os dados são iguais ou que há grande massa de valores repetidos. - Ex. 73.20Understanding
A afirmação "a regra 1,5 IQR sinaliza 5% dos dados como outliers" está correta para dados normais?
Show solution
Não. Em dados normais, a regra 1,5 IQR sinaliza apenas das observações como outliers — não 5%. O critério "5% como outliers" usaria aproximadamente , não 1,5 IQR. A regra de Tukey foi calibrada propositalmente para que outliers sejam raros, não rotineiros. - Ex. 73.21ApplicationAnswer key
Idades (anos): 40, 52, 55, 58, 62, 66, 72. Calcule o resumo de 5 números e verifique se há outliers.
Show solution
Resumo de 5 números para conjunto de 7 valores: mín = 40, , mediana = 58, , máx = 72. . Limite superior: . Nenhum outlier. - Ex. 73.22ApplicationAnswer key
Notas de 10 alunos: 3, 5, 6, 7, 7, 8, 8, 9, 10, 10. Boxplot completo (com verificação de outliers).
Show solution
Notas: 3, 5, 6, 7, 7, 8, 8, 9, 10, 10. Mediana = . , . . Limites: . Nenhum outlier. - Ex. 73.23Modeling
Turma de 100 alunos: , . Um aluno tirou 9,5 — ele está no top 25%?
Show solution
Com e , a nota 9,5 está acima de . Isso significa que o aluno está no top 25% da turma — sim, top 25%. - Ex. 73.24Modeling
Por que o IBGE divulga mediana de renda, e não só a média, nos relatórios sobre desigualdade no Brasil?
Show solution
Renda no Brasil tem distribuição fortemente assimétrica à direita: poucos milionários puxam a média para cima, distorcendo-a como medida do salário "típico". A mediana não é afetada por valores extremos e representa melhor o que o trabalhador mediano ganha. Exemplo: em 2023, a renda média domiciliar no Brasil era R$ 3.459 e a mediana era R$ 1.850 — diferença de 87%. - Ex. 73.25Modeling
Peças produzidas com diâmetro: mm, mm. Especificação: mm. O processo está centrado? Há risco de rejeição significativo?
Show solution
Peças com mm e mm: 50% das peças estão entre 9,98 e 10,02 mm. A especificação é , ou seja, 9,95 a 10,05 mm. Como os quartis estão bem dentro dos limites, o processo parece centrado e a maioria das peças deve estar conforme. Para decisão completa, calcular e requer ou assumir normalidade. - Ex. 73.26Modeling
A/B test de site: variante A tem mediana 1,2 s e ; variante B tem mediana 1,1 s e . Qual você prefere para lançar em produção? Justifique usando as estatísticas de dispersão.
Show solution
Variante A: mediana 1,2 s, (consistente, mas um pouco mais lenta). Variante B: mediana 1,1 s, (mais rápida em mediana, mas muito variável — provavelmente tem outliers pesados). Para UX, prefere-se A: o usuário prefere carregamento consistentemente rápido a um que às vezes é rápido e às vezes demora muito. - Ex. 73.27ModelingAnswer key
Você detecta um outlier em transações financeiras que parece ser fraude. Deve removê-lo antes de analisar os dados? Justifique com argumentos estatísticos.
Show solution
Não se deve remover o outlier sem investigação. Um outlier em transações financeiras pode ser: (a) erro de lançamento (remova, com justificativa documentada); (b) transação fraudulenta real (preserve — é o ponto mais informativo); (c) cliente de alto valor. Remover outliers de fraude do training set de um modelo de detecção é especialmente prejudicial: o modelo não aprenderá a detectar exatamente os casos de maior risco. - Ex. 73.28Modeling
Tempos de resposta (ms): 120, 130, 135, 140, 142, 145, 148, 150, 155, 380. Calcule o resumo de 5 números e avalie se o sistema cumpre SLA de 200 ms com base nos quartis.
Show solution
Tempo de resposta de sistema: 120, 130, 135, 140, 142, 145, 148, 150, 155, 380 ms. , , . Limite: . O valor 380 ms é outlier — provavelmente timeout ou falha de rede. Para SLA de 200 ms, o sistema está bem, exceto pelo outlier. - Ex. 73.29Modeling
Hospital com 4 alas. Tempos de internação (dias): Ala A: 5, 8, 9, 10, 12; Ala B: 3, 4, 4, 5, 20; Ala C: 7, 8, 8, 9, 10; Ala D: 2, 3, 15, 18, 25. Construa os resumos de 5 números e identifique qual ala é mais previsível em gestão de leitos.
Show solution
Hospital com 4 alas. Tempos médios de internação (dias) por ala: A(5,8,9,10,12), B(3,4,4,5,20), C(7,8,8,9,10), D(2,3,15,18,25). Ala B e D têm outliers (casos complexos). Ala A tem distribuição mais uniforme (), Ala C tem menor variabilidade (). Decisão de alocação de leitos deve priorizar baixo (mais previsível) sobre mediana isolada. - Ex. 73.30Modeling
Notas do ENEM por escola. Escola A: mediana 650, . Escola B: mediana 620, . Qual escola tem desempenho mais uniforme? O que cada padrão sugere para a política pedagógica?
Show solution
Dados de nota do ENEM por escola. Escola A: mediana 650, . Escola B: mediana 620, . Escola A tem desempenho mais homogêneo (menor ) e mediana maior. Escola B tem maior desigualdade interna — possivelmente alunos muito bons e muito fracos. Para políticas públicas, escola B precisa de nivelamento; escola A de aprofundamento para alunos medianos. - Ex. 73.31Modeling
Precipitação mensal média em São Paulo (mm): 234, 181, 130, 83, 68, 52, 44, 47, 82, 122, 145, 201. Calcule o resumo de 5 números e interprete a sazonalidade.
Show solution
Precipitação mensal (mm) em São Paulo: 234, 181, 130, 83, 68, 52, 44, 47, 82, 122, 145, 201. Ordenados: 44, 47, 52, 68, 82, 83, 122, 130, 145, 181, 201, 234. , mediana = , . . Nenhum outlier (limites: [-94,5 e 317,5]). Distribuição assimétrica à direita: chuvas concentradas nos meses de verão. - Ex. 73.32Modeling
Preços de imóveis em um bairro (R$ mil): 250, 280, 310, 320, 340, 350, 380, 390, 420, 1800. Calcule mediana e média. Por que um comprador deve usar a mediana como referência de preço típico?
Show solution
Preços de imóveis: R$ 250 mil, 280 mil, 310 mil, 320 mil, 340 mil, 350 mil, 380 mil, 390 mil, 420 mil, 1,8 milhão. Mediana = R$ 345 mil, média = R$ 484 mil — diferença enorme puxada pelo imóvel de luxo. Para precificação de imóvel típico no bairro, a mediana é a referência correta. O imóvel de R$ 1,8 milhão é outlier ( = R$ 550 mil). - Ex. 73.33Understanding
Explique, em suas próprias palavras, por que mediana e IQR são "robustos" enquanto média e desvio padrão não são. Use um exemplo concreto.
Show solution
Mediana e IQR são robustos porque dependem apenas da ordem dos dados, não de seus valores absolutos. Uma observação se torna infinitamente grande: mediana não muda (continua no valor central), IQR não muda (continua medindo os 50% centrais). Média e desvio padrão, ao contrário, somam os valores diretamente — um outlier infinito os torna infinitos. - Ex. 73.34UnderstandingAnswer key
Um boxplot pode esconder uma distribuição bimodal? Construa um exemplo concreto de distribuição bimodal que tem o mesmo boxplot que uma distribuição unimodal.
Show solution
Sim. Exemplo: distribução bimodal com picos em 10 e 90, e valores intermediários raros. Se cada pico tiver 25% dos dados, o quartil , , — idêntico a uma distribuição uniforme em [10, 90]. O boxplot "vê" a caixa larga mas não distingue os dois modos. Por isso, histograma e violin plot complementam o boxplot. - Ex. 73.35UnderstandingAnswer key
Para , o é:
Show solution
Para , a CDF é . Logo e . Portanto . - Ex. 73.36Challenge
Calcule analiticamente o de . Expresse em função de .
Show solution
Para : CDF . , . . Para : . - Ex. 73.37Challenge
Argumente por que o ponto de quebra do é 25%, o da mediana é 50% e o da média é 0%.
Show solution
Ponto de quebra do IQR: considere amostras de tamanho . Para "destruir" , precisamos mover ao menos pontos para além de qualquer limite. Logo o ponto de quebra é . Para a mediana, análogo argumento dá 50%. Para a média, basta 1 ponto (0%). - Ex. 73.38ProofAnswer key
Demonstre: se é v.a. contínua com densidade simétrica em torno de , então é a mediana de .
Show solution
Para contínua simétrica em torno de : a simetria implica para todo . Então . Por mudança de variável : a integral fica . Logo , portanto é a mediana. - Ex. 73.39Proof
Mostre que para e amostras iid de Uniforme(0,1), o estimador amostral de converge para 0,25. Use propriedades de estatísticas de ordem.
Show solution
Para , as estatísticas de ordem têm distribuição . Em particular, quase certamente quando pela lei dos grandes números. A variância de é , que vai a zero quando . - Ex. 73.40Proof
Demonstre que a mediana minimiza sobre todos os valores .
Show solution
A mediana minimiza . Prova: seja . Derivando: . Igualando a zero: , ou seja, . Como , é mínimo.
Fontes
- OpenIntro Statistics (4ª ed) — Diez, Çetinkaya-Rundel, Barr · 2019 · EN · CC-BY-SA. Fonte primária — §2.1 (quartis, percentis) e §2.2 (boxplot, outliers).
- Statistics (OpenStax) — Illowsky, Dean · 2022 · EN · CC-BY. §2.3 (percentis por interpolação) e §2.4 (boxplot e regra 1,5 IQR).
- Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · 1997 · EN · GNU FDL. §5.1 — quartis de distribuições contínuas, estatísticas de ordem.