Lição 80 — Consolidação Trim 8 — Estatística e probabilidade aplicada
Workshop integrador: medidas centrais, variância, quartis, v.a. discreta, binomial, normal, TCL, correlação e Bayes em problemas reais brasileiros.
Used in: 2.º ano do EM (16-17 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · Equiv. H2 Maths Statistics (Singapura)
O pipeline completo do trimestre: resumir dados com e , escolher um modelo probabilístico (binomial, normal), e atualizar crenças via regra de Bayes . Cada seta é uma aula; esta lição tece as flechas em cadeia.
Rigorous notation, full derivation, hypotheses
Síntese formal do trimestre
Estatística descritiva
"A variância é a média dos quadrados dos desvios em relação à média. Para uma amostra, divide-se por (correção de Bessel) em vez de ." — OpenIntro Statistics §2.1
Variável aleatória discreta
"A esperança é uma média ponderada dos possíveis valores de , ponderada pelas probabilidades." — Grinstead & Snell §6.1
Distribuições paramétricas
Teorema Central do Limite
"O TCL é indiscutivelmente o resultado mais importante de toda a teoria de probabilidade. Afirma que a distribuição da média amostral se aproxima da normal independentemente da distribuição original de ." — OpenIntro Statistics §4.4
Correlação e regressão
Regra de Bayes
Pipeline do Trim 8. Cada bloco corresponde a um grupo de aulas (72–73, 74–76, 77, 78–79).
Exemplos resolvidos
Exercise list
37 exercises · 9 with worked solution (25%)
- Ex. 80.1ApplicationAnswer key
Amostra: 4, 6, 8, 8, 9, 10, 10, 11, 12, 22. Calcule mediana, , , IQR e identifique outliers pela cerca de Tukey.
Show solution
Dados ordenados: 4, 6, 8, 8, 9, 10, 10, 11, 12, 22. Mediana = . = mediana dos 5 primeiros = 8. = mediana dos 5 últimos = 11. . Cerca superior: . Outlier: 22 (acima de 15,5).Show step-by-step (with the why)
- Ordene a amostra: 4, 6, 8, 8, 9, 10, 10, 11, 12, 22. Com 10 valores, a mediana está entre as posições 5 e 6: .
- Metade inferior (posições 1–5): 4, 6, 8, 8, 9 — mediana = 8 = . Metade superior (posições 6–10): 10, 10, 11, 12, 22 — mediana = 11 = .
- IQR = . Cercas: inferior = , superior = .
- Verifique cada valor: 4 está acima de 3,5 (dentro). 22 está acima de 15,5 (outlier).
- Ex. 80.2Application
Mesma amostra do exercício 80.1. Calcule a média e o desvio padrão amostral. Compare com a mediana: qual é mais representativa da posição central? Por quê?
Show solution
Média = . Variância amostral: soma dos quadrados dos desvios dividida por 9. . Desvio: . Comparação: a média (10) subiu pela presença do 22; a mediana (9,5) é mais representativa. - Ex. 80.3Application
. Calcule , e .
Show solution
. . . Espera, recalculando: , não 4,8. Desvio padrão: . - Ex. 80.4Application
Para : verifique o critério de aproximação normal e, mesmo que limítrofe, use a aproximação com correção de continuidade para estimar .
Show solution
Critério: e . O critério não é satisfeito (np = 6), então a aproximação normal é grosseira aqui. Para exercitar: , . Com correção de continuidade: . - Ex. 80.5Application
. Calcule .
Show solution
, então . . . - Ex. 80.6Application
Amostra de população com , . Calcule .
Show solution
Pelo TCL, . Erro padrão: . .Show step-by-step (with the why)
- Identifique os parâmetros: , , .
- Pelo TCL, a média amostral tem distribuição: .
- Calcule o erro padrão: .
- Padronize: . Consulte tabela: .
- Ex. 80.7Application
Pares : (1, 2), (2, 4), (3, 5), (4, 4), (5, 7). Calcule o coeficiente de correlação de Pearson e a reta de regressão .
Show solution
Dados: . , . . . . . Reta: ; . Logo . - Ex. 80.8Application
Doença com prevalência 2%, teste com sensibilidade 90% e especificidade 95%. Calcule o Valor Preditivo Positivo (VPP).
Show solution
Prevalência 2%: . Sens = 90%: . Espec = 95%: , então . . . - Ex. 80.9Application
onde . Determine a distribuição de .
Show solution
. Transformação linear: . (constante não altera variância). Logo . - Ex. 80.10ApplicationAnswer key
Lança-se um dado honesto 50 vezes. Calcule a esperança e o desvio padrão da soma .
Show solution
Para um dado honesto: , . Soma de 50 dados independentes : ; ; . Pelo TCL, . - Ex. 80.11Understanding
Qual das afirmações sobre medidas de dispersão é correta?
Show solution
IQR depende apenas dos quartis, que são quantis robustos — um outlier extremo não muda ou desde que não invada a região central. O desvio padrão usa todos os desvios ao quadrado, então um único outlier muito grande pode inflá-lo enormemente. As outras alternativas: (A) é falso — em distribuições simétricas, média = mediana; (B) é falso — variância é sempre não-negativa (soma de quadrados); (D) é falso — medem conceitos distintos. - Ex. 80.12UnderstandingAnswer key
Qual das relações é verdadeira para as probabilidades pontuais das binomiais na moda?
Show solution
Pelo TCL, à medida que aumenta, a binomial normalizada converge para a normal, e a probabilidade pontual de qualquer valor decresce (a distribuição "achata"). Calculando: . Para : (pelo TCL: ). Logo a probabilidade pontual cai com . - Ex. 80.13Understanding
Explique em suas palavras: o TCL afirma que, para grande, os dados individuais seguem distribuição normal? Se não, o que exatamente converge para normal?
Show solution
O TCL se refere à distribuição de (média amostral), não de individual. Para qualquer distribuição com , quando , a distribuição de converge para . Dados individuais continuam com a distribuição original. A velocidade de convergência depende da assimetria da distribuição original — para distribuições próximas da normal, até já é suficiente; para Bernoulli(0,01), podem ser necessários . - Ex. 80.14UnderstandingAnswer key
Qual afirmação sobre correlação de Pearson é correta?
Show solution
O coeficiente de Pearson mede apenas a componente linear da associação. Exemplo clássico: com simétrico em torno de zero tem , mas Y depende funcionalmente de X. As outras alternativas: (A) é falso — Pearson só detecta associação linear; (B) é falso — não implica independência; (D) é falso — implica pontos na reta, mas o enunciado diz "o coeficiente é 1", não o inverso. - Ex. 80.15Modeling
Tempo de entrega de uma pizzaria: min. Qual o prazo máximo que cobre 95% das entregas?
Show solution
Tempo de entrega . Para cobertura de 95%: . Limite: min. Portanto, 95% das entregas chegam em até 40,2 min.Show step-by-step (with the why)
- Identifique: . Queremos tal que .
- Padronize: . Da tabela normal: .
- Resolva: min.
- Ex. 80.16ModelingAnswer key
Com o modelo do exercício 80.15 (SLA de 40,2 min, taxa de violação 5%), calcule a esperança do número de violações em 100 entregas.
Show solution
Cada entrega viola o SLA (tempo maior que 40,2 min) com probabilidade 5%. Em 100 entregas, o número de violações . . - Ex. 80.17Modeling
Mercado imobiliário: correlação entre área e preço é . Médias , (Rs_x = 20s_y = 80.000$. Encontre a reta de regressão e preveja o preço para um imóvel de área média.
Show solution
Dados hipotéticos de imobiliário: , reais, , , . Inclinação: reais por m². Intercepto: . Reta: . Para área média (80 m²): (trivialmente, pois a reta passa pelo ponto médio). - Ex. 80.18Modeling
Carteira financeira: 100 ações independentes, cada uma com retorno diário . Determine a distribuição do retorno diário da carteira equal-weighted.
Show solution
Retornos diários de 100 ações independentes, cada um . Retorno da carteira equal-weighted: . Pelo TCL: ; ; . Logo . - Ex. 80.19Modeling
Six Sigma: peças com dimensão mm. Tolerância mm. Calcule a proporção de defeitos e estime defeitos por milhão.
Show solution
Peças: . Tolerância: . . Defeitos por milhão: (extremamente baixo, processo Six Sigma bem centrado). - Ex. 80.20Modeling
Pesquisa eleitoral: , . Construa um intervalo de confiança de 95% para a proporção verdadeira .
Show solution
Pesquisa eleitoral: , . Erro padrão: . IC 95%: , ou seja, . O IC contém 0,50, logo o resultado não permite concluir quem está na frente.Show step-by-step (with the why)
- Fórmula do IC para proporção: . Para 95%, .
- Calcule SE: .
- IC: . Limites: 0,4604 a 0,4996.
- Interpretação: 0,50 está fora do IC (por uma margem mínima). Há evidência marginal de que menos de 50% preferem esse candidato, mas a certeza é baixa.
- Ex. 80.21Modeling
Filtro de spam: 80% dos spams contêm "GRÁTIS", 5% dos hams contêm. . Um email contém "GRÁTIS" — aplique Bayes e classifique.
Show solution
Spam: , , . . . Classifique como spam. - Ex. 80.22ModelingAnswer key
Linha de produção: taxa de defeito 2%, lote de 200 peças. Estime via aproximação Poisson e via aproximação normal. Compare os resultados.
Show solution
Linha de produção com 2% de defeitos (), lote de . Aproximação Poisson com : ... mais diretamente: . Numericamente: , logo . Aproximação normal: , ; . As duas estimativas diferem; Poisson é mais precisa aqui ( grande, pequeno). - Ex. 80.23Modeling
Carteira financeira: ativos A () e B () com correlação . Calcule o desvio padrão da carteira 50%/50%.
Show solution
Variância da carteira 50/50: . . . . Compare com média ponderada de desvios: . A correlação parcial () reduziu o risco abaixo da média ponderada — benefício da diversificação. - Ex. 80.24Modeling
Dois testes diagnósticos independentes, ambos positivos: teste 1 (sens 90%, espec 95%), teste 2 (sens 85%, espec 90%). Prevalência 1%. Aplique Bayes sequencialmente e calcule o VPP final.
Show solution
Dois testes independentes positivos, prevalência 1%. Primeiro teste: sens 90%, espec 95%. Posterior após 1.º teste: . Segundo teste usa posterior como novo prior: . Hmm, 60,7%. Com dois testes independentes sequenciais de Bayes, o VPP sobe significativamente, mas não chega a 89% com esses parâmetros. Resposta correta: VPP final ≈ 61%. - Ex. 80.25Modeling
Ensaio clínico de vacina: 100 vacinados, 5 doentes; 100 placebos, 25 doentes. Calcule a eficácia vacinal e avalie (informalmente) se a diferença é estatisticamente significativa.
Show solution
Vacinados: 5/100 = 5% de infecção. Placebos: 25/100 = 25%. Eficácia vacinal: . Para avaliar significância (simplificado): diferença de proporções . Erro padrão da diferença: . Estatística Z: . Altamente significativo (). - Ex. 80.26Modeling
Central de atendimento: em cada minuto, cada um dos 120 atendentes recebe uma ligação com probabilidade 2%. Modele o número de ligações simultâneas em 1 minuto e calcule .
Show solution
Número de chamadas em 1 hora: . , . Aprox. Poisson com : ; . - Ex. 80.27Modeling
Alturas de homens adultos no Brasil: cm, cm. Que porcentagem não passa por uma porta de 180 cm? Qual altura de porta cobre 99% da população masculina?
Show solution
Alturas de adultos brasileiros (dados ilustrativos): homens cm. Porta de 180 cm: . . Para 99% de cobertura: . Altura mínima da porta: cm. Na prática, normas construtivas brasileiras exigem pé-direito de 2,40 m para cobrir a distribuição. - Ex. 80.28Challenge
Explique, com exemplo numérico, por que em distribuições muito assimétricas à direita a mediana é mais informativa que a média, e o IQR mais informativo que o desvio padrão.
Show solution
Em distribuição muito assimétrica à direita (ex.: renda, tempo de espera extremo), a média é inflada pelos valores extremos. A mediana, sendo um quantil robusto, representa melhor o valor "típico". O IQR mede a dispersão da metade central da distribuição e é imune a outliers — por isso é mais informativo que quando há assimetria forte ou outliers. Exemplo prático: renda per capita do Brasil, onde a média é superior ao salário de 80% das pessoas. - Ex. 80.29ChallengeAnswer key
Descreva intuitiva e matematicamente como a inferência bayesiana converge para a inferência frequentista (MLE) quando . Qual teorema formaliza essa convergência?
Show solution
O fenômeno é a convergência do estimador bayesiano para o MLE em grandes amostras (Bernstein-von Mises). Para grande, a verossimilhança domina o prior na determinação do posterior. Formalmente, se o prior é contínuo e positivo na vizinhança do MLE, o posterior converge (em variação total) para , onde é a informação de Fisher. Intuitivamente: dados suficientes "afogam" o prior. - Ex. 80.30ChallengeAnswer key
Construa um exemplo de dados onde mas a relação entre e é inteiramente explicada por um confundidor . Explicite o mecanismo matemático.
Show solution
Exemplo clássico: correlação entre vendas de sorvete e número de afogamentos tem . A causa comum é a temperatura. Ambas as variáveis são causadas pelo calor, não há relação causal entre si. Para construir: tome (confundidor), , . , , com independentes. . Correlar X e Y é um espúrio derivado do confundidor C. - Ex. 80.31Challenge
Gere (teoricamente) 100 variáveis aleatórias independentes. Use o TCL para aproximar .
Show solution
Soma de 100 números independentes uniformes em [0,1]: com , . Pelo TCL: . . - Ex. 80.32Challenge
ENEM: escola pública tem , (Mat.); escola privada tem , . Amostras de de cada. Qual a probabilidade de que a média amostral privada supere a pública em mais de 80 pontos?
Show solution
ENEM 2024 (dados hipotéticos): média de Matemática em escola pública = 520, ; escola privada = 610, . Amostras . Diferença de médias amostrais: . . . - Ex. 80.36Proof
Demonstre que a partir da definição .
Show solution
Para provar : partindo da definição onde . Expanda: . A segunda passagem usa linearidade da esperança; a terceira usa e (constante). - Ex. 80.37Proof
Mostre que se são iid, então . Conclua que pela Lei dos Grandes Números.
Show solution
Sejam iid. A soma conta o número de sucessos em tentativas independentes. , pois há maneiras de escolher quais tentativas são sucesso, cada combinação tem probabilidade , e as tentativas são independentes. Isso é exatamente a PMF da Binomial(n, p). Pela Lei dos Grandes Números: . - Ex. 80.38ProofAnswer key
Prove que e para quaisquer .
Show solution
Linearidade da esperança: (usando ). Variância de transformação linear: . A constante não afeta a dispersão. - Ex. 80.39Proof
Derive a regra de Bayes a partir da definição de probabilidade condicional e da lei da probabilidade total.
Show solution
Regra de Bayes para dois eventos: (definição de probabilidade condicional). Por definição, . Para , use lei da probabilidade total com partição : . Substituindo: . A generalização para hipóteses exclusivas e exaustivas segue analogamente. - Ex. 80.40Proof
Enuncie o TCL formalmente. Esboce a prova via função característica (basta indicar os passos, não é necessário justificar o teorema de continuidade de Lévy).
Show solution
Enunciado do TCL (forma fraca): se são iid com e , então . Esboço via função característica: a f.c. de é . Expandindo em Taylor: . Substituindo : quando . Mas é exatamente a f.c. de . Pelo teorema de continuidade de Lévy, convergência de f.c. implica convergência em distribuição.
Fontes
- OpenIntro Statistics (4.ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Fonte primária do trimestre.
- OpenStax — Statistics — Illowsky, Dean · CC-BY · Exercícios de aplicação contextualizada.
- Grinstead & Snell — Introduction to Probability — GNU FDL · Rigor teórico para v.a. discreta, LGN e TCL.