Lição 110 — Consolidação Trim 11: Inferência Estatística
Workshop de síntese do trim 11: IC para média, testes z e t, ANOVA, qui-quadrado, regressão simples e múltipla, e inferência bayesiana — todos os pilares da estatística inferencial em um mapa integrado.
Used in: 3.º ano do EM / Stochastik LK alemão · Math B japonês (Estatística) · H2 Mathematics (Singapura) — Statistics
O trim 11 em três equações: intervalo de confiança para estimar, estatística para testar, e regra de Bayes para atualizar crenças. Toda inferência estatística é variação dessas três formas.
Rigorous notation, full derivation, hypotheses
Síntese formal do trim 11
Os três pilares da inferência estatística
"Um intervalo de confiança fornece uma faixa plausível de valores para o parâmetro da população. A interpretação correta: se repetirmos o procedimento muitas vezes, dos intervalos construídos conterão o verdadeiro parâmetro." — OpenIntro Statistics §5.2
Fluxo de decisão do trim 11 — cada pergunta estatística tem seu método.
Exemplos resolvidos
Exercise list
42 exercises · 10 with worked solution (25%)
- Ex. 110.1Application
, , (conhecido). Construa o IC 95% para .
Show solution
IC 95%: . Intervalo: .Show step-by-step (with the why)
- Identifique: , , (conhecido). Por quê: conhecido → usa-se , não .
- Valor crítico: .
- Margem: .
- IC: .
Macete: com , — cálculo mental rápido.
- Ex. 110.2Application
Com os dados do exercício anterior (, , ), teste vs ao nível 5%. Calcule e decida.
Show solution
Com os mesmos dados (, , ): . p-valor bilateral . Rejeita-se ao nível 5%. - Ex. 110.3ApplicationAnswer key
Duas amostras independentes: , , ; , , . Execute o teste Welch bilateral ao nível 5%.
Show solution
Welch: . Com graus de liberdade de Welch , p-valor . Rejeita-se . - Ex. 110.4Application
Três grupos com plantas cada, médias , , . Supondo (variância intra-grupos), calcule da ANOVA e decida ao nível 5%.
Show solution
. . Se então . . Rejeita-se .Show step-by-step (with the why)
- Média geral: .
- . Por quê: plantas por grupo.
- .
- . Rejeita fortemente.
Observação: Com e , o p-valor é minúsculo — efeito enorme.
- Ex. 110.5ApplicationAnswer key
Modelo ajustado: . Qual é a predição pontual para ?
Show solution
. - Ex. 110.6ApplicationAnswer key
, , preditores. Calcule .
Show solution
. - Ex. 110.7Application
Uma tabela de contingência produziu . Quantos graus de liberdade? Há associação ao nível 5%?
Show solution
Tabela : . . Como , rejeita-se a hipótese de independência. - Ex. 110.8Application
Prior . Observa-se sucessos em ensaios. Qual é a distribuição posterior de ?
Show solution
Prior: . Likelihood: , . Posterior: . - Ex. 110.9Application
Com a posterior do exercício anterior, calcule a média posterior e o MAP (moda da distribuição posterior).
Show solution
Posterior : média . Estimativa pontual MAP = moda = . - Ex. 110.10ApplicationAnswer key
Localize na tabela da distribuição normal padrão: qual é ? (Resp: .)
Show solution
. Valor crítico bilateral para IC 95%. - Ex. 110.11Application
Localize na tabela : . (Resp: .)
Show solution
. Distribuição com 19 graus de liberdade, área bilateral 5%. - Ex. 110.12ApplicationAnswer key
Localize na tabela F. (Resp: .)
Show solution
. Valor crítico ANOVA com grupos e graus de liberdade do erro. - Ex. 110.13Application
Localize . (Resp: .)
Show solution
. - Ex. 110.14Understanding
Qual teste é apropriado para comparar o salário médio de homens e mulheres em uma empresa, com amostras independentes e variâncias desconhecidas?
Show solution
Duas médias independentes e contínuas, com desvios desconhecidos: o método correto é o teste Welch t (C). Qui-quadrado é para categóricas; ANOVA serve 3+ grupos; teste de uma amostra compara com valor fixo. - Ex. 110.15Understanding
Pesquisa com 100 pessoas registra gênero (M/F) e partido preferido (A/B/C). Qual teste verifica associação entre as variáveis?
Show solution
Gênero e partido são duas variáveis categóricas — o teste adequado é o qui-quadrado de independência (B). ANOVA e teste exigem variável contínua; regressão linear prediz valores numéricos. - Ex. 110.16Understanding
Um estudo testa 4 dosagens de um medicamento (dose baixa, média, alta, placebo) na perda de peso (kg) em 20 pacientes por grupo. Qual o método de análise?
Show solution
Quatro dosagens (quatro grupos) e uma variável contínua (perda de peso): ANOVA de um fator (C). Welch serve apenas para 2 grupos; qui-quadrado não se aplica a variáveis contínuas. - Ex. 110.17Understanding
Mede-se o peso de 20 pessoas antes e depois de uma dieta de 3 meses. Os dados são pareados. Qual é o teste correto?
Show solution
Peso antes e depois na mesma pessoa: os dados são pareados. Aplica-se o teste t pareado (B), que analisa a diferença . - Ex. 110.18Application
Uma estatística foi obtida em um teste bilateral. Calcule o p-valor e decida ao nível .
Show solution
p-valor bilateral: . Rejeita-se ao nível 5%. - Ex. 110.19ApplicationAnswer key
Para um IC 95% com margem de erro e , qual é o tamanho mínimo de amostra?
Show solution
. Portanto .Show step-by-step (with the why)
- Fórmula: . Por quê: deriva do IC — isola na desigualdade .
- Substitua: .
- Arredonde para cima: . Macete: sempre arredondar para cima, nunca para baixo — garantir margem.
- Ex. 110.20Understanding
Cohen's . Qual é o tamanho do efeito segundo a convenção de Cohen?
Solve onlineStatistical Thinking for the 21st Century · Ch. 9 · classificação Cohen · p. online §9.3Show solution
Pela convenção de Cohen (1988): = pequeno; = médio (B); = grande. Distratores A e C mapeiam confusões comuns nos limiares. - Ex. 110.21Application
Uma tabela de contingência produziu Cramér's . Classifique o tamanho do efeito.
Show solution
Cramér's : efeito médio. Convenção: pequeno; médio; grande. - Ex. 110.22Application
Uma ANOVA produziu . Qual é o tamanho do efeito?
Show solution
: efeito médio. Convenção: pequeno; médio; grande (Cohen, 1988). - Ex. 110.23Understanding
. Que força de evidência a favor de isso representa, pela escala de Jeffreys?
Show solution
Pela escala de Jeffreys: indica evidência moderada a favor de (B). é fraco; é moderado; é forte. - Ex. 110.24Understanding
Em uma frase cada: qual é a diferença de interpretação entre um IC frequentista (95%) e um IC credível bayesiano (95%)?
Show solution
IC frequentista: afirmação sobre o procedimento — em 95% das amostras hipotéticas, o intervalo conterá . IC credível bayesiano: afirmação sobre o parâmetro — "com probabilidade 95%, " dados os dados observados. - Ex. 110.25Understanding
Distinga em uma frase: erro tipo I vs erro tipo II em um teste de hipótese.
Show solution
Erro tipo I: rejeitar verdadeira (falso positivo) — probabilidade . Erro tipo II: não rejeitar falsa (falso negativo) — probabilidade . - Ex. 110.26Understanding
Distinga: significância estatística vs significância prática. Por que um resultado pode ser estatisticamente significativo mas praticamente irrelevante?
Show solution
Significância estatística () indica que o efeito provavelmente não é zero. Significância prática avalia se o efeito é grande o suficiente para importar no mundo real — com grande, efeitos minúsculos são estatisticamente significativos mas praticamente irrelevantes. - Ex. 110.27UnderstandingAnswer key
Distinga: associação estatística vs causalidade. Por que regressão linear mede associação, não causa?
Show solution
Associação: as variáveis variam juntas (correlação, coeficiente ). Causalidade: mudança em produz mudança em . Regressão e correlação medem associação — inferência causal exige design experimental ou métodos específicos (variáveis instrumentais, RCT). - Ex. 110.28Understanding
Distinga: dados pareados vs amostras independentes. Dê um exemplo de cada.
Show solution
Dados pareados: as observações dos dois grupos são emparelhadas naturalmente (mesmo indivíduo antes/depois, gêmeos, etc.) — analisa-se a diferença . Amostras independentes: os grupos não têm correspondência entre observações — compara-se as médias diretamente. - Ex. 110.29Understanding
Distinga: vs em regressão múltipla. Por que o segundo é mais confiável para comparar modelos com número diferente de preditores?
Show solution
é a proporção da variância de explicada pelo modelo — aumenta (ou mantém) ao adicionar qualquer preditor. penaliza cada preditor extra adicionado: apenas sobe se o preditor melhora o ajuste além do esperado por acaso. - Ex. 110.30Understanding
Distinga: distribuição prior vs distribuição posterior na inferência bayesiana.
Show solution
Prior: distribuição de probabilidade sobre antes de ver os dados — codifica o conhecimento a priori. Posterior: distribuição atualizada após combinar prior com a verossimilhança dos dados via teorema de Bayes. - Ex. 110.31ModelingAnswer key
A/B testing: versão A obteve 80 conversões em 1000 visitantes; versão B obteve 110/1000. Aplique o teste z para proporções (frequentista) e estime bayesianamente com prior .
Show solution
Teste z para proporções: , , . . p-valor bilateral . Frequentista: rejeita . Bayesiano: vs — via simulação.Show step-by-step (with the why)
- Frequentista: calcule poolado, estatística , p-valor bilateral.
- Bayesiano: prior (não-informativo). Posterior A: ; posterior B: .
- Simule 100.000 pares e calcule . Observação: probabilidade de B superar A é mais direta para decisão de negócio do que o p-valor.
- Ex. 110.32Modeling
Ensaio clínico: droga reduz pressão. Para pacientes, a diferença pareada (antesdepois) tem mmHg e mmHg. Faça o teste pareado (unilateral: ) e construa o IC 95% para a redução média.
Show solution
Diferença = pressão após menos pressão antes; média mmHg. . . Rejeita . IC 95%: mmHg. - Ex. 110.33Modeling
Regressão de preço de imóvel: modelo com apenas tem (). Ao adicionar número de quartos, . Calcule para cada modelo e decida se o preditor extra é justificado.
Show solution
subiu de 0,70 para 0,78 ao adicionar quartos. (com e , ): 0,699 e 0,778. O incremento ajustado é substancial. A variável quartos contribui genuinamente. Vale a pena incluí-la, mas verificar VIF para colinearidade. - Ex. 110.34Modeling
Cinco dietas, 30 pessoas por grupo. Esboce o protocolo de análise completo: verificação de suposições, ANOVA, post-hoc e o que reportar.
Show solution
Verificar: Levene (homocedasticidade), Shapiro-Wilk por grupo. ANOVA: , . Se , Tukey HSD para comparações múltiplas. Reportar: , , p-valor, e quais pares diferem com IC 95% para as diferenças. - Ex. 110.35ModelingAnswer key
Pesquisa eleitoral: 4 regiões (Norte, Nordeste, Sudeste, Sul) 3 candidatos. Tabela de contingência com . Calcule os graus de liberdade, execute o , Cramér's , e identifique as células com maior resíduo padronizado.
Show solution
Tabela : . Calcule com . Cramér's . Resíduos padronizados: identificam células que mais contribuem para a associação. - Ex. 110.36Understanding
Justifique por que não constitui evidência de que é verdadeira.
Show solution
significa: "se fosse verdadeira, haveria 6% de chance de obter este resultado ou mais extremo". Isso não é evidência de — a falta de rejeição pode dever-se a tamanho de amostra insuficiente (baixo poder). A ausência de evidência não é evidência de ausência. - Ex. 110.37Proof
Demonstre que a regressão linear simples com uma variável dummy binária (0/1 indicando grupo) produz exatamente o mesmo resultado que o teste de duas amostras independentes (variâncias iguais).
Show solution
Seja dummy: (grupo 1) ou (grupo 2). Mínimos quadrados: , . Estatística do coeficiente: . Com (variâncias iguais), isso é exatamente o teste de duas amostras. - Ex. 110.38Proof
Demonstre que, quando a ANOVA tem apenas grupos, a estatística é igual ao quadrado da estatística do teste bilateral. Explicite os graus de liberdade.
Show solution
ANOVA com grupos: . (1 df). . Expandindo: . Portanto . - Ex. 110.39ProofAnswer key
Mostre que o estimador MAP com prior uniforme é identicamente igual ao estimador de máxima verossimilhança (MLE). Parta da definição de MAP.
Show solution
MAP: . Com prior uniforme (constante), não depende de . Então . - Ex. 110.40Challenge
Descreva, em pseudocódigo ou lista estruturada, um pipeline completo de análise A/B testing para uma taxa de conversão de e-commerce: desde a power analysis (efeito mínimo detectável de 2 p.p., , potência 80%) até o relatório final com todos os elementos que um revisor estatístico exigiria.
Show solution
Power analysis: dado (diferença mínima relevante), , e potência 80%, calcule . Pipeline completo: 1) power analysis → ; 2) coleta até com aleatorização; 3) teste z/t com IC; 4) tamanho de efeito; 5) relatório com todos os elementos; 6) diagnóstico e limitações. - Ex. 110.41Challenge
Compare em texto detalhado (ao menos 200 palavras) quando preferir abordagem frequentista vs bayesiana em A/B testing online. Considere: interpretabilidade, tomada de decisão sequencial, incorporação de priors, e garantias de erro.
Show solution
Frequentista: controla taxa de erro tipo I a longo prazo; adequado quando o analista não tem prior informativo e quer garantias de false positive rate. Bayesiano: fornece diretamente — mais natural para decisão sequencial (pode parar no interim), incorpora conhecimento prévio e não exige definição de fixo a priori. Em A/B online, Bayes é preferível pela tomada de decisão sequencial e pela interpretabilidade para stakeholders não-estatísticos. - Ex. 110.42Proof
Demonstre por integração (ou por identificação do núcleo) que se e , então .
Show solution
Prior: . Verossimilhança: . Posterior: — núcleo de . A constante de normalização é , confirmando a forma beta.Show step-by-step (with the why)
- Escreva o prior sem constante de normalização: .
- Escreva a verossimilhança binomial: . Por quê: o binomial não depende de , cai na proporcionalidade.
- Multiplique: .
- Reconheça o núcleo: isso é a função densidade de .
Curiosidade: a distribuição Beta é chamada conjugada da binomial exatamente porque o prior e o posterior têm a mesma família — a atualização é só somar expoentes.
Fontes
- OpenIntro Statistics (4ª ed) — Diez, Çetinkaya-Rundel, Barr · 2019 · CC-BY-SA. Fonte primária para IC, testes, ANOVA, qui-quadrado e regressão (§5–9).
- Statistics (OpenStax) — Illowsky, Dean · CC-BY. Fonte para exemplos práticos de IC, testes e , tabelas de distribuição (§8–13).
- Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Fonte para inferência bayesiana, tamanho de efeito, reprodutibilidade e crise de replicação (Ch. 9, 15).