Lição 104 — Teste z e teste t de Student
Teste z para média com sigma conhecido. Teste t de Student: uma amostra, duas amostras independentes (Welch e pooled), e pareado. Condições de aplicação e escolha do teste adequado.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense
O teste t de Student substitui o desvio padrão populacional desconhecido pelo desvio amostral , pagando o preço com caudas mais pesadas (distribuição ). Para duas amostras independentes, usa-se Welch (variâncias diferentes) ou pooled (variâncias iguais). Para pares, opera-se sobre as diferenças.
Rigorous notation, full derivation, hypotheses
Definição rigorosa
Teste z — sigma conhecido
Teste t — uma amostra
"A distribuição t de Student é apropriada quando usamos o desvio padrão amostral em lugar de . As caudas mais pesadas refletem a incerteza adicional de estimar ." — OpenIntro Statistics, §5.3
Teste t — duas amostras independentes
Teste t pareado
Árvore de decisão para escolha do teste. Use Welch por padrão para duas amostras independentes.
Exemplos resolvidos
Exercise list
20 exercises · 5 with worked solution (25%)
- Ex. 104.1Application
, . Dados: , , . Estatística t e conclusão com .
Show solution
. Valor crítico bilateral: . Como , não rejeitamos . p-valor . - Ex. 104.2Application
, . Dados: , , . Calcule e o p-valor. Conclusão com .
Show solution
. Unilateral à esquerda: . Como , não rejeitamos . - Ex. 104.3Application
Pressão arterial de 10 pacientes antes e depois de dieta. Diferenças: 2, 3, 1, 4, 2, 3, 1, 2, 3, 1 mmHg. , . Ao nível 5%, a dieta reduziu a pressão?
Show solution
, . . Rejeitamos : melhora significativa após intervenção.Show step-by-step (with the why)
- Diferenças : 2, 3, 1, 4, 2, 3, 1, 2, 3, 1.
- .
- . . .
- .
- Valor crítico: . Como , rejeitamos .
- Macete: O teste pareado com 10 pares tem , como um teste de uma amostra com — as diferenças são tratadas como dados únicos.
- Ex. 104.4Application
Grupo A: , , . Grupo B: , , . Welch t bilateral ao nível 5%.
Show solution
. . . Valor crítico bilateral: . Como , rejeitamos . As notas diferem significativamente. - Ex. 104.5Understanding
Você quer comparar salários médios entre dois departamentos de uma empresa, com variâncias possivelmente diferentes. Qual a melhor estratégia?
Show solution
O Welch t é recomendado por padrão porque: (1) é robusto quando as variâncias diferem; (2) perde muito pouco poder quando as variâncias são iguais. O pré-teste F de igualdade de variâncias não é recomendado pois introduz erro adicional no controle do nível global. - Ex. 104.6Application
QI médio da população: , (conhecido). Uma turma de tem . Ao nível 5%, a turma tem QI médio diferente da população?
Show solution
. p-valor bilateral: . Não rejeitamos : sem evidência de que a turma difere da população. - Ex. 104.7ApplicationAnswer key
Tempo de reação (ms) de 10 motoristas antes e depois de uma xícara de café. Diferenças: 2, -1, 3, 1, 2, 0, 1, 2, -1, 2. Ao nível 5%, o café alterou o tempo de reação?
Show solution
Diferenças: 2, -1, 3, 1, 2, 0, 1, 2, -1, 2. . . . . . Como , rejeitamos . - Ex. 104.8ApplicationAnswer key
Grupo 1: , , . Grupo 2: , , . Use pooled t bilateral ao nível 5% (assumindo variâncias iguais).
Show solution
. . . . Valor crítico: . Rejeitamos marginalmente. - Ex. 104.9UnderstandingAnswer key
Um médico mede a pressão de 20 pacientes antes e depois de um tratamento. Qual teste é mais adequado?
Show solution
Os mesmos pacientes são medidos em dois momentos — as observações são dependentes (um paciente com pressão alta antes tende a ter pressão alta depois). O teste pareado é mais poderoso porque elimina a variabilidade entre pacientes, focando na variabilidade das diferenças. - Ex. 104.10Application
Horas de estudo de universitários: h/dia, h. . Bilateral ao nível 5%.
Show solution
. p-valor . Não rejeitamos : evidência insuficiente de que o sono difere de 5 h.Show step-by-step (with the why)
- Hipóteses: h, h. .
- Estatística: .
- Valor crítico: . Como , não rejeitamos .
- p-valor: . Coerente.
- Observação: O resultado está próximo da fronteira. Com , o mesmo efeito daria e — a diferença entre "não significativo" e "significativo" frequentemente é tamanho amostral.
- Ex. 104.11Application
Moeda jogada 100 vezes: 52 caras. Ao nível 5%, a moeda é justa? (Use teste z para proporção com .)
Show solution
. p-valor bilateral: . Não rejeitamos . Os dados são consistentes com a moeda justa. - Ex. 104.12Application
Turmas A e B: , , ; , , . Welch t ao nível 5%.
Show solution
. . . . Rejeitamos : as médias diferem. - Ex. 104.13Understanding
Qual a relação entre o teste z e o teste t para amostras grandes?
Show solution
Para grande, . Os quantis convergem: . Para , — diferença de 1%. Ambos os testes exigem dados aproximadamente normais ou grande pelo TCL. - Ex. 104.14ApplicationAnswer key
Velocidade de digitação (wpm) de 10 alunos antes e depois de curso: antes [40, 35, 50, 45, 38, 42, 47, 36, 44, 41], depois [45, 38, 57, 47, 42, 48, 48, 39, 49, 45]. Ao nível 5%, o curso melhorou a velocidade?
Show solution
Diferenças (pós-pré): 5, 3, 7, 2, 4, 6, 1, 3, 5, 4. . . . . . . . Rejeitamos . - Ex. 104.15ApplicationAnswer key
Uma linha de produção deve encher frascos com 200 mL. Amostra de : mL, mL. Ao nível 5%, o processo está desregulado?
Show solution
. Bilateral, : p-valor . Não rejeitamos . Processo está sob controle. - Ex. 104.16Modeling
Uma escola aplicou programa de reforço em Matemática. Pontuação de 10 alunos no SAEB antes: [60, 55, 70, 65, 58, 62, 67, 56, 64, 61]. Depois: [75, 63, 82, 85, 63, 72, 85, 63, 76, 74]. Use o teste adequado ao nível 5%.
Show solution
Pareado: os alunos são os mesmos, medidos antes e depois. Diferenças: 15, 8, 12, 20, 5, 10, 18, 7, 12, 13. . . . . . . Rejeitamos . - Ex. 104.17Modeling
Uma rede de escolas testou uma nova metodologia de ensino. Escola controle (): pontos, . Escola piloto (): , . Ao nível 1%, a metodologia melhorou os resultados? Calcule também o tamanho de efeito.
Show solution
Comparação de dois grupos independentes. Welch t: . . . p-valor . Rejeitamos : a nova metodologia aparenta melhorar o desempenho. Tamanho de efeito — efeito médio. - Ex. 104.18Modeling
Temperatura de um processo industrial: °C, °C. Calcule o teste z bilateral para °C com e depois com . Compare os p-valores e discuta a diferença entre significância estatística e prática.
Show solution
Teste z bilateral: . p-valor . Não rejeitamos . Mas com : . p-valor . Rejeita com certeza. A mesma diferença de 1°C passa a ser "altamente significativa" — mas a relevância prática depende se 1°C importa para o processo. - Ex. 104.19Challenge
Mostre algebricamente que o teste pareado tem menor erro padrão que o Welch t (para o mesmo por grupo), quando a correlação entre pares é positiva. Quanto menor é o erro padrão para e ?
Show solution
Para o pareado: , onde . Para o Welch independente: . Razão: . Para , a razão é menor que 1: o pareado tem erro padrão menor e portanto maior poder. Para : . Com : redução de 45% no SE. - Ex. 104.20Proof
Derive a fórmula de Welch-Satterthwaite para os graus de liberdade efetivos do teste de Welch. Verifique que para e , a fórmula reduz a , coincidindo com o pooled t.
Show solution
Derivação da fórmula de Welch-Satterthwaite: seja . Cada componente . A distribuição de não é qui-quadrado exata quando . A aproximação de Satterthwaite iguala os dois primeiros momentos de a uma distribuição qui-quadrado escalonada: . Para e : , recuperando o resultado do pooled t.
Fontes
- OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §5.3–5.4 (teste t de uma amostra, Welch, pareado; condições de aplicação).
- Statistics (OpenStax) — Illowsky, Dean · CC-BY. Seções §9.5–9.6 e §10.1–10.4 (testes z e t, duas amostras independentes e pareadas).
- Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulo 12 (testes de comparação de grupos, simulação, perspectiva moderna).