Lição 78 — Correlação e regressão linear simples
Coeficiente de Pearson r, covariância, reta de mínimos quadrados, coeficiente de determinação r². Correlação não é causalidade — o teorema de Anscombe, o quarteto que todo cientista deve conhecer.
Used in: 2.º ano do EM (16-17 anos) · Stochastik LK alemão §12 · H2 Math singapurense §19 · AP Statistics USA §3
Rigorous notation, full derivation, hypotheses
Définitions et propriétés rigoureuses
Covariance
"La covariance est une mesure de la variabilité conjointe de deux variables aléatoires. Si les valeurs plus grandes d'une variable correspondent principalement avec les valeurs plus grandes de l'autre variable, et de même pour les valeurs plus petites, la covariance est positive." — OpenStax Statistics, §12.1
Coefficient de corrélation de Pearson
Quatre diagrammes de dispersion avec différentes valeurs de r. Le nuage de points se concentre davantage autour d'une droite quand |r| est proche de 1.
Droite des moindres carrés (OLS)
Coefficient de détermination
Hypothèses LINE
Exemples résolus
Exercise list
32 exercises · 8 with worked solution (25%)
- Ex. 78.1ApplicationAnswer key
, . Calculez sans calculatrice et justifiez le résultat.
- Ex. 78.2Application
, . Calculez et identifiez le signe attendu avant le calcul.
- Ex. 78.3Application
, . Calculez et discutez si la relation est linéaire.
- Ex. 78.4ApplicationAnswer key
Si et , quelle est la relation entre et ? Justifiez par la définition.
- Ex. 78.5ApplicationAnswer key
Données avec paires : et . Calculez .
- Ex. 78.6ApplicationAnswer key
, . Calculez et la covariance .
- Ex. 78.7Application
, , , , . Trouvez la droite des moindres carrés.
- Ex. 78.8Application
En utilisant la droite de l'exercice 78.7 (), prédisez pour et pour .
- Ex. 78.9Application
Avec (exercice 78.7), calculez et interprétez en termes de variance expliquée.
- Ex. 78.10Application
En utilisant la droite de 78.7, calculez le résidu du point .
- Ex. 78.11Understanding
Que signifie ?
- Ex. 78.12Understanding
Les ventes de glace se corrèlent positivement avec les décès par noyade (). La meilleure explication est :
- Ex. 78.13Application
Avec , , , calculez les inclinaisons des deux droites de régression : en et en . Les droites coïncident-elles ?
- Ex. 78.14Application
Un modèle de régression explique 64 % de la variance des dépenses en fonction du revenu. Quel est ?
- Ex. 78.15Application
Si , quelle est la relation entre et ?
- Ex. 78.16Modeling
Relation taille () vs. poids () : cm, kg, cm, kg, . Équation de la droite et prédiction pour une personne de 175 cm.
- Ex. 78.17Modeling
Un chercheur a trouvé entre Indice de Perception de la Corruption et PIB par habitant dans 120 pays. Interprétez et discutez les limitations causales.
- Ex. 78.18Modeling
Un graphique de résidus vs. valeurs ajustées montre un motif en U (résidus d'abord négatifs, puis positifs). Qu'indique cela sur le modèle linéaire ?
- Ex. 78.19Application
, . Testez vs. au niveau 5 %.
- Ex. 78.20Application
, . Construisez un IC de 95 % pour en utilisant la transformation de Fisher.
- Ex. 78.21Modeling
Pour chaque paire, identifiez si c'est corrélation causale, factice, ou causalité inverse : (a) pluie et ventes de parapluies ; (b) nombre de policiers et criminalité par ville.
- Ex. 78.22ApplicationAnswer key
Interprétez dans une étude reliant années d'étude et salaire.
- Ex. 78.23Application
Expliquez le risque d'extrapoler la droite de régression pour les valeurs de hors de l'intervalle d'échantillonnage.
- Ex. 78.24Modeling
En finance, le "bêta" d'une action est le coefficient de régression du rendement de l'action sur le rendement du marché. Exprimez bêta en termes de , et .
- Ex. 78.25Modeling
Un distributeur d'énergie a des données mensuelles de température moyenne (°C) et consommation (MWh) des 5 dernières années. Décrivez le flux d'analyse de corrélation et régression pour prévoir consommation.
- Ex. 78.26Application
Les quatre ensembles d'Anscombe ont et même droite de régression. Pourquoi le modèle linéaire est adéquat pour l'ensemble I mais pas pour les trois autres ?
- Ex. 78.27ModelingAnswer key
Pourquoi la corrélation de Spearman est plus adéquate que Pearson pour données ordinales (ex. : satisfaction de 1 à 5) ou avec valeurs aberrantes ?
- Ex. 78.28Modeling
Différenciez confondeur, médiateur et modérateur dans une étude observationnelle.
- Ex. 78.29ChallengeAnswer key
paires ; ; SQT = 500. Calculez la Somme des Carrés des Résidus (SQR) et le RMSE.
- Ex. 78.30Challenge
Pourquoi ne décroît jamais quand on ajoute une variable au modèle, et comment ajusté résout ce problème ?
- Ex. 78.31Understanding
Quelle propriété définit la droite des moindres carrés (OLS) ?
- Ex. 78.32ProofAnswer key
Prouvez que en utilisant l'inégalité de Cauchy-Schwarz.
Fontes
- OpenStax Statistics — Illowsky, Dean · 2022 · CC-BY. Source primaire des exercices 78.1–2, 78.5–10, 78.14, 78.16, 78.19–20, 78.22–25, 78.29–31 et exemples 1–3, 5.
- OpenIntro Statistics (4.ª ed) — Diez, Çetinkaya-Rundel, Barr · 2019 · CC-BY-SA. Source des exercices 78.3, 78.9, 78.11–12, 78.17–18, 78.21, 78.23, 78.26–28, 78.32 et exemple 4.
- Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · Dartmouth · GNU FDL. Source des exercices 78.4, 78.13, 78.15 et preuve de |r| ≤ 1.