Statistiques Bivariées avec R
Objectifs de la séance :
- Comprendre le concept de statistiques bivariées ;
- Étudier la relation entre deux variables quantitatives ;
- Utiliser R pour calculer et interpréter les corrélations, les ajustements statistiques et visualiser les données bivariées ;
- Analyser les résultats pour interpréter les phénomènes géoscientifiques.
Pré-requis pour la séance :
- La compréhension totale du TD1 (la partie “statistique” et la partie “programmation R”).
1. Rappels sur l’analyse univariée de données quantitatives
Pour cette partie, vous allez utiliser le jeu de données
rock
qui contient des mesures de 48 échantillons de roches
provenant d’un réservoir pétrolier. Ce jeu de données contient des
informations sur la perméabilité des roches, leur surface, leur
périmètre et leur forme.
area | peri | shape | perm |
---|---|---|---|
4990 | 2791.90 | 0.0903296 | 6.3 |
7002 | 3892.60 | 0.1486220 | 6.3 |
7558 | 3930.66 | 0.1833120 | 6.3 |
- La colonne
area
concerne la surface des pores (en nombre de pixels par rapport à la zone composée de \(256 \times 256\) pixels) ; - La colonne
peri
concerne le périmètre (en pixels) ; - La colonne
shape
concerne la forme \((\frac{perimeter}{\sqrt{area}})\) ; - La colonne
perm
concerne la perméabilité (exprimé en millidarcy).
Pour vérifier que vous avez bien assimilé le TD1, les exercices dans cette partie reprennent les mêmes analyses descriptives que durant le TD1, mais avec un jeu de données différent. Bien évidemment, comme pour le TD1, il en convient de charger en amont le jeu de données.
1.1. Combien y a-t-il d’observations dans ce jeu de données ? Pour combien de variables ? À déterminer via une commande R, évidemment.
Indication : Utilisez la fonction dim()
.
1.2. Calculer les médiane, moyenne, minimum, maximum et écart-types de surface, périmètre et perméabilité des roches.
1.3. Affichez un résumé des statistiques descriptives du jeu
de données rock
.
1.4. Affichez la distribution de la perméabilité des roches. Commentez.
2. Analyse bivariée de données quantitatives
Pour cette partie, vous allez reprendre le jeu de données
quakes
du TD précédent.
lat | long | depth | mag | stations |
---|---|---|---|---|
-20.42 | 181.62 | 562 | 4.8 | 41 |
-20.62 | 181.03 | 650 | 4.2 | 15 |
-26.00 | 184.10 | 42 | 5.4 | 43 |
2.1. À l’aide de la fonction cov()
, calculer la
covariance entre la magnitude (mag
) et la profondeur
(depth
). Que pouvez-vous en conclure ?
Rappel : La covariance entre deux variables \(X\) et \(Y\) est définie par :
\(\qquad\qquad\)Cov\((X,Y) = \frac{1}{n}\sum\limits_{i=1}^{n} (x_i -
\bar{x})(y_i - \bar{y})\).
2.2. Calculer la covariance entre la magnitude d’un séisme et le nombre de stations ayant enregistrées ce séisme. Que pouvez-vous en conclure ?
2.3. À partir de ces deux covariances calculées, quelles relations pouvez-vous établir concernant la magnitude d’un séisme par rapport à sa profondeur et au nombre de stations ayant enregistrées ce séisme ?
2.4. À l’aide de la fonction cor()
, calculer le
coefficient de corrélation de Pearson pour les couples
(mag
, depth
) et (mag
,
stations
). Que pouvez-vous en conclure ?
Rappel : Le coefficient de corrélation de Pearson est défini
par :
\(\qquad\qquad\rho(X, Y) = \rho(Y, X) =
\frac{\text{Cov}(X,Y)}{\sigma_{X} . \sigma_{Y}}\)
avec \(\bar{x}\) et \(\bar{y}\), la moyenne observée des
variables \(x\) et \(y\), respectivement.
Il est borné entre -1 et 1. Il s’agit d’une forme normalisée de la
covariance.
2.5. La méthode des moindres carrés ordinaire (MCO)
La méthode des moindres carrés ordinaire (en anglais, Ordinary Least Squares -OLS-) est une technique (parmi d’autres) d’ajustement statistique qui consiste à minimiser la somme des carrés des écarts entre les valeurs observées et les valeurs prédites par un modèle. Elle est souvent utilisée dans les modèles de régression, notamment la régression linéaire.
Principe : Supposons que nous avons un ensemble de données
sous la forme de \(n\) paires \((x_i, y_i)\), \(y_i\) est la variable à expliquer en
fonction de \(x_i\), la variable
explicative. À l’aide de la méthode des moindres carrés ordinaire, nous
allons chercher à ajuster une droite de la forme : \(y = ax + b\), où \(a\) est la pente de la droite et \(b\) est l’ordonnée à l’origine
(intercept).
Ainsi, la pente et l’ordonnée sont respectivement définies par :
\(\qquad\qquad a = \frac{\text{Cov}(X,Y)}{\sigma^2_X}\qquad\) avec \(\sigma^2_X\) la variance de \(X\)
\(\qquad\qquad b = \bar{Y} - \frac{\text{Cov}(X,Y)}{\sigma^2_X}\bar{X}\quad\) avec \(\bar{X}\) et \(\bar{Y}\), la moyenne observée des variables \(X\) et \(Y\), respectivement.
Pourquoi minimiser la somme des carrés des écarts ? En minimisant la somme des carrés des écarts, la méthode des MCO cherche à rendre les erreurs aussi petites que possible, tout en pénalisant les erreurs les plus importantes (d’où l’élévation au carré). Cela permet d’obtenir une solution unique pour les paramètres \(a\) et \(b\) et de garantir que la droite ajustée est optimale dans le sens des moindres carrés.
Attention, la méthode des moindres carrés ordinaire doit vérifier plusieurs hypothèses au préalable :
- Linéarité : La relation entre la variable dépendante et les variables indépendantes doit être linéaire.
- Indépendance des erreurs : Les erreurs doivent être indépendantes les unes des autres (pas d’autocorrélation).
- Homoscédasticité : La variance des erreurs doit être constante pour toutes les valeurs des variables indépendantes (pas de phénomène d’hétéroscédasticité).
- Normalité des erreurs : Les erreurs doivent suivre une distribution normale (surtout pour les tests d’hypothèse).
Ici, on supposera que ces hypothèses sont vérifiées.
2.5.1. À l’aide de la fonction lm()
, réalisez un
modèle de régression linéaire afin d’expliquer la magnitude d’un séisme
par le nombre de stations ayant enregistrées ce séisme.
Indication : Écrite telle quelle, la fonction
lm(Y ~ X, data=dataset)
réalise une régression linéaire
afin d’expliquer la variable Y
en fonction de la variable
explicative X
, avec X
et Y
, deux
variables (colonnes) du jeu de données dataset
. Pour faire
simple, lm(Y ~ X)
est la manière sur R de déterminer
l’équation \(y = f(x) = ax + b\).
2.5.2. À partir du résumé que vous afficherez, donnez l’équation de la droite. Commentez.
2.5.3. Déterminez le coefficient de détermination du modèle, ainsi que sa valeur ajustée. Commentez.
Le coefficient de détermination \((R^2)\) est une mesure indiquant la qualité du modèle de régression. Il est borné entre 0 et 1. Plus \(R^2\) tend vers 1, mieux le modèle est ajusté. En d’autres termes, plus \(R^2\) tend vers 1, mieux l’équation de droite reflète la tendance du jeu de données. Ce coefficient de détermination est défini par :
\(\qquad\qquad R^2 = 1 - \frac{\sum\limits_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}\qquad\) avec
- \(y_i\) la valeur observée au point \(x_i\) (la valeur que l’on retrouve dans le jeu de données au point \(x_i\)) ;
- \(\hat{y_i}\) la valeur estimée au point \(x_i\) (la valeur déterminée par l’équation de la droite au point \(x_i\)) ;
- \(\bar{y}\) la moyenne observée de la variable \(y\).
Il existe un calcul plus “juste” du coefficient de détermination : le coefficient de détermination ajusté \((R^2_{\text{ajusté}})\). Cette variante permet de prendre en compte le nombre de variable et de la taille de l’échantillon (jeu de données). Ce coefficient de détermination ajusté est défini par :
\(\qquad\qquad R^2_{\text{ajusté}} = 1 - \left(\frac{(1-R^2)\times(n-1)}{n-p-1}\right) \qquad\) avec
- \(n\) la taille de l’échantillon (jeu de données) ;
- \(p\) le nombre de variables explicatives intégrées dans le modèle.