Statistiques Bivariées avec R

Objectifs de la séance :

Comprendre le concept de statistiques bivariées ;
Étudier la relation entre deux variables quantitatives ;
Utiliser R pour calculer et interpréter les corrélations, les ajustements statistiques et visualiser les données bivariées ;
Analyser les résultats pour interpréter les phénomènes géoscientifiques.

Pré-requis pour la séance :

La compréhension totale du TD1 (la partie “statistique” et la partie “programmation R”).

1. Rappels sur l’analyse univariée de données quantitatives

Pour cette partie, vous allez utiliser le jeu de données rock qui contient des mesures de 48 échantillons de roches provenant d’un réservoir pétrolier. Ce jeu de données contient des informations sur la perméabilité des roches, leur surface, leur périmètre et leur forme.

area	peri	shape	perm
4990	2791.90	0.0903296	6.3
7002	3892.60	0.1486220	6.3
7558	3930.66	0.1833120	6.3

La colonne area concerne la surface des pores (en nombre de pixels par rapport à la zone composée de \(256 \times 256\) pixels) ;
La colonne peri concerne le périmètre (en pixels) ;
La colonne shape concerne la forme \((\frac{perimeter}{\sqrt{area}})\) ;
La colonne perm concerne la perméabilité (exprimé en millidarcy).

Pour vérifier que vous avez bien assimilé le TD1, les exercices dans cette partie reprennent les mêmes analyses descriptives que durant le TD1, mais avec un jeu de données différent. Bien évidemment, comme pour le TD1, il en convient de charger en amont le jeu de données.

1.1. Combien y a-t-il d’observations dans ce jeu de données ? Pour combien de variables ? À déterminer via une commande R, évidemment.

Indication : Utilisez la fonction dim().

1.2. Calculer les médiane, moyenne, minimum, maximum et écart-types de surface, périmètre et perméabilité des roches.

1.3. Affichez un résumé des statistiques descriptives du jeu de données rock.

1.4. Affichez la distribution de la perméabilité des roches. Commentez.

2. Analyse bivariée de données quantitatives

Pour cette partie, vous allez reprendre le jeu de données quakes du TD précédent.

lat	long	depth	mag	stations
-20.42	181.62	562	4.8	41
-20.62	181.03	650	4.2	15
-26.00	184.10	42	5.4	43

2.1. À l’aide de la fonction cov(), calculer la covariance entre la magnitude (mag) et la profondeur (depth). Que pouvez-vous en conclure ?

Rappel : La covariance entre deux variables \(X\) et \(Y\) est définie par :
\(\qquad\qquad\)Cov\((X,Y) = \frac{1}{n}\sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\).

2.2. Calculer la covariance entre la magnitude d’un séisme et le nombre de stations ayant enregistrées ce séisme. Que pouvez-vous en conclure ?

2.3. À partir de ces deux covariances calculées, quelles relations pouvez-vous établir concernant la magnitude d’un séisme par rapport à sa profondeur et au nombre de stations ayant enregistrées ce séisme ?

2.4. À l’aide de la fonction cor(), calculer le coefficient de corrélation de Pearson pour les couples (mag, depth) et (mag, stations). Que pouvez-vous en conclure ?

Rappel : Le coefficient de corrélation de Pearson est défini par :
\(\qquad\qquad\rho(X, Y) = \rho(Y, X) = \frac{\text{Cov}(X,Y)}{\sigma_{X} . \sigma_{Y}}\)
avec \(\bar{x}\) et \(\bar{y}\), la moyenne observée des variables \(x\) et \(y\), respectivement.
Il est borné entre -1 et 1. Il s’agit d’une forme normalisée de la covariance.

2.5. La méthode des moindres carrés ordinaire (MCO)

La méthode des moindres carrés ordinaire (en anglais, Ordinary Least Squares -OLS-) est une technique (parmi d’autres) d’ajustement statistique qui consiste à minimiser la somme des carrés des écarts entre les valeurs observées et les valeurs prédites par un modèle. Elle est souvent utilisée dans les modèles de régression, notamment la régression linéaire.

Principe : Supposons que nous avons un ensemble de données sous la forme de \(n\) paires \((x_i, y_i)\), \(y_i\) est la variable à expliquer en fonction de \(x_i\), la variable explicative. À l’aide de la méthode des moindres carrés ordinaire, nous allons chercher à ajuster une droite de la forme : \(y = ax + b\), où \(a\) est la pente de la droite et \(b\) est l’ordonnée à l’origine (intercept).
Ainsi, la pente et l’ordonnée sont respectivement définies par :

\(\qquad\qquad a = \frac{\text{Cov}(X,Y)}{\sigma^2_X}\qquad\) avec \(\sigma^2_X\) la variance de \(X\)

\(\qquad\qquad b = \bar{Y} - \frac{\text{Cov}(X,Y)}{\sigma^2_X}\bar{X}\quad\) avec \(\bar{X}\) et \(\bar{Y}\), la moyenne observée des variables \(X\) et \(Y\), respectivement.

Pourquoi minimiser la somme des carrés des écarts ? En minimisant la somme des carrés des écarts, la méthode des MCO cherche à rendre les erreurs aussi petites que possible, tout en pénalisant les erreurs les plus importantes (d’où l’élévation au carré). Cela permet d’obtenir une solution unique pour les paramètres \(a\) et \(b\) et de garantir que la droite ajustée est optimale dans le sens des moindres carrés.

Attention, la méthode des moindres carrés ordinaire doit vérifier plusieurs hypothèses au préalable :

Linéarité : La relation entre la variable dépendante et les variables indépendantes doit être linéaire.
Indépendance des erreurs : Les erreurs doivent être indépendantes les unes des autres (pas d’autocorrélation).
Homoscédasticité : La variance des erreurs doit être constante pour toutes les valeurs des variables indépendantes (pas de phénomène d’hétéroscédasticité).
Normalité des erreurs : Les erreurs doivent suivre une distribution normale (surtout pour les tests d’hypothèse).

Ici, on supposera que ces hypothèses sont vérifiées.

2.5.1. À l’aide de la fonction lm(), réalisez un modèle de régression linéaire afin d’expliquer la magnitude d’un séisme par le nombre de stations ayant enregistrées ce séisme.

Indication : Écrite telle quelle, la fonction lm(Y ~ X, data=dataset) réalise une régression linéaire afin d’expliquer la variable Y en fonction de la variable explicative X, avec X et Y, deux variables (colonnes) du jeu de données dataset. Pour faire simple, lm(Y ~ X) est la manière sur R de déterminer l’équation \(y = f(x) = ax + b\).

2.5.2. À partir du résumé que vous afficherez, donnez l’équation de la droite. Commentez.

2.5.3. Déterminez le coefficient de détermination du modèle, ainsi que sa valeur ajustée. Commentez.

Le coefficient de détermination \((R^2)\) est une mesure indiquant la qualité du modèle de régression. Il est borné entre 0 et 1. Plus \(R^2\) tend vers 1, mieux le modèle est ajusté. En d’autres termes, plus \(R^2\) tend vers 1, mieux l’équation de droite reflète la tendance du jeu de données. Ce coefficient de détermination est défini par :

\(\qquad\qquad R^2 = 1 - \frac{\sum\limits_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}\qquad\) avec

\(y_i\) la valeur observée au point \(x_i\) (la valeur que l’on retrouve dans le jeu de données au point \(x_i\)) ;
\(\hat{y_i}\) la valeur estimée au point \(x_i\) (la valeur déterminée par l’équation de la droite au point \(x_i\)) ;
\(\bar{y}\) la moyenne observée de la variable \(y\).

Il existe un calcul plus “juste” du coefficient de détermination : le coefficient de détermination ajusté \((R^2_{\text{ajusté}})\). Cette variante permet de prendre en compte le nombre de variable et de la taille de l’échantillon (jeu de données). Ce coefficient de détermination ajusté est défini par :

\(\qquad\qquad R^2_{\text{ajusté}} = 1 - \left(\frac{(1-R^2)\times(n-1)}{n-p-1}\right) \qquad\) avec

\(n\) la taille de l’échantillon (jeu de données) ;
\(p\) le nombre de variables explicatives intégrées dans le modèle.

Statistiques Appliquées aux Géosciences

DEUST 1 Géosciences – Travaux Dirigés n°2

Statistiques Bivariées avec R

1. Rappels sur l’analyse univariée de données quantitatives

2. Analyse bivariée de données quantitatives

2.5. La méthode des moindres carrés ordinaire (MCO)