Statistiques Appliquées aux Géosciences

DEUST 1 Géosciences – Travaux Dirigés n°4 (Correction)

Statistiques Univariées et Bivariées

Contenu :

Ce sujet de TD reprend le TD3 que vous avez réalisé précédemment. Il s’agit d’une version à faire sur papier. Pour cette séance, je vous laisse le choix entre :

  • Réaliser ce TD sur papier ;
  • Refaire les exercices que vous avez eus en CM depuis le début.

Présentation du jeu de données

Les données utilisées ici concernent les mesures météorologiques de Météo-France Nouvelle-Calédonie, réalisées en Janvier 2024.

poste lat lon alt pre tem hum sea
BELEP AEROD. -19.71983 163.6610 88 110.9 28.3 79 1339
BOURAKE -21.94250 165.9998 53 73.0 29.1 71 440
POE -21.60800 165.3998 6 56.7 27.5 74 596
NAKUTAKOIN -22.17117 166.4355 3 78.3 27.9 72 35
HOUAILOU P -21.27833 165.6280 11 235.7 26.9 83 290
MOUE -22.58983 167.4522 95 48.9 26.3 83 3027
KONE -21.05133 164.8335 9 120.6 28.0 75 475
KOUMAC -20.55867 164.2842 25 130.8 27.8 77 1056
OUANAHAM -20.77767 167.2412 30 145.2 26.9 82 3777
LA ROCHE -21.48150 168.0357 41 227.0 26.2 83 1910
GORO_USINE -22.33950 166.9087 159 271.9 26.3 81 2151
NOUMEA -22.27600 166.4528 69 24.4 28.7 70 875
MAGENTA -22.26033 166.4737 3 26.7 28.2 73 116
OULOUP -20.63917 166.5710 7 142.2 27.4 80 2469
LA TONTOUTA -22.01733 166.2223 37 99.6 28.4 70 1616
POINGAM -20.08117 164.0313 35 46.9 28.7 77 172
NEPOUI -21.31817 165.0022 82 79.7 28.0 75 511
THIO -21.61350 166.2378 3 84.0 26.6 78 23
RIVIERE BLANCHE -22.13267 166.7263 171 295.1 26.0 82 13184
GORO_ANCIENNE_PEPINIERE -22.26917 166.9675 298 331.8 25.1 87 4296

Avec :

  • poste : Le nom de la station installée
  • lat : La latitude de la station installée
  • lon : La longitude de la station météorologique
  • alt : L’altitude à laquelle la station est installée (en mm)
  • pre : Le cumul de précipitations mensuelles mesuré (en mm) en Janvier 2024
  • tem : La température moyenne mesurée (en °C) en Janvier 2024
  • hum : L’humidité moyenne mesurée (en %) en Janvier 2024
  • sea : La distance de la station par rapport à la mer (en m)

Pour cette période (Janvier 2024), 20 stations ont mesuré les variables météorologiques énoncées.

Analyse univariée

1.1. Statistiques descriptives

1.1.1. Déterminez les minimum, moyenne, médiane, maximum et variance des précipitations.

min(X)=24.4;max(X)=331.8\min(X) = 24.4 \:;\qquad \max(X) = 331.8

med(X)={X[n+12]si n est impairX[n2]+X[n+12]2si n est pair\text{med}(X) = \begin{cases} X\left[\frac{n+1}{2}\right] & \text{si $n$ est impair} \\ \frac{X\left[\frac{n}{2}\right] + X\left[\frac{n+1}{2}\right]}{2} & \text{si $n$ est pair} \end{cases}

med(X)=105.25\qquad\text{med}(X) = 105.25

xˉ=1ni=1nxi=110.9+73+56.7+78.3++84+295.1+331.820=131.47\bar{x} = \frac{1}{n} \sum\limits_{i = 1}^{n} x_i = \frac{110.9 + 73 + 56.7 + 78.3 + \cdots + 84 + 295.1 + 331.8}{20} = 131.47

σX2=1ni=1n(xixˉ)2=(110.9131.47)2+(73131.47)2++(295.1131.47)2+(331.8131.47)220=8508.364\sigma^2_X = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \bar{x})^2 = \frac{(110.9-131.47)^2 + (73-131.47)^2 + \cdots + (295.1-131.47)^2 + (331.8-131.47)^2}{20} = 8508.364

1.1.2. Faites de même sur l’humidité et la température.

Humidité :

min(X)=70;max(X)=87\min(X) = 70 \:;\qquad \max(X) = 87

med(X)=77.5\text{med}(X) = 77.5

μX=77.6;σX2=24.88421\mu_X = 77.6 \:;\qquad\quad\sigma^2_X = 24.88421

Température :

min(X)=25.1;max(X)=29.1\min(X) = 25.1 \:;\qquad \max(X) = 29.1

med(X)=27.65\text{med}(X) = 27.65

μX=27.41;σX2=1.163447\mu_X = 27.41 \:;\qquad\quad\sigma^2_X = 1.163447

1.2. Visualisation

1.2.1. Dessinez le boxplot de températures, puis de précipitations.


Analyse bi-variée

2.1. Covariance

2.1.1. Y a-t-il des variables indépendantes parmi les précipitations, températures et humidité ? Justifiez.

Cov(X,Y)=1ni=1n(xixˉ)(yiyˉ)\text{Cov}(X, Y) = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

Pour XX la température (Xˉ=27.415\bar{X} = 27.415) et YY l’humidité (Yˉ=77.6\bar{Y} = 77.6), nous avons :
Cov(X,Y)=(28.327.415)(7977.6)+(29.127.415)(7177.6)++(25.127.415)(8777.6)20=4.609474\text{Cov}(X,Y) = \frac{(28.3 - 27.415)(79 - 77.6) + (29.1 - 27.415)(71 - 77.6) + \dots + (25.1 - 27.415)(87 - 77.6)}{20} = -4.609474

Cov(preˊcipitations, tempeˊratures)=75.987947\text{Cov(précipitations, températures)} = -75.987947

Cov(preˊcipitations, humiditeˊ)=339.813684\text{Cov(précipitations, humidité)} = 339.813684

Il n’y a aucune variable indépendante puisque toutes les covariances sont différentes de 0.

Rappel : Si XX et YY sont indépendantes, alors Cov(X,Y)=0(X,Y) = 0. La réciproque n’est pas toujours vraie, mais sa contraposée oui : si Cov(X,Y)0(X,Y) \neq 0, alors XX et YY ne sont pas indépendantes.

2.2. Corrélation

2.2.1. Y a-t-il des variables fortement corrélées entre les précipitations, températures et humidité ?

Le coefficient de détermination est donné par : ρ(X,Y)=ρ(Y,X)=Cov(X,Y)σX.σY\rho(X, Y) = \rho(Y, X) = \frac{\text{Cov}(X,Y)}{\sigma_{X} . \sigma_{Y}}

Pour XX la température et YY l’humidité, on a :
ρ(X,Y)=Cov(X,Y)σXσY=4.6094741.163447×24.88421=0.8566749\rho(X,Y) = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{-4.609474}{\sqrt{1.163447} \times \sqrt{24.88421}} = -0.8566749

À partir de ce jeu de données météorologiques, la température et l’humidité resultent d’une corrélation négative forte de -85.67%.

ρ(preˊcipitations, humiditeˊ)=0.7385092\rho(\text{précipitations, humidité}) = 0.7385092

ρ(preˊcipitations, tempeˊratures)=0.7637449\rho(\text{précipitations, températures}) = -0.7637449

Nous observons que les trois variables (précipitations, températures et humidité) sont fortement corrélées deux à deux, puisque toutes les corrélations sont relativement proches de 1 (ou -1), mais le couple (humidité, température) demeure le plus corrélé puisque leur corrélation est de -85.67%.

2.3. Régression linéaire

2.3.1. Déterminez l’équation de la droite expliquant l’humidité en fonction des précipitations. Interprétez.

Rappel : Pour un ensemble de données sous la forme de nn couples (xi,yi)(x_i, y_i), yiy_i est la variable à expliquer en fonction de xix_i, la variable explicative. Par la méthode des moindres carrés ordinaire, la droite ajustée est de la forme : y=ax+by = ax + b, où aa est la pente de la droite et bb est l’ordonnée à l’origine.
Ainsi, la pente et l’ordonnée sont respectivement définies par :

a=Cov(X,Y)σX2\qquad\qquad a = \frac{\text{Cov}(X,Y)}{\sigma^2_X}\qquad avec σX2\sigma^2_X la variance de XX

b=YˉCov(X,Y)σX2Xˉ\qquad\qquad b = \bar{Y} - \frac{\text{Cov}(X,Y)}{\sigma^2_X}\bar{X}\quad avec Xˉ\bar{X} et Yˉ\bar{Y}, la moyenne observée des variables XX et YY, respectivement.

a=Cov(X,Y)σX2=339.81378508.364=0.03993878a = \frac{\text{Cov}(X,Y)}{\sigma^2_X} = \frac{339.8137}{8508.364} = 0.03993878

b=YˉCov(X,Y)σX2Xˉ=77.6339.81378508.364×131.47=72.34925b = \bar{Y} - \frac{\text{Cov}(X,Y)}{\sigma^2_X}\bar{X} = 77.6 - \frac{339.8137}{8508.364} \times 131.47 = 72.34925

La droite estimée qui explique l’humidité (yy) en fonction des précipitations (xx) est ainsi donnée par l’équation suivante : y=0.03993878x+72.34925y=0.03993878x + 72.34925.
Avec une pente positive de 0.03993878, l’équation nous montre que lorsque les précipitations augmentent de 1 mm, l’humidité augmente de 0.03993878 point.

2.3.2. Calculez le coefficient de détermination R2R^2.

Rappel : Le coefficient de détermination est défini par :

R2=1i=1n(yiyi^)2i=1n(yiyˉ)2\qquad\qquad R^2 = 1 - \frac{\sum\limits_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}\qquad avec

  • yiy_i la valeur observée au point xix_i (la valeur que l’on retrouve dans le jeu de données au point xix_i) ;
  • yi^\hat{y_i} la valeur estimée au point xix_i (la valeur déterminée par l’équation de la droite au point xix_i) ;
  • yˉ\bar{y} la moyenne observée de la variable yy.

Soit y^=f(x)=0.03993878x+72.34925\hat{y} = f(x) = 0.03993878x+72.34925.

Le coefficient de détermination est donc donné par R2=1i=1n(yiyi^)2i=1n(yiyˉ)2R^2 = 1 - \frac{\sum\limits_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}.

Avec yˉ=77.6\bar{y} = 77.6, on a R2=1(79f(110.9))2+(71f(73))2++(82f(26))2+(87f(25.1))2(7977.6)2+(7177.6)2++(8277.6)2+(8777.6)2=0.5453958R^2 = 1 - \frac{(79 - f(110.9))^2 + (71 - f(73))^2 + \dots + (82 - f(26))^2 + (87 - f(25.1))^2}{(79 - 77.6)^2 + (71 - 77.6)^2 + \dots + (82 - 77.6)^2 + (87 - 77.6)^2} = 0.5453958

2.3.3. L’équation est-elle parfaitement ajustée ? Que pouvez-vous en conclure ?

L’équation n’est pas parfaitement ajustée puisque son coefficient de détermination R2R^2 est de 54,54%. Cela peut être en raison de deux causes :

  • Il n’y a pas assez de mesures permettant de prouver que les précipitations causent une hausse de l’humidité.
  • À elle seule, la précipitation n’est pas la seule cause d’une variation de l’humidité.