Statistiques Univariées et Bivariées

Contenu :

Ce sujet de TD reprend le TD3 que vous avez réalisé précédemment. Il s’agit d’une version à faire sur papier. Pour cette séance, je vous laisse le choix entre :

Présentation du jeu de données

Les données utilisées ici concernent les mesures météorologiques de Météo-France Nouvelle-Calédonie, réalisées en Janvier 2024.

poste lat lon alt pre tem hum sea
BELEP AEROD. -19.71983 163.6610 88 110.9 28.3 79 1339
BOURAKE -21.94250 165.9998 53 73.0 29.1 71 440
POE -21.60800 165.3998 6 56.7 27.5 74 596
NAKUTAKOIN -22.17117 166.4355 3 78.3 27.9 72 35
HOUAILOU P -21.27833 165.6280 11 235.7 26.9 83 290
MOUE -22.58983 167.4522 95 48.9 26.3 83 3027
KONE -21.05133 164.8335 9 120.6 28.0 75 475
KOUMAC -20.55867 164.2842 25 130.8 27.8 77 1056
OUANAHAM -20.77767 167.2412 30 145.2 26.9 82 3777
LA ROCHE -21.48150 168.0357 41 227.0 26.2 83 1910
GORO_USINE -22.33950 166.9087 159 271.9 26.3 81 2151
NOUMEA -22.27600 166.4528 69 24.4 28.7 70 875
MAGENTA -22.26033 166.4737 3 26.7 28.2 73 116
OULOUP -20.63917 166.5710 7 142.2 27.4 80 2469
LA TONTOUTA -22.01733 166.2223 37 99.6 28.4 70 1616
POINGAM -20.08117 164.0313 35 46.9 28.7 77 172
NEPOUI -21.31817 165.0022 82 79.7 28.0 75 511
THIO -21.61350 166.2378 3 84.0 26.6 78 23
RIVIERE BLANCHE -22.13267 166.7263 171 295.1 26.0 82 13184
GORO_ANCIENNE_PEPINIERE -22.26917 166.9675 298 331.8 25.1 87 4296

Avec :

  • poste : Le nom de la station installée
  • lat : La latitude de la station installée
  • lon : La longitude de la station météorologique
  • alt : L’altitude à laquelle la station est installée (en mm)
  • pre : Le cumul de précipitations mensuelles mesuré (en mm) en Janvier 2024
  • tem : La température moyenne mesurée (en °C) en Janvier 2024
  • hum : L’humidité moyenne mesurée (en %) en Janvier 2024
  • sea : La distance de la station par rapport à la mer (en m)

Pour cette période (Janvier 2024), 20 stations ont mesuré les variables météorologiques énoncées.

Analyse univariée

1.1. Statistiques descriptives

1.1.1. Déterminez les minimum, moyenne, médiane, maximum et variance des précipitations.

1.1.2. Faites de même sur l’humidité et la température.

1.2. Visualisation

1.2.1. Dessinez le boxplot de températures, puis de précipitations.


Analyse bi-variée

2.1. Covariance

2.1.1. Y a-t-il des variables indépendantes parmi les précipitations, températures et humidité ? Justifiez.

Rappel : Si \(X\) et \(Y\) sont indépendantes, alors Cov\((X,Y) = 0\). La réciproque n’est pas toujours vraie, mais sa contraposée oui : si Cov\((X,Y) \neq 0\), alors \(X\) et \(Y\) ne sont pas indépendantes.

2.2. Corrélation

2.2.1. Y a-t-il des variables fortement corrélées entre les précipitations, températures et humidité ?

2.3. Régression linéaire

2.3.1. Déterminez l’équation de la droite expliquant l’humidité en fonction des précipitations. Interprétez.

Rappel : Pour un ensemble de données sous la forme de \(n\) couples \((x_i, y_i)\), \(y_i\) est la variable à expliquer en fonction de \(x_i\), la variable explicative. Par la méthode des moindres carrés ordinaire, la droite ajustée est de la forme : \(y = ax + b\), où \(a\) est la pente de la droite et \(b\) est l’ordonnée à l’origine.
Ainsi, la pente et l’ordonnée sont respectivement définies par :

\(\qquad\qquad a = \frac{\text{Cov}(X,Y)}{\sigma^2_X}\qquad\) avec \(\sigma^2_X\) la variance de \(X\)

\(\qquad\qquad b = \bar{Y} - \frac{\text{Cov}(X,Y)}{\sigma^2_X}\bar{X}\quad\) avec \(\bar{X}\) et \(\bar{Y}\), la moyenne observée des variables \(X\) et \(Y\), respectivement.

2.3.2. Calculez le coefficient de détermination \(R^2\).

Rappel : Le coefficient de détermination est défini par :

\(\qquad\qquad R^2 = 1 - \frac{\sum\limits_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}\qquad\) avec

  • \(y_i\) la valeur observée au point \(x_i\) (la valeur que l’on retrouve dans le jeu de données au point \(x_i\)) ;
  • \(\hat{y_i}\) la valeur estimée au point \(x_i\) (la valeur déterminée par l’équation de la droite au point \(x_i\)) ;
  • \(\bar{y}\) la moyenne observée de la variable \(y\).

2.3.3. L’équation est-elle parfaitement ajustée ? Que pouvez-vous en conclure ?