Statistiques Univariées et Bivariées
Contenu :
Ce sujet de TD reprend le TD3 que vous avez réalisé précédemment. Il s’agit d’une version à faire sur papier. Pour cette séance, je vous laisse le choix entre :
- Réaliser ce TD sur papier ;
- Refaire les exercices que vous avez eus en CM depuis le début.
Présentation du jeu de données
Les données utilisées ici concernent les mesures météorologiques de Météo-France Nouvelle-Calédonie, réalisées en Janvier 2024.
poste | lat | lon | alt | pre | tem | hum | sea |
---|---|---|---|---|---|---|---|
BELEP AEROD. | -19.71983 | 163.6610 | 88 | 110.9 | 28.3 | 79 | 1339 |
BOURAKE | -21.94250 | 165.9998 | 53 | 73.0 | 29.1 | 71 | 440 |
POE | -21.60800 | 165.3998 | 6 | 56.7 | 27.5 | 74 | 596 |
NAKUTAKOIN | -22.17117 | 166.4355 | 3 | 78.3 | 27.9 | 72 | 35 |
HOUAILOU P | -21.27833 | 165.6280 | 11 | 235.7 | 26.9 | 83 | 290 |
MOUE | -22.58983 | 167.4522 | 95 | 48.9 | 26.3 | 83 | 3027 |
KONE | -21.05133 | 164.8335 | 9 | 120.6 | 28.0 | 75 | 475 |
KOUMAC | -20.55867 | 164.2842 | 25 | 130.8 | 27.8 | 77 | 1056 |
OUANAHAM | -20.77767 | 167.2412 | 30 | 145.2 | 26.9 | 82 | 3777 |
LA ROCHE | -21.48150 | 168.0357 | 41 | 227.0 | 26.2 | 83 | 1910 |
GORO_USINE | -22.33950 | 166.9087 | 159 | 271.9 | 26.3 | 81 | 2151 |
NOUMEA | -22.27600 | 166.4528 | 69 | 24.4 | 28.7 | 70 | 875 |
MAGENTA | -22.26033 | 166.4737 | 3 | 26.7 | 28.2 | 73 | 116 |
OULOUP | -20.63917 | 166.5710 | 7 | 142.2 | 27.4 | 80 | 2469 |
LA TONTOUTA | -22.01733 | 166.2223 | 37 | 99.6 | 28.4 | 70 | 1616 |
POINGAM | -20.08117 | 164.0313 | 35 | 46.9 | 28.7 | 77 | 172 |
NEPOUI | -21.31817 | 165.0022 | 82 | 79.7 | 28.0 | 75 | 511 |
THIO | -21.61350 | 166.2378 | 3 | 84.0 | 26.6 | 78 | 23 |
RIVIERE BLANCHE | -22.13267 | 166.7263 | 171 | 295.1 | 26.0 | 82 | 13184 |
GORO_ANCIENNE_PEPINIERE | -22.26917 | 166.9675 | 298 | 331.8 | 25.1 | 87 | 4296 |
Avec :
poste
: Le nom de la station installéelat
: La latitude de la station installéelon
: La longitude de la station météorologiquealt
: L’altitude à laquelle la station est installée (en mm)pre
: Le cumul de précipitations mensuelles mesuré (en mm) en Janvier 2024tem
: La température moyenne mesurée (en °C) en Janvier 2024hum
: L’humidité moyenne mesurée (en %) en Janvier 2024sea
: La distance de la station par rapport à la mer (en m)
Pour cette période (Janvier 2024), 20 stations ont mesuré les variables météorologiques énoncées.
Analyse univariée
1.1. Statistiques descriptives
1.1.1. Déterminez les minimum, moyenne, médiane, maximum et variance des précipitations.
1.1.2. Faites de même sur l’humidité et la température.
1.2. Visualisation
1.2.1. Dessinez le boxplot de températures, puis de précipitations.
Analyse bi-variée
2.1. Covariance
2.1.1. Y a-t-il des variables indépendantes parmi les précipitations, températures et humidité ? Justifiez.
Rappel : Si \(X\) et \(Y\) sont indépendantes, alors Cov\((X,Y) = 0\). La réciproque n’est pas toujours vraie, mais sa contraposée oui : si Cov\((X,Y) \neq 0\), alors \(X\) et \(Y\) ne sont pas indépendantes.
2.2. Corrélation
2.2.1. Y a-t-il des variables fortement corrélées entre les précipitations, températures et humidité ?
2.3. Régression linéaire
2.3.1. Déterminez l’équation de la droite expliquant l’humidité en fonction des précipitations. Interprétez.
Rappel : Pour un ensemble de données sous la forme de \(n\) couples \((x_i, y_i)\), \(y_i\) est la variable à expliquer en
fonction de \(x_i\), la variable
explicative. Par la méthode des moindres carrés ordinaire, la droite
ajustée est de la forme : \(y = ax +
b\), où \(a\) est la pente de la
droite et \(b\) est l’ordonnée à
l’origine.
Ainsi, la pente et l’ordonnée sont respectivement définies par :
\(\qquad\qquad a = \frac{\text{Cov}(X,Y)}{\sigma^2_X}\qquad\) avec \(\sigma^2_X\) la variance de \(X\)
\(\qquad\qquad b = \bar{Y} - \frac{\text{Cov}(X,Y)}{\sigma^2_X}\bar{X}\quad\) avec \(\bar{X}\) et \(\bar{Y}\), la moyenne observée des variables \(X\) et \(Y\), respectivement.
2.3.2. Calculez le coefficient de détermination \(R^2\).
Rappel : Le coefficient de détermination est défini par :
\(\qquad\qquad R^2 = 1 - \frac{\sum\limits_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}\qquad\) avec
- \(y_i\) la valeur observée au point \(x_i\) (la valeur que l’on retrouve dans le jeu de données au point \(x_i\)) ;
- \(\hat{y_i}\) la valeur estimée au point \(x_i\) (la valeur déterminée par l’équation de la droite au point \(x_i\)) ;
- \(\bar{y}\) la moyenne observée de la variable \(y\).
2.3.3. L’équation est-elle parfaitement ajustée ? Que pouvez-vous en conclure ?