Statistiques Univariées et Bivariées
Contenu :
Ce sujet de TD reprend le TD3 que vous avez réalisé précédemment. Il s’agit d’une version à faire sur papier. Pour cette séance, je vous laisse le choix entre :
- Réaliser ce TD sur papier ;
- Refaire les exercices que vous avez eus en CM depuis le début.
Présentation du jeu de données
Les données utilisées ici concernent les mesures météorologiques de Météo-France Nouvelle-Calédonie, réalisées en Janvier 2024.
poste | lat | lon | alt | pre | tem | hum | sea |
---|---|---|---|---|---|---|---|
BELEP AEROD. | -19.71983 | 163.6610 | 88 | 110.9 | 28.3 | 79 | 1339 |
BOURAKE | -21.94250 | 165.9998 | 53 | 73.0 | 29.1 | 71 | 440 |
POE | -21.60800 | 165.3998 | 6 | 56.7 | 27.5 | 74 | 596 |
NAKUTAKOIN | -22.17117 | 166.4355 | 3 | 78.3 | 27.9 | 72 | 35 |
HOUAILOU P | -21.27833 | 165.6280 | 11 | 235.7 | 26.9 | 83 | 290 |
MOUE | -22.58983 | 167.4522 | 95 | 48.9 | 26.3 | 83 | 3027 |
KONE | -21.05133 | 164.8335 | 9 | 120.6 | 28.0 | 75 | 475 |
KOUMAC | -20.55867 | 164.2842 | 25 | 130.8 | 27.8 | 77 | 1056 |
OUANAHAM | -20.77767 | 167.2412 | 30 | 145.2 | 26.9 | 82 | 3777 |
LA ROCHE | -21.48150 | 168.0357 | 41 | 227.0 | 26.2 | 83 | 1910 |
GORO_USINE | -22.33950 | 166.9087 | 159 | 271.9 | 26.3 | 81 | 2151 |
NOUMEA | -22.27600 | 166.4528 | 69 | 24.4 | 28.7 | 70 | 875 |
MAGENTA | -22.26033 | 166.4737 | 3 | 26.7 | 28.2 | 73 | 116 |
OULOUP | -20.63917 | 166.5710 | 7 | 142.2 | 27.4 | 80 | 2469 |
LA TONTOUTA | -22.01733 | 166.2223 | 37 | 99.6 | 28.4 | 70 | 1616 |
POINGAM | -20.08117 | 164.0313 | 35 | 46.9 | 28.7 | 77 | 172 |
NEPOUI | -21.31817 | 165.0022 | 82 | 79.7 | 28.0 | 75 | 511 |
THIO | -21.61350 | 166.2378 | 3 | 84.0 | 26.6 | 78 | 23 |
RIVIERE BLANCHE | -22.13267 | 166.7263 | 171 | 295.1 | 26.0 | 82 | 13184 |
GORO_ANCIENNE_PEPINIERE | -22.26917 | 166.9675 | 298 | 331.8 | 25.1 | 87 | 4296 |
Avec :
poste
: Le nom de la station installéelat
: La latitude de la station installéelon
: La longitude de la station météorologiquealt
: L’altitude à laquelle la station est installée (en mm)pre
: Le cumul de précipitations mensuelles mesuré (en mm) en Janvier 2024tem
: La température moyenne mesurée (en °C) en Janvier 2024hum
: L’humidité moyenne mesurée (en %) en Janvier 2024sea
: La distance de la station par rapport à la mer (en m)
Pour cette période (Janvier 2024), 20 stations ont mesuré les variables météorologiques énoncées.
Analyse univariée
1.1. Statistiques descriptives
1.1.1. Déterminez les minimum, moyenne, médiane, maximum et variance des précipitations.
1.1.2. Faites de même sur l’humidité et la température.
Humidité :
Température :
1.2. Visualisation
1.2.1. Dessinez le boxplot de températures, puis de précipitations.
Analyse bi-variée
2.1. Covariance
2.1.1. Y a-t-il des variables indépendantes parmi les précipitations, températures et humidité ? Justifiez.
Pour la température () et l’humidité (), nous avons :
Il n’y a aucune variable indépendante puisque
toutes les covariances sont différentes de 0.
Rappel : Si et sont indépendantes, alors Cov. La réciproque n’est pas toujours vraie, mais sa contraposée oui : si Cov, alors et ne sont pas indépendantes.
2.2. Corrélation
2.2.1. Y a-t-il des variables fortement corrélées entre les précipitations, températures et humidité ?
Le coefficient de détermination est donné par :
Pour la température et l’humidité, on a :
À partir de ce jeu de données météorologiques, la température et l’humidité resultent d’une corrélation négative forte de -85.67%.
Nous observons que les trois variables (précipitations, températures et humidité) sont fortement corrélées deux à deux, puisque toutes les corrélations sont relativement proches de 1 (ou -1), mais le couple (humidité, température) demeure le plus corrélé puisque leur corrélation est de -85.67%.
2.3. Régression linéaire
2.3.1. Déterminez l’équation de la droite expliquant l’humidité en fonction des précipitations. Interprétez.
Rappel : Pour un ensemble de données sous la forme de couples , est la variable à expliquer en
fonction de , la variable
explicative. Par la méthode des moindres carrés ordinaire, la droite
ajustée est de la forme : , où est la pente de la
droite et est l’ordonnée à
l’origine.
Ainsi, la pente et l’ordonnée sont respectivement définies par :
avec la variance de
avec et , la moyenne observée des variables et , respectivement.
La droite estimée qui explique l’humidité () en fonction des précipitations () est ainsi donnée par l’équation
suivante : .
Avec une pente positive de 0.03993878, l’équation nous montre que
lorsque les précipitations augmentent de 1 mm, l’humidité
augmente de 0.03993878 point.
2.3.2. Calculez le coefficient de détermination .
Rappel : Le coefficient de détermination est défini par :
avec
- la valeur observée au point (la valeur que l’on retrouve dans le jeu de données au point ) ;
- la valeur estimée au point (la valeur déterminée par l’équation de la droite au point ) ;
- la moyenne observée de la variable .
Soit .
Le coefficient de détermination est donc donné par .
Avec , on a
2.3.3. L’équation est-elle parfaitement ajustée ? Que pouvez-vous en conclure ?
L’équation n’est pas parfaitement ajustée puisque
son coefficient de détermination est de 54,54%. Cela peut être en
raison de deux causes :
- Il n’y a pas assez de mesures permettant de prouver que les précipitations causent une hausse de l’humidité.
- À elle seule, la précipitation n’est pas la seule cause d’une variation de l’humidité.