Statistiques Descriptives et Introduction à R
Objectifs de la séance :
- Introduction à l’environnement R et RStudio ;
- Découverte et exploration des données géoscientifiques ;
- Calcul des statistiques descriptives ;
- Visualisation des données avec des graphiques simples.
Pré-requis pour la séance :
- Installation de R et RStudio ;
- Aucune connaissance préalable en programmation requise.
Commandes importances :
- Commentaire :
#
. Cette commande vous permettra notamment (comme son nom l’indique) d’ajouter des commentaires à vos codes pour mieux comprendre vos scripts, mais aussi d’ignorer une ligne de codes sans la supprimer. - Création/Affectation de variables :
nom <- 10
ounom = 10
- Afficher des résultats :
print()
# ceci est un commentaire
# b <- 3 # cette ligne est commentée car elle n'est pas utile pour la suite du script
a = 2 # on associe la valeur 2 à la variable `a`
print(a) # on affiche la valeur associée à la variable `a`
## [1] 2
Si vous utilisez votre ordinateur personnel, utilisez RStudio. Si vous utilisez un ordinateur de la salle informatique, via horizon, utilisez R (R/R 4.3.3 dans le menu démarrer).
1. Introduction à R et RStudio
1.1. Dans un nouveau fichier .R, créez une variable représentant la profondeur moyenne d’un séisme. Pour l’instant, on considèrera que la profondeur moyenne est de 500. Affichez la variable après l’avoir créée.
2. Jeu de données synthétiques
Dans R, il existe plusieurs jeux de données synthétiques afin
d’implémenter et tester les méthodes statistiques. Pour cette séance,
vous - étudiants en Géosciences - allez utiliser le jeu
de données quakes
contenant des informations sur les
séismes près des îles Fidji (latitude, longitude, profondeur,
magnitude). En voici un aperçu :
lat | long | depth | mag | stations |
---|---|---|---|---|
-20.42 | 181.62 | 562 | 4.8 | 41 |
-20.62 | 181.03 | 650 | 4.2 | 15 |
-26.00 | 184.10 | 42 | 5.4 | 43 |
2.1. Pour charger les données quakes
, utilisez
la commande data()
dans votre fichier
.R
.
Le jeu de données quakes
contient 1000 enregistrements
de séismes. Chaque observation contient la latitude (lat
),
la longitude (long
), la profondeur en km
(depth
), la magnitude sur l’échelle de Richter
(mag
) et le nombre de stations ayant enregistré le séisme
(stations
).
2.2. Affichez dans la console, un aperçu du jeu de données
(un data.frame
sur R) via la commande
head()
.
2.3. Affichez dans la console, un résumé statistique des
données via la commande summary()
.
2.4. À partir de cela, saurez-vous identifier la profondeur minimale, maximale et moyenne ? Identifiez également la magnitude moyenne.
3. Statistiques descriptives approfondies
Sur R, il est possible de calculer (rapidement) les différentes
mesures de tendance, telles que la moyenne mean()
, la
médiane median()
, l’écart-type sd()
, la
variance var()
et les différents quartiles
quantile()
.
De plus, pour récupérer toutes les valeurs d’une colonne d’un jeu de
données, il suffit de taper la commande table$colonne
.
3.1. Calculer la moyenne et l’écart-type des profondeurs des séismes.
3.2. Calculer la médiane et la variance de la magnitude.
3.3. Calculer les quantiles de la profondeur des séismes.
3.4. Y’a-t-il une différence entre la moyenne et la médiane pour la profondeur ? Si oui, pourquoi sont-elles différentes ?
4. Visualisations de base
Pour visualiser la distribution des données, on utilise communément
les histogrammes hist()
et les boxplots
boxplot()
(ou boîte à moustaches en bon français).
Pour les deux questions suivantes, vous prendrez le soin de modifier
le titre main
, l’axe des abscisses xlab
et
l’axe des ordonnées ylab
à votre guise pour rendre les
graphiques plus lisibles.
4.1. Afficher l’histogramme de magnitude des séismes. Commentez.
4.2. Afficher le boxplot de profondeur des séismes. Commentez.
4.3. Quelle forme de distribution observe-t-on pour la profondeur et la magnitude ? La distribution est-elle symétrique ? Y a-t-il des valeurs aberrantes (outliers) ?
5. Interprétation des résultats
5.1. Que pouvez-vous dire de la répartition des profondeurs et des magnitudes sur la base des histogrammes et des boxplots ?
5.2. Quelle différence observez-vous entre la moyenne et la médiane pour les profondeurs et les magnitudes ? Pourquoi ?