Statistiques Descriptives et Introduction à R

Objectifs de la séance :

Introduction à l’environnement R et RStudio ;
Découverte et exploration des données géoscientifiques ;
Calcul des statistiques descriptives ;
Visualisation des données avec des graphiques simples.

Pré-requis pour la séance :

Installation de R et RStudio ;
Aucune connaissance préalable en programmation requise.

Commandes importances :

Commentaire : #. Cette commande vous permettra notamment (comme son nom l’indique) d’ajouter des commentaires à vos codes pour mieux comprendre vos scripts, mais aussi d’ignorer une ligne de codes sans la supprimer.
Création/Affectation de variables : nom <- 10 ou nom = 10
Afficher des résultats : print()

# ceci est un commentaire
# b <- 3 # cette ligne est commentée car elle n'est pas utile pour la suite du script

a = 2 # on associe la valeur 2 à la variable `a`

print(a) # on affiche la valeur associée à la variable `a`

## [1] 2

Si vous utilisez votre ordinateur personnel, utilisez RStudio. Si vous utilisez un ordinateur de la salle informatique, via horizon, utilisez R (R/R 4.3.3 dans le menu démarrer).

1. Introduction à R et RStudio

1.1. Dans un nouveau fichier .R, créez une variable représentant la profondeur moyenne d’un séisme. Pour l’instant, on considèrera que la profondeur moyenne est de 500. Affichez la variable après l’avoir créée.

2. Jeu de données synthétiques

Dans R, il existe plusieurs jeux de données synthétiques afin d’implémenter et tester les méthodes statistiques. Pour cette séance, vous - étudiants en Géosciences - allez utiliser le jeu de données quakes contenant des informations sur les séismes près des îles Fidji (latitude, longitude, profondeur, magnitude). En voici un aperçu :

lat	long	depth	mag	stations
-20.42	181.62	562	4.8	41
-20.62	181.03	650	4.2	15
-26.00	184.10	42	5.4	43

2.1. Pour charger les données quakes, utilisez la commande data() dans votre fichier .R.

Le jeu de données quakes contient 1000 enregistrements de séismes. Chaque observation contient la latitude (lat), la longitude (long), la profondeur en km (depth), la magnitude sur l’échelle de Richter (mag) et le nombre de stations ayant enregistré le séisme (stations).

2.2. Affichez dans la console, un aperçu du jeu de données (un data.frame sur R) via la commande head().

2.3. Affichez dans la console, un résumé statistique des données via la commande summary().

2.4. À partir de cela, saurez-vous identifier la profondeur minimale, maximale et moyenne ? Identifiez également la magnitude moyenne.

3. Statistiques descriptives approfondies

Sur R, il est possible de calculer (rapidement) les différentes mesures de tendance, telles que la moyenne mean(), la médiane median(), l’écart-type sd(), la variance var()et les différents quartiles quantile().

De plus, pour récupérer toutes les valeurs d’une colonne d’un jeu de données, il suffit de taper la commande table$colonne.

3.1. Calculer la moyenne et l’écart-type des profondeurs des séismes.

3.2. Calculer la médiane et la variance de la magnitude.

3.3. Calculer les quantiles de la profondeur des séismes.

3.4. Y’a-t-il une différence entre la moyenne et la médiane pour la profondeur ? Si oui, pourquoi sont-elles différentes ?

4. Visualisations de base

Pour visualiser la distribution des données, on utilise communément les histogrammes hist() et les boxplots boxplot() (ou boîte à moustaches en bon français).

Pour les deux questions suivantes, vous prendrez le soin de modifier le titre main, l’axe des abscisses xlab et l’axe des ordonnées ylab à votre guise pour rendre les graphiques plus lisibles.

4.1. Afficher l’histogramme de magnitude des séismes. Commentez.

4.2. Afficher le boxplot de profondeur des séismes. Commentez.

4.3. Quelle forme de distribution observe-t-on pour la profondeur et la magnitude ? La distribution est-elle symétrique ? Y a-t-il des valeurs aberrantes (outliers) ?

5. Interprétation des résultats

5.1. Que pouvez-vous dire de la répartition des profondeurs et des magnitudes sur la base des histogrammes et des boxplots ?

5.2. Quelle différence observez-vous entre la moyenne et la médiane pour les profondeurs et les magnitudes ? Pourquoi ?