5 Diagramme: Histogrammes

5.1 Avant-propos

Cette section présente comment construire un histogramme (histogram en anglais).

5.3 Simple examples

Whoa whoa whoa! Plus simple s’il vous plait!

Utilisons un jeu de données très simple :

5.3.1 Histogramme de base en R

L’avantage des histogrammes de base en R est qu’ils sont faciles à réaliser. En vérité, tout ce dont vous avez besoin pour afficher la donnée x est d’utiliser hist(x). Mais nous y ajoutons un petit peu de couleur pour le rendre plus présentable..

La documentation complete de hist() peut être trouver ici

5.3.2 Histogramme avec ggplot2

La version ggplot des histogramme est un peu plus compliquée en apparence, mais elle vous donnera plus de contrôle sur le résultat. Note : Comme montré ci-dessus, ggplot requière un dataframe en entrée. Donc si vous rencontrez une erreur du type “R doesn’t know what to do” comme ça :

ggplot dataframe error

ggplot dataframe error

vérifiez que vous utilisez des dataframes.

5.4 Théorie

De façon générale, un histogramme est une des nombreuses façon de représenter des données continues.

Un histogramme est claire et facile à faire. Les histogrammes sont relativement manifestes : ils présentent la distribution empirique de vos données dans un jeu d’intervalles donné. Les histogrammes peuvent être employés sur des données brutes pour avoir une idée de leur distribution sans réaliser de manipulations compliquées. Nous recommendons les histogrammes pour avoir un sens basique et pratique de la distribution de vos données avec le minimum de traitement.

  • Pour plus d’info sur les histogrammes et les variables continues, regardez Chapter 3 du livre.

5.5 Types d’histogrammes

Utilisez un histogramme pour représenter la distribution d’une variable continue. L’axe des y peut représenter une grande variété de résultats :

5.5.1 Frequence ou compte

y = nombre de valeur dans chaque bâton.

5.5.2 Frequence relative

y = nombre de valeur dans chaque bâton / nombre total de valeur

5.5.3 Frequence cumulée

y = nombre total de valeur plus petite que la bordure droite du bâton.

5.5.4 Densité

y = frequence relative / largeur des bâtons

5.6 Paramètres

5.6.1 Limite droite et gauches des bâtons

Soyez vigilent avec les limites car un point peut tomber dans le bâton de droite ou de gauche en fonction de la configuration des limites que vous avez choisis.

5.6.2 Nombre de bâtons

Le nombre de bâtons par défaut dans ggplot2 est 30 mais ce n’est pas toujours le choix idéal. Par conséquent pensez à le modifier si le résultat vous parait étrange. Vous pouvez le faire en utilisant binwidth et préciser la largeur de bande que vous souhaitez, ou bien vous pouvez donner directement le nombre de bâton souhaiter en utilisant bins.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Voici quelques exemples en utilisant les deux méthodes décrites plus haut :

5.6.3 Alignement des bâtones

Vérifiez que vos axes reflètent les vraies limites de votre histogramme. Vous pouvez utiliser boundary pour préciser le point final de n’importe quel bâton. Vous pouvez également utiliser center pour préciser le centre d’un bâton. ggplot2 est en mesure de calculer où placer tous les autres bâtons (aussi, remarquez que lorsque la limite a été changée, le nombre de bâton a diminué de 1. Cela est dû au fait que par défaut les bâtons sont centrés vont au-dessus/dessous de l’intervalle des données.)

Note : Ne pas utiliser à la fois boundary et center pour l’alignement. Choisissez-en un seul.

5.7 Histogramme interactif avec ggvis

Le package ggvis est toujours en cours de développement, mais certaines choises marchent déjà très bien tels que l’ajustement interactive de certains paramètre en codant.

Comme les images ne peuvent pas être partager en utilisant knit (comme pour les autres package comme plotly), nous présentons ici que le code et pas le résultat. Pour essayer copier-collez le code suivant dans une session R..

5.8 Ressources externes







with