Guide des Statistiques Descriptives
Qu'est-ce que les statistiques descriptives ?
Les statistiques descriptives sont des mesures qui résument et décrivent les caractéristiques principales d'un ensemble de données. Elles permettent de comprendre rapidement la distribution, la tendance centrale et la dispersion des données.
Mesures de Tendance Centrale
1. MOYENNE (Mean) :
La moyenne arithmétique est la somme de toutes les valeurs divisée par leur nombre.
Formule : μ = (Σxi) / n = (x₁ + x₂ + ... + xₙ) / n
Exemple : [10, 20, 30]
Moyenne = (10 + 20 + 30) / 3 = 60 / 3 = 20
Avantages :
✓ Utilise toutes les données
✓ Facile à calculer
✓ Base de nombreuses analyses statistiques
Inconvénients :
✗ Sensible aux valeurs aberrantes (outliers)
✗ Peut ne pas représenter de vraie valeur du jeu de données
2. MÉDIANE (Median) :
La médiane est la valeur centrale qui divise les données en deux moitiés égales.
Pour n impair : médiane = valeur du milieu
Pour n pair : médiane = moyenne des deux valeurs centrales
Exemple 1 (impair) : [10, 20, 30, 40, 50]
Médiane = 30 (valeur centrale)
Exemple 2 (pair) : [10, 20, 30, 40]
Médiane = (20 + 30) / 2 = 25
Avantages :
✓ Résistante aux valeurs aberrantes
✓ Représente le "milieu" des données
✓ Utile pour distributions asymétriques
Inconvénients :
✗ Ignore la magnitude des valeurs extrêmes
✗ Nécessite de trier les données
3. MODE (Mode) :
Le mode est la valeur qui apparaît le plus fréquemment.
Exemple : [1, 2, 2, 3, 3, 3, 4]
Mode = 3 (apparaît 3 fois)
Types de distributions :
• Unimodale : un seul mode
• Bimodale : deux modes
• Multimodale : plusieurs modes
• Pas de mode : toutes les valeurs sont uniques
Avantages :
✓ Applicable aux données qualitatives
✓ Facile à comprendre
✓ Identifie la valeur la plus commune
Inconvénients :
✗ Peut ne pas exister
✗ Peut y en avoir plusieurs
✗ Ne considère pas toutes les valeurs
Mesures de Dispersion
4. ÉTENDUE (Range) :
L'étendue est la différence entre la valeur maximale et minimale.
Formule : Étendue = Max - Min
Exemple : [10, 15, 20, 25, 100]
Étendue = 100 - 10 = 90
Avantages :
✓ Très simple à calculer
✓ Donne une idée de la dispersion
Inconvénients :
✗ Très sensible aux valeurs aberrantes
✗ N'utilise que 2 valeurs sur tout le jeu de données
5. QUARTILES :
Les quartiles divisent les données ordonnées en quatre parties égales.
Q1 (premier quartile) : 25% des données sont en dessous
Q2 (deuxième quartile) : = Médiane (50%)
Q3 (troisième quartile) : 75% des données sont en dessous
Écart interquartile (IQR) :
IQR = Q3 - Q1
L'IQR mesure la dispersion des 50% centraux des données
et est résistant aux valeurs aberrantes.
Exemples Détaillés
Exemple complet : Notes d'examen
Données : 12, 15, 18, 18, 20, 22, 25, 30, 35
Données triées : 12, 15, 18, 18, 20, 22, 25, 30, 35
Moyenne :
μ = (12+15+18+18+20+22+25+30+35) / 9
= 195 / 9
= 21,67
Médiane :
n = 9 (impair)
Position = (9+1)/2 = 5
Médiane = 20 (5e valeur)
Mode :
18 apparaît 2 fois (le plus fréquent)
Mode = 18
Étendue :
Étendue = 35 - 12 = 23
Quartiles :
Q1 = 16,5 (médiane de [12, 15, 18, 18])
Q2 = 20 (médiane)
Q3 = 27,5 (médiane de [22, 25, 30, 35])
IQR = 27,5 - 16,5 = 11
Comparaison des Mesures
| Mesure |
Définition |
Quand l'utiliser |
Sensible aux outliers |
| Moyenne |
Valeur "typique" moyenne |
Distribution symétrique |
Oui ✗ |
| Médiane |
Valeur du milieu |
Distribution asymétrique, données avec outliers |
Non ✓ |
| Mode |
Valeur la plus fréquente |
Données catégorielles, identifier pics |
Non ✓ |
| Étendue |
Écart entre min et max |
Aperçu rapide de dispersion |
Oui ✗ |
| IQR |
Dispersion centrale |
Mesure robuste de dispersion |
Non ✓ |
Distribution et Forme
Distribution symétrique :
Moyenne ≈ Médiane ≈ Mode
Exemple : Courbe en cloche (normale)
Distribution asymétrique à droite (positive) :
Mode < Médiane < Moyenne
Exemple : Revenus, âges au décès
Distribution asymétrique à gauche (négative) :
Moyenne < Médiane < Mode
Exemple : Notes d'un examen facile
Identifier les valeurs aberrantes avec l'IQR :
Outlier si :
valeur < Q1 - 1,5 × IQR
ou
valeur > Q3 + 1,5 × IQR
Applications Pratiques
Éducation :
• Moyenne des notes de classe
• Médiane pour éviter l'effet des notes extrêmes
• Mode pour identifier le niveau le plus commun
Immobilier :
• Prix médian des maisons (résiste aux propriétés de luxe)
• Prix moyen pour vue d'ensemble
• Étendue pour variété du marché
Entreprise :
• Salaire médian (plus représentatif que la moyenne)
• Temps moyen de traitement
• Ventes modales (produit le plus vendu)
Santé :
• Tension artérielle moyenne
• Poids médian par âge
• IQR pour identifier mesures anormales
Sports :
• Score moyen par match
• Temps médian au 100m
• Performance modale
Conseils d'Interprétation
1. Utilisez plusieurs mesures ensemble : Une seule mesure ne raconte qu'une partie de l'histoire.
2. Vérifiez la présence d'outliers : Ils peuvent fortement affecter la moyenne et l'étendue.
3. Considérez la distribution : Symétrique vs asymétrique change l'interprétation.
4. Contexte est essentiel : Les mêmes chiffres peuvent signifier différentes choses selon le contexte.
5. Visualisez vos données : Histogrammes, boîtes à moustaches aident à comprendre.
Formules Résumées
| Statistique |
Formule |
Symbole |
| Moyenne | Σx / n | μ ou x̄ |
| Médiane | Valeur centrale (données triées) | Med ou Q₂ |
| Mode | Valeur la plus fréquente | Mo |
| Étendue | Max - Min | R |
| Q1 | 25e percentile | Q₁ |
| Q3 | 75e percentile | Q₃ |
| IQR | Q3 - Q1 | IQR |
| Minimum | Plus petite valeur | Min |
| Maximum | Plus grande valeur | Max |