Calculez toutes les statistiques descriptives : moyenne, médiane, mode, écart-type, variance, quartiles et plus.
Nombre de valeurs :
Somme totale :
Données triées :
Les statistiques descriptives sont des méthodes permettant de résumer et de décrire les caractéristiques principales d'un ensemble de données. Elles fournissent des résumés simples sur l'échantillon et les mesures, sans tirer de conclusions sur une population plus large (contrairement aux statistiques inférentielles).
Formule : μ = (x₁ + x₂ + ... + xₙ) / n
La moyenne est la somme de toutes les valeurs divisée par le nombre de valeurs.
Utilisation : La mesure de tendance centrale la plus courante. Sensible aux valeurs extrêmes.
Exemple : Pour les notes 12, 14, 16, 18, 20, la moyenne est (12+14+16+18+20)/5 = 16.
Méthode : Ordonnez les données et prenez la valeur du milieu.
Utilisation : Résistante aux valeurs extrêmes. Utile pour les distributions asymétriques.
Exemple : Pour 10, 15, 20, 25, 100, la médiane est 20 (alors que la moyenne est 34).
Le mode est la valeur qui apparaît le plus fréquemment dans l'ensemble de données. Un ensemble peut avoir un mode (unimodal), plusieurs modes (multimodal) ou aucun mode.
Utilisation : Utile pour les données catégorielles ou pour identifier les valeurs les plus communes.
Exemple : Dans {2, 3, 3, 5, 7, 3, 8}, le mode est 3.
Formule : Étendue = Maximum - Minimum
L'étendue est la différence entre la valeur la plus grande et la plus petite. Simple à calculer mais très sensible aux valeurs extrêmes.
Variance de population : σ² = Σ(xᵢ - μ)² / n
Variance d'échantillon : s² = Σ(xᵢ - x̄)² / (n - 1)
La variance mesure la dispersion des données autour de la moyenne. Plus la variance est élevée, plus les données sont dispersées. On divise par (n-1) pour l'échantillon (correction de Bessel) pour obtenir un estimateur non biaisé de la variance de population.
Formule : σ = √(variance)
L'écart-type est la racine carrée de la variance. Il a l'avantage d'être dans la même unité que les données originales, ce qui le rend plus facile à interpréter.
Exemple de calcul de l'écart-type
Données : 2, 4, 6, 8, 10
1. Moyenne : (2+4+6+8+10)/5 = 6
2. Écarts au carré : (2-6)²=16, (4-6)²=4, (6-6)²=0, (8-6)²=4, (10-6)²=16
3. Variance (population) : (16+4+0+4+16)/5 = 8
4. Écart-type : √8 ≈ 2.83
Formule : CV = (σ / μ) × 100%
Le coefficient de variation exprime l'écart-type en pourcentage de la moyenne. Il permet de comparer la dispersion de deux ensembles de données ayant des moyennes différentes.
Les quartiles divisent un ensemble de données ordonnées en quatre parties égales :
Formule : IQR = Q3 - Q1
L'IQR mesure la dispersion des 50% centraux des données. Il est résistant aux valeurs extrêmes et est souvent utilisé pour détecter les valeurs aberrantes.
Une valeur est considérée comme aberrante si :
Le résumé à cinq chiffres est une description concise d'un ensemble de données :
Ce résumé est la base des diagrammes en boîte (box plots), un outil de visualisation statistique très utilisé.
| Mesure | Avantages | Inconvénients | Quand l'utiliser |
|---|---|---|---|
| Moyenne | Utilise toutes les données, bien connue | Sensible aux extrêmes | Distributions symétriques sans extrêmes |
| Médiane | Résistante aux extrêmes | N'utilise pas toutes les données | Distributions asymétriques ou avec extrêmes |
| Mode | Utile pour données catégorielles | Peut ne pas exister ou être multiple | Données catégorielles ou fréquences |
| Écart-type | Même unité que les données | Sensible aux extrêmes | Mesurer la variabilité autour de la moyenne |
| IQR | Résistant aux extrêmes | Ignore 50% des données | Décrire la dispersion avec extrêmes |
Moyenne ≈ Médiane ≈ Mode. Les données sont réparties uniformément autour du centre. Beaucoup de phénomènes naturels suivent une distribution normale (taille, poids, QI, etc.).
Mode < Médiane < Moyenne. La queue de la distribution s'étend vers la droite. Exemple : revenus (quelques très hauts revenus tirent la moyenne vers le haut).
Moyenne < Médiane < Mode. La queue de la distribution s'étend vers la gauche. Exemple : âge au décès dans les pays développés (concentration vers les âges élevés).
Éducation :
Finance :
Santé :
Entreprise :
La population comprend tous les individus ou observations qui nous intéressent. Un échantillon est un sous-ensemble de la population. On utilise des formules différentes pour calculer la variance et l'écart-type selon qu'on travaille avec toute la population (diviseur n) ou un échantillon (diviseur n-1).
C'est la correction de Bessel. Quand on estime la variance de population à partir d'un échantillon, diviser par n sous-estime systématiquement la variance réelle. Diviser par (n-1) corrige ce biais et donne un estimateur non biaisé.
Pour une distribution normale :
C'est la règle empirique ou règle des 68-95-99.7.
Utilisez la médiane si :
Utilisez la moyenne si :
Une valeur aberrante (outlier) est une observation qui s'écarte significativement des autres observations. Elle peut être due à :
La méthode IQR (valeurs < Q1 - 1.5×IQR ou > Q3 + 1.5×IQR) est couramment utilisée pour les détecter.