Calculateur de Statistiques

Calculez toutes les statistiques descriptives : moyenne, médiane, mode, écart-type, variance, quartiles et plus.

Exemples : "12, 15, 18, 20" ou "12 15 18 20" ou une valeur par ligne

Résumé des données

Nombre de valeurs :

Somme totale :

Données triées :

Tendance centrale

Moyenne (μ)
Médiane
Mode

Dispersion

Étendue (Range)
Variance (population σ²)
Variance (échantillon s²)
Écart-type (population σ)
Écart-type (échantillon s)
Coefficient de variation

Position

Minimum
Premier quartile (Q1)
Deuxième quartile (Q2)
Troisième quartile (Q3)
Maximum
Intervalle interquartile (IQR)

Guide Complet des Statistiques Descriptives

Qu'est-ce que les statistiques descriptives ?

Les statistiques descriptives sont des méthodes permettant de résumer et de décrire les caractéristiques principales d'un ensemble de données. Elles fournissent des résumés simples sur l'échantillon et les mesures, sans tirer de conclusions sur une population plus large (contrairement aux statistiques inférentielles).

Mesures de tendance centrale

Moyenne (μ ou x̄)

Formule : μ = (x₁ + x₂ + ... + xₙ) / n

La moyenne est la somme de toutes les valeurs divisée par le nombre de valeurs.

Utilisation : La mesure de tendance centrale la plus courante. Sensible aux valeurs extrêmes.
Exemple : Pour les notes 12, 14, 16, 18, 20, la moyenne est (12+14+16+18+20)/5 = 16.

Médiane

Méthode : Ordonnez les données et prenez la valeur du milieu.

  • Si n est impair : médiane = valeur à la position (n+1)/2
  • Si n est pair : médiane = moyenne des valeurs aux positions n/2 et (n/2)+1

Utilisation : Résistante aux valeurs extrêmes. Utile pour les distributions asymétriques.
Exemple : Pour 10, 15, 20, 25, 100, la médiane est 20 (alors que la moyenne est 34).

Mode

Le mode est la valeur qui apparaît le plus fréquemment dans l'ensemble de données. Un ensemble peut avoir un mode (unimodal), plusieurs modes (multimodal) ou aucun mode.

Utilisation : Utile pour les données catégorielles ou pour identifier les valeurs les plus communes.
Exemple : Dans {2, 3, 3, 5, 7, 3, 8}, le mode est 3.

Mesures de dispersion

Étendue (Range)

Formule : Étendue = Maximum - Minimum

L'étendue est la différence entre la valeur la plus grande et la plus petite. Simple à calculer mais très sensible aux valeurs extrêmes.

Variance (σ² ou s²)

Variance de population : σ² = Σ(xᵢ - μ)² / n

Variance d'échantillon : s² = Σ(xᵢ - x̄)² / (n - 1)

La variance mesure la dispersion des données autour de la moyenne. Plus la variance est élevée, plus les données sont dispersées. On divise par (n-1) pour l'échantillon (correction de Bessel) pour obtenir un estimateur non biaisé de la variance de population.

Écart-type (σ ou s)

Formule : σ = √(variance)

L'écart-type est la racine carrée de la variance. Il a l'avantage d'être dans la même unité que les données originales, ce qui le rend plus facile à interpréter.

Exemple de calcul de l'écart-type

Données : 2, 4, 6, 8, 10

1. Moyenne : (2+4+6+8+10)/5 = 6

2. Écarts au carré : (2-6)²=16, (4-6)²=4, (6-6)²=0, (8-6)²=4, (10-6)²=16

3. Variance (population) : (16+4+0+4+16)/5 = 8

4. Écart-type : √8 ≈ 2.83

Coefficient de variation (CV)

Formule : CV = (σ / μ) × 100%

Le coefficient de variation exprime l'écart-type en pourcentage de la moyenne. Il permet de comparer la dispersion de deux ensembles de données ayant des moyennes différentes.

Mesures de position : Quartiles

Définition des quartiles

Les quartiles divisent un ensemble de données ordonnées en quatre parties égales :

Intervalle interquartile (IQR)

Formule : IQR = Q3 - Q1

L'IQR mesure la dispersion des 50% centraux des données. Il est résistant aux valeurs extrêmes et est souvent utilisé pour détecter les valeurs aberrantes.

Détection des valeurs aberrantes

Une valeur est considérée comme aberrante si :

  • Valeur < Q1 - 1.5 × IQR (aberrante inférieure)
  • Valeur > Q3 + 1.5 × IQR (aberrante supérieure)

Résumé à cinq chiffres

Le résumé à cinq chiffres est une description concise d'un ensemble de données :

  1. Minimum
  2. Premier quartile (Q1)
  3. Médiane (Q2)
  4. Troisième quartile (Q3)
  5. Maximum

Ce résumé est la base des diagrammes en boîte (box plots), un outil de visualisation statistique très utilisé.

Quand utiliser chaque mesure ?

Mesure Avantages Inconvénients Quand l'utiliser
Moyenne Utilise toutes les données, bien connue Sensible aux extrêmes Distributions symétriques sans extrêmes
Médiane Résistante aux extrêmes N'utilise pas toutes les données Distributions asymétriques ou avec extrêmes
Mode Utile pour données catégorielles Peut ne pas exister ou être multiple Données catégorielles ou fréquences
Écart-type Même unité que les données Sensible aux extrêmes Mesurer la variabilité autour de la moyenne
IQR Résistant aux extrêmes Ignore 50% des données Décrire la dispersion avec extrêmes

Types de distributions

Distribution symétrique (normale)

Moyenne ≈ Médiane ≈ Mode. Les données sont réparties uniformément autour du centre. Beaucoup de phénomènes naturels suivent une distribution normale (taille, poids, QI, etc.).

Distribution asymétrique à droite (positive)

Mode < Médiane < Moyenne. La queue de la distribution s'étend vers la droite. Exemple : revenus (quelques très hauts revenus tirent la moyenne vers le haut).

Distribution asymétrique à gauche (négative)

Moyenne < Médiane < Mode. La queue de la distribution s'étend vers la gauche. Exemple : âge au décès dans les pays développés (concentration vers les âges élevés).

Applications pratiques

Éducation :

Finance :

Santé :

Entreprise :

Questions fréquentes

Quelle est la différence entre population et échantillon ?

La population comprend tous les individus ou observations qui nous intéressent. Un échantillon est un sous-ensemble de la population. On utilise des formules différentes pour calculer la variance et l'écart-type selon qu'on travaille avec toute la population (diviseur n) ou un échantillon (diviseur n-1).

Pourquoi divise-t-on par (n-1) pour la variance d'échantillon ?

C'est la correction de Bessel. Quand on estime la variance de population à partir d'un échantillon, diviser par n sous-estime systématiquement la variance réelle. Diviser par (n-1) corrige ce biais et donne un estimateur non biaisé.

Comment interpréter l'écart-type ?

Pour une distribution normale :

C'est la règle empirique ou règle des 68-95-99.7.

Moyenne ou médiane : laquelle choisir ?

Utilisez la médiane si :

Utilisez la moyenne si :

Qu'est-ce qu'une valeur aberrante ?

Une valeur aberrante (outlier) est une observation qui s'écarte significativement des autres observations. Elle peut être due à :

La méthode IQR (valeurs < Q1 - 1.5×IQR ou > Q3 + 1.5×IQR) est couramment utilisée pour les détecter.