Calculateur de Statistiques

Guide Complet des Statistiques Descriptives

Qu'est-ce que les statistiques descriptives ?

Les statistiques descriptives sont des méthodes permettant de résumer et de décrire les caractéristiques principales d'un ensemble de données. Elles fournissent des résumés simples sur l'échantillon et les mesures, sans tirer de conclusions sur une population plus large (contrairement aux statistiques inférentielles).

Mesures de tendance centrale

Moyenne (μ ou x̄)

Formule : μ = (x₁ + x₂ + ... + xₙ) / n

La moyenne est la somme de toutes les valeurs divisée par le nombre de valeurs.

Utilisation : La mesure de tendance centrale la plus courante. Sensible aux valeurs extrêmes.
Exemple : Pour les notes 12, 14, 16, 18, 20, la moyenne est (12+14+16+18+20)/5 = 16.

Médiane

Méthode : Ordonnez les données et prenez la valeur du milieu.

Si n est impair : médiane = valeur à la position (n+1)/2
Si n est pair : médiane = moyenne des valeurs aux positions n/2 et (n/2)+1

Utilisation : Résistante aux valeurs extrêmes. Utile pour les distributions asymétriques.
Exemple : Pour 10, 15, 20, 25, 100, la médiane est 20 (alors que la moyenne est 34).

Mode

Le mode est la valeur qui apparaît le plus fréquemment dans l'ensemble de données. Un ensemble peut avoir un mode (unimodal), plusieurs modes (multimodal) ou aucun mode.

Utilisation : Utile pour les données catégorielles ou pour identifier les valeurs les plus communes.
Exemple : Dans {2, 3, 3, 5, 7, 3, 8}, le mode est 3.

Mesures de dispersion

Étendue (Range)

Formule : Étendue = Maximum - Minimum

L'étendue est la différence entre la valeur la plus grande et la plus petite. Simple à calculer mais très sensible aux valeurs extrêmes.

Variance (σ² ou s²)

Variance de population : σ² = Σ(xᵢ - μ)² / n

Variance d'échantillon : s² = Σ(xᵢ - x̄)² / (n - 1)

La variance mesure la dispersion des données autour de la moyenne. Plus la variance est élevée, plus les données sont dispersées. On divise par (n-1) pour l'échantillon (correction de Bessel) pour obtenir un estimateur non biaisé de la variance de population.

Écart-type (σ ou s)

Formule : σ = √(variance)

L'écart-type est la racine carrée de la variance. Il a l'avantage d'être dans la même unité que les données originales, ce qui le rend plus facile à interpréter.

Exemple de calcul de l'écart-type

Données : 2, 4, 6, 8, 10

1. Moyenne : (2+4+6+8+10)/5 = 6

2. Écarts au carré : (2-6)²=16, (4-6)²=4, (6-6)²=0, (8-6)²=4, (10-6)²=16

3. Variance (population) : (16+4+0+4+16)/5 = 8

4. Écart-type : √8 ≈ 2.83

Coefficient de variation (CV)

Formule : CV = (σ / μ) × 100%

Le coefficient de variation exprime l'écart-type en pourcentage de la moyenne. Il permet de comparer la dispersion de deux ensembles de données ayant des moyennes différentes.

Mesures de position : Quartiles

Définition des quartiles

Les quartiles divisent un ensemble de données ordonnées en quatre parties égales :

Q1 (premier quartile) : 25% des données sont inférieures à Q1
Q2 (deuxième quartile) : Équivalent à la médiane, 50% des données sont inférieures
Q3 (troisième quartile) : 75% des données sont inférieures à Q3

Intervalle interquartile (IQR)

Formule : IQR = Q3 - Q1

L'IQR mesure la dispersion des 50% centraux des données. Il est résistant aux valeurs extrêmes et est souvent utilisé pour détecter les valeurs aberrantes.

Détection des valeurs aberrantes

Une valeur est considérée comme aberrante si :

Valeur < Q1 - 1.5 × IQR (aberrante inférieure)
Valeur > Q3 + 1.5 × IQR (aberrante supérieure)

Résumé à cinq chiffres

Le résumé à cinq chiffres est une description concise d'un ensemble de données :

Minimum
Premier quartile (Q1)
Médiane (Q2)
Troisième quartile (Q3)
Maximum

Ce résumé est la base des diagrammes en boîte (box plots), un outil de visualisation statistique très utilisé.

Quand utiliser chaque mesure ?

Mesure	Avantages	Inconvénients	Quand l'utiliser
Moyenne	Utilise toutes les données, bien connue	Sensible aux extrêmes	Distributions symétriques sans extrêmes
Médiane	Résistante aux extrêmes	N'utilise pas toutes les données	Distributions asymétriques ou avec extrêmes
Mode	Utile pour données catégorielles	Peut ne pas exister ou être multiple	Données catégorielles ou fréquences
Écart-type	Même unité que les données	Sensible aux extrêmes	Mesurer la variabilité autour de la moyenne
IQR	Résistant aux extrêmes	Ignore 50% des données	Décrire la dispersion avec extrêmes

Types de distributions

Distribution symétrique (normale)

Moyenne ≈ Médiane ≈ Mode. Les données sont réparties uniformément autour du centre. Beaucoup de phénomènes naturels suivent une distribution normale (taille, poids, QI, etc.).

Distribution asymétrique à droite (positive)

Mode < Médiane < Moyenne. La queue de la distribution s'étend vers la droite. Exemple : revenus (quelques très hauts revenus tirent la moyenne vers le haut).

Distribution asymétrique à gauche (négative)

Moyenne < Médiane < Mode. La queue de la distribution s'étend vers la gauche. Exemple : âge au décès dans les pays développés (concentration vers les âges élevés).

Applications pratiques

Éducation :

Analyser les résultats d'examens
Comparer les performances entre classes
Identifier les étudiants en difficulté ou excellents (valeurs aberrantes)

Finance :

Mesurer le risque d'investissement (écart-type des rendements)
Analyser les tendances des marchés
Comparer la volatilité de différents actifs (coefficient de variation)

Santé :

Établir des normes (taille, poids, tension artérielle)
Analyser l'efficacité de traitements
Détecter des anomalies médicales

Entreprise :

Analyser les ventes et performances
Contrôle qualité (détection de défauts)
Satisfaction client (scores moyens, dispersion)

Questions fréquentes

Quelle est la différence entre population et échantillon ?

La population comprend tous les individus ou observations qui nous intéressent. Un échantillon est un sous-ensemble de la population. On utilise des formules différentes pour calculer la variance et l'écart-type selon qu'on travaille avec toute la population (diviseur n) ou un échantillon (diviseur n-1).

Pourquoi divise-t-on par (n-1) pour la variance d'échantillon ?

C'est la correction de Bessel. Quand on estime la variance de population à partir d'un échantillon, diviser par n sous-estime systématiquement la variance réelle. Diviser par (n-1) corrige ce biais et donne un estimateur non biaisé.

Comment interpréter l'écart-type ?

Pour une distribution normale :

Environ 68% des données sont à ±1 écart-type de la moyenne
Environ 95% des données sont à ±2 écarts-types de la moyenne
Environ 99.7% des données sont à ±3 écarts-types de la moyenne

C'est la règle empirique ou règle des 68-95-99.7.

Moyenne ou médiane : laquelle choisir ?

Utilisez la médiane si :

Les données contiennent des valeurs extrêmes ou aberrantes
La distribution est fortement asymétrique
Vous voulez la "valeur typique" qui sépare les données en deux

Utilisez la moyenne si :

La distribution est approximativement symétrique
Pas de valeurs extrêmes importantes
Vous voulez une mesure qui utilise toutes les valeurs

Qu'est-ce qu'une valeur aberrante ?

Une valeur aberrante (outlier) est une observation qui s'écarte significativement des autres observations. Elle peut être due à :

Une erreur de mesure ou de saisie
Un phénomène rare mais réel
Une population différente

La méthode IQR (valeurs < Q1 - 1.5×IQR ou > Q3 + 1.5×IQR) est couramment utilisée pour les détecter.

Résumé des données

Tendance centrale

Dispersion

Position