Les métriques indispensables en Machine Learning

Pourquoi une seule métrique ne suffit pas : le piège de l'Accuracy

Évaluer un modèle de Machine Learning ne se limite pas à calculer un score global et à s'en satisfaire. Dans le monde réel, un modèle affichant 99% d'accuracy (exactitude) peut s'avérer totalement inutile.

Imaginez un système de détection de fraudes bancaires où seulement 1% des transactions sont frauduleuses. Un modèle naïf qui prédirait systématiquement "non frauduleux" obtiendrait instantanément 99% d'accuracy, tout en étant incapable de bloquer la moindre fraude. C'est le piège de l'Accuracy. Pour concevoir des systèmes performants, nous devons choisir des métriques alignées avec la distribution des données et les objectifs métier.

1. Métriques de Classification

Les tâches de classification nécessitent d'analyser les prédictions correctes et incorrectes pour chaque classe. La base de ces mesures est la Matrice de Confusion, qui catégorise les prédictions ainsi :

Vrais Positifs (VP) : Instances positives correctement identifiées.
Vrais Négatifs (VN) : Instances négatives correctement identifiées.
Faux Positifs (FP) : Instances négatives prédites à tort comme positives (Erreur de Type I).
Faux Négatifs (FN) : Instances positives prédites à tort comme négatives (Erreur de Type II).

Accuracy (Exactitude)

L'accuracy calcule la proportion de prédictions correctes sur le total des données :

$$\text{Accuracy} = \frac{VP + VN}{VP + VN + FP + FN}$$

Quand l'utiliser : Datasets équilibrés où les deux classes ont la même importance.
Quand l'éviter : Datasets déséquilibrés.

Précision (Valeur Prédictive Positive)

La précision répond à la question : Sur toutes les instances prédites positives par le modèle, combien étaient réellement positives ?

$$\text{Précision} = \frac{VP}{VP + FP}$$

Objectif : Minimiser les Faux Positifs (FP).
Exemple : Détection de spams. On veut une précision élevée pour éviter qu'un e-mail important et légitime ne soit envoyé par erreur dans le dossier indésirables.

Recall (Rappel / Sensibilité)

Le rappel répond à la question : Sur toutes les instances réellement positives, combien le modèle a-t-il réussi à identifier ?

$$\text{Rappel} = \frac{VP}{VP + FN}$$

Objectif : Minimiser les Faux Négatifs (FN).
Exemple : Diagnostic médical (ex : détection du cancer). Un Faux Négatif signifie laisser un patient malade sans traitement, ce qui est bien plus grave qu'un Faux Positif (qui sera écarté par un test secondaire).

F1-Score

Le F1-Score est la moyenne harmonique de la Précision et du Rappel. Contrairement à la moyenne arithmétique, il pénalise fortement les déséquilibres (si le Rappel vaut 0, le F1-Score vaut 0).

$$\text{F1-Score} = 2 \times \frac{\text{Précision} \times \text{Rappel}}{\text{Précision} + \text{Rappel}}$$

Quand l'utiliser : Lorsqu'un équilibre est nécessaire entre précision et rappel, particulièrement sur des données asymétriques.

ROC-AUC (Area Under Curve)

La courbe ROC trace le taux de Vrais Positifs (Rappel) par rapport au taux de Faux Positifs ($FPR = \frac{FP}{VN + FP}$) pour différents seuils de décision.

L'AUC varie entre 0.5 (modèle aléatoire) et 1.0 (modèle parfait).
Quand l'utiliser : Pour évaluer la performance globale de classement d'un modèle quel que soit le seuil choisi.

2. Métriques de Régression

Contrairement à la classification, les modèles de régression prédisent des valeurs numériques continues. Les métriques doivent donc mesurer l'écart entre les prédictions et la réalité.

MAE (Mean Absolute Error)

La MAE est la moyenne des différences absolues entre les valeurs prédites et réelles :

$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$

Caractéristique : Pénalité linéaire. La MAE traite toutes les erreurs sur un pied d'égalité et se montre très robuste aux valeurs aberrantes (outliers).

MSE (Mean Squared Error)

La MSE est la moyenne des carrés des erreurs :

$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

Caractéristique : Pénalité exponentielle. L'élévation au carré pénalise beaucoup plus lourdement les grandes erreurs que les petites déviations.

RMSE (Root Mean Squared Error)

La RMSE est la racine carrée de la MSE :

$$\text{RMSE} = \sqrt{\text{MSE}}$$

Caractéristique : Elle ramène la métrique d'erreur à l'unité de mesure initiale de la variable cible ($y$), ce qui simplifie son interprétation économique ou physique.

Coefficient de Détermination ($R^2$)

Le $R^2$ indique la proportion de la variance de la variable cible expliquée par le modèle :

$$R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$$

Échelle : Compris généralement entre 0 et 1. Un $R^2$ de 0 signifie que le modèle ne fait pas mieux que la prédiction par la moyenne, tandis que 1 signifie des prédictions parfaites.

3. Guide de sélection des métriques

Voici un cadre simple pour choisir la métrique adéquate selon votre problème :

Type de problème / Données	Métrique recommandée	Objectif principal
Classification déséquilibrée (ex : Fraude)	Rappel ou F1-Score	Minimiser les omissions positives
Filtrage (ex : Spams, Alarmes)	Précision	Éviter les fausses alertes (Faux Positifs)
Probabilités calibrées	Log Loss	Évaluer la justesse des probabilités de classe
Régression avec données bruitées (Outliers)	MAE	Obtenir une erreur moyenne non perturbée
Régression (Les grands écarts sont critiques)	RMSE	Pénaliser lourdement les grandes erreurs de prédiction