Pourquoi utiliser les Pipelines ?
Les pipelines empêchent les fuites de données en garantissant que toutes les transformations (comme le scaling) ne soient ajustées que sur les données d'entraînement.
Exemple de Pipeline
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
pipeline = Pipeline([
('scaler', StandardScaler()),
('classifier', LogisticRegression())
])
pipeline.fit(X_train, y_train)