
Machine Learning : comprendre, implémenter et choisir le bon algorithme
Cet article s’inscrit dans la continuité de l’introduction à l’IA. L’objectif est de poser des bases solides en Machine Learning, en allant au-delà des définitions pour comprendre comment ça fonctionne réellement, quand l’utiliser, et quelles limites techniques il faut connaître avant d’aller vers le deep learning.
1. Pourquoi le Machine Learning existe
Les systèmes informatiques classiques reposent sur des règles explicites : if / else, règles métier, arbres de décision codés à la main. Ce modèle fonctionne bien tant que le problème est simple et totalement maîtrisé.
Mais dès que :
- les règles deviennent trop nombreuses,
- les données sont bruitées,
- les comportements évoluent dans le temps,
les systèmes à règles atteignent rapidement leurs limites.
Le Machine Learning apparaît comme une réponse à ce problème : au lieu d’écrire les règles, on laisse le système les apprendre à partir des données.
Exemples concrets :
- filtrage de spam (trop de règles pour être maintenues à la main),
- recommandation de contenu (comportements utilisateurs complexes),
- détection de fraude (patterns subtils et évolutifs),
- prédiction de la demande (données historiques imparfaites).
2. Définition opérationnelle du Machine Learning
Le Machine Learning est une branche de l’IA qui consiste à entraîner des modèles à partir de données afin qu’ils puissent faire des prédictions ou prendre des décisions sans être explicitement programmés pour chaque cas.
Un point clé :
- le modèle n’apprend pas la vérité,
- il apprend une approximation d’une fonction reliant des entrées à une sortie.
Cela implique :
- des erreurs,
- des incertitudes,
- et des limites structurelles.
ML vs IA symbolique
- IA symbolique : règles définies manuellement, logique déterministe.
- Machine Learning : règles apprises automatiquement à partir des données.
ML vs statistiques classiques
- Les statistiques visent à comprendre les données.
- Le ML vise à prédire ou décider avec de bonnes performances de généralisation.
3. Les briques fondamentales d’un système Machine Learning
3.1 Les données
Les données sont le cœur de tout système ML.
- Features : variables d’entrée décrivant un phénomène.
- Labels : valeur cible que l’on souhaite prédire (en apprentissage supervisé).
Un dataset est généralement séparé en :
- ensemble d’entraînement,
- ensemble de validation,
- ensemble de test.
Cette séparation est cruciale pour mesurer la capacité du modèle à généraliser.
3.2 Le modèle
Un modèle est une fonction paramétrée qui transforme des entrées en sorties.
- Paramètres : valeurs apprises à partir des données (poids).
- Hyperparamètres : réglages définis avant l’apprentissage (ex : k dans kNN).
La capacité du modèle détermine :
- sa puissance d’expression,
- mais aussi son risque de sur-apprentissage.
3.3 La fonction de perte
La fonction de perte mesure l’écart entre la prédiction du modèle et la valeur réelle.
Exemples :
- erreur quadratique pour la régression,
- log-loss pour la classification.
Le rôle de l’apprentissage est de minimiser cette perte, pas d’obtenir une perfection théorique.
3.4 Le processus d’apprentissage
Apprendre revient à :
- faire une prédiction,
- mesurer l’erreur,
- ajuster les paramètres,
- répéter jusqu’à convergence.
Ce cycle est au cœur de tous les algorithmes de Machine Learning, des plus simples aux plus complexes.
4. Les grands types de Machine Learning
Dans cette partie, je vais détailler les trois grands types de Machine Learning, en expliquant comment ils fonctionnent concrètement, dans quels cas on les utilise, et pourquoi ils sont importants en pratique.
4.1 Apprentissage supervisé
L’apprentissage supervisé est le type de Machine Learning le plus courant et le plus intuitif.
Comment ça fonctionne
On dispose de données étiquetées, c’est‑à‑dire que pour chaque exemple, on connaît la bonne réponse.
Par exemple :
- un email avec le label
spamounon spam, - un appartement avec son prix réel,
- une image avec la classe
chat,chien, etc.
Le modèle apprend une fonction qui associe les entrées (features) à la sortie (label). Pendant l’entraînement, il compare ses prédictions aux vraies réponses et ajuste ses paramètres pour réduire l’erreur.
Schéma classique de l’apprentissage supervisé :
Exemple concret
Filtrage de spam :
- entrée : texte de l’email (features),
- sortie : spam ou non spam,
- apprentissage : le modèle observe des milliers d’emails déjà classés.
Quand l’utiliser
- quand on dispose de données annotées,
- quand l’objectif est clair et mesurable.
Limites
- besoin de grandes quantités de données labellisées,
- coût humain de l’annotation,
- biais possibles dans les labels.
4.2 Apprentissage non supervisé
En apprentissage non supervisé, aucune étiquette n’est fournie. Le modèle doit trouver seul des structures ou des patterns dans les données.
Comment ça fonctionne
Le modèle observe uniquement les features et cherche à :
- regrouper des données similaires,
- détecter des anomalies,
- réduire la dimension.
Il n’y a pas de notion de “bonne réponse” pendant l’apprentissage.
Schéma du clustering :

Exemple concret
Segmentation client :
- données : âge, revenus, fréquence d’achat,
- objectif : identifier des groupes de clients aux comportements similaires,
- usage : marketing ciblé, recommandations.
Quand l’utiliser
- quand on ne dispose pas de labels,
- pour explorer et comprendre les données.
Limites
- résultats parfois difficiles à interpréter,
- pas de métrique simple de “bonne réponse”,
- dépend fortement des choix d’algorithmes et de paramètres.
4.3 Apprentissage par renforcement
L’apprentissage par renforcement est différent des deux précédents. Le modèle apprend en interagissant avec un environnement.
Comment ça fonctionne
Un agent :
- observe un état,
- choisit une action,
- reçoit une récompense,
- ajuste sa stratégie pour maximiser la récompense cumulée.
Ce type d’apprentissage repose sur l’essai‑erreur.
Schéma agent‑environnement :
Exemple concret
Jeux vidéo ou robotique :
- état : position du joueur ou du robot,
- action : mouvement,
- récompense : gagner la partie ou atteindre un objectif.
Quand l’utiliser
- quand il faut apprendre une stratégie,
- quand les décisions influencent l’environnement futur.
Limites
- entraînement instable et coûteux,
- difficile à déployer en production,
- nécessite une définition précise des récompenses.
4.2 Apprentissage non supervisé
Les données ne possèdent pas de labels.
Objectif :
- découvrir des structures cachées,
- regrouper des données similaires,
- réduire la dimension.
Exemples :
- segmentation client,
- détection d’anomalies.
4.3 Apprentissage par renforcement
Le modèle apprend par interaction avec un environnement.
- actions,
- états,
- récompenses.
Très puissant mais difficile à stabiliser et à déployer.
5. Grandes familles d’algorithmes ML
5.1 Algorithmes basés sur la distance
- k-Nearest Neighbors.
- Basés sur la similarité entre données.
Simples à comprendre, coûteux à grande échelle.
5.2 Algorithmes linéaires
- régression linéaire,
- régression logistique.
Hypothèses fortes mais souvent très performantes.
5.3 Algorithmes probabilistes
- Naïve Bayes.
Reposent sur des hypothèses simplificatrices mais efficaces en pratique.
5.4 Algorithmes basés sur les arbres
- Decision Trees,
- Random Forests,
- Gradient Boosting.
Très utilisés pour les données tabulaires.
6. Généralisation : le concept central
Un bon modèle n’est pas celui qui mémorise les données d’entraînement, mais celui qui généralise sur des données jamais vues.
- Sur-apprentissage : modèle trop complexe.
- Sous-apprentissage : modèle trop simple.
Le compromis biais / variance est central en ML.
7. Pipeline Machine Learning réel
- Compréhension du problème.
- Collecte et exploration des données.
- Préparation et nettoyage.
- Choix du modèle.
- Entraînement.
- Évaluation.
- Itération.
- Déploiement.
- Surveillance.
Le ML est un processus continu, pas un script isolé.
8. Limites réelles du Machine Learning
- Forte dépendance aux données.
- Reproduction des biais existants.
- Difficulté d’explicabilité.
- Coûts de calcul et de maintenance.
Le ML est puissant, mais jamais autonome.
9. Transition vers la suite
Comprendre le Machine Learning est indispensable avant d’aborder :
- les réseaux de neurones,
- le deep learning,
- les modèles génératifs.
Les prochains articles entreront dans le détail de chaque algorithme, en commençant par k-Nearest Neighbors from scratch.
Conclusion
Le Machine Learning est avant tout une discipline d’ingénierie.
Maîtriser ses bases permet de :
- comprendre les modèles avancés,
- éviter les pièges classiques,
- construire des systèmes fiables et responsables.
Cet article pose le socle. La suite consistera à explorer chaque brique en profondeur, avec code, expérimentations et retours concrets.