Le machine learning est souvent séparé en trois catégories:
L'apprentissage supervisé consiste à apprendre une fonction qui permet de prédire une sortie à partir d'une entrée. Il se base sur des exemples \((x_i, y_i)\) d'entrées \(x_i\) et de la sortie correspondante attendue \(y_i\) pour apprendre la fonction \(y_i = f(x_i)\).
Par exemple, \(x_i\) pourrait être une image et \(y_i\) la valeur \(0\) si elle contient un chat, et \(1\) si elle contient un chien.
L'algorithme d'apprentissage pourra alors ajuster une fonction \(f\), qui à partir d'une image prédira s'il s'agit d'un chat ou d'un chien.
L'apprentissage non supervisé travaille sur des données non étiquettées, et cherche à trouver des structures dans les données.
Par exemple, on pourrait partir de caractéristiques de clients d'un magasin, et chercher à les regrouper en fonction de leurs habitudes d'achat (faire émerger des "clusters").
L'apprentissage par renforcement apprend à maximiser un signal de récompense en interagissant avec un environnement.
Par exemple, un agent pourrait apprendre à jouer à un jeu vidéo en maximisant son score.
Dans des applications réelles, l'apprentissage par renforcement est couplé avec de l'apprentissage supervisé (nous en reparlerons plus tard).
Apprentissage supervisé | Apprentissage non supervisé | Apprentissage par renforcement |
Données: \((x, y)\) Objectif: Ceci est une pomme | Données: \(x\) Objectif: Ces deux objets sont les mêmes | Données: paires états-actions Objectif: Apprendre à raisonner en maximisant une récompense au fil du temps Il faut manger ceci car c'est bon pour la santé |
AlphaGo, puis AlphaGo zero (DeepMind)
Capable de battre le grand maître humain au jeu de Go en utilisant une base de données de parties pour l'entraînement
Variante "Zero", capable d'apprendre en jouant uniquement contre elle-même.
Apprentissage automatique de jeux d'Atari (DeepMind)
En utilisant l'apprentissage par renforcement (mariée au deep learning), le même algorithme était capable d'apprendre à jouer à une multitude de jeux, à partir de l'image, la manette et le score.
Victoire contre des grands maîtres StarCraft (DeepMind)
Dans un des jeux les plus compétitifs du monde, l'IA de Google s'est élevée au rang de grand maître
Résolution de Rubik's Cube avec une main robotique (OpenAI)
La manipulation du cube est apprise par de l'apprentissage par renforcement, à partir d'abord de simulation, puis sur le vrai robot.
Google Deepmind OP3
Entraînement de robots à jouer au football (marcher, tirer, se relever) entièrement end-to-end.
Nous recommandons les ressources suivantes: