Introduction

Contexte et motivation

Le machine learning est souvent séparé en trois catégories:

  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Apprentissage par renforcement

Apprentissage supervisé

L'apprentissage supervisé consiste à apprendre une fonction qui permet de prédire une sortie à partir d'une entrée. Il se base sur des exemples \((x_i, y_i)\) d'entrées \(x_i\) et de la sortie correspondante attendue \(y_i\) pour apprendre la fonction \(y_i = f(x_i)\).

Par exemple, \(x_i\) pourrait être une image et \(y_i\) la valeur \(0\) si elle contient un chat, et \(1\) si elle contient un chien.

L'algorithme d'apprentissage pourra alors ajuster une fonction \(f\), qui à partir d'une image prédira s'il s'agit d'un chat ou d'un chien.

Apprentissage non supervisé

L'apprentissage non supervisé travaille sur des données non étiquettées, et cherche à trouver des structures dans les données.

Par exemple, on pourrait partir de caractéristiques de clients d'un magasin, et chercher à les regrouper en fonction de leurs habitudes d'achat (faire émerger des "clusters").

Apprentissage par renforcement

L'apprentissage par renforcement apprend à maximiser un signal de récompense en interagissant avec un environnement.

Par exemple, un agent pourrait apprendre à jouer à un jeu vidéo en maximisant son score.

Dans des applications réelles, l'apprentissage par renforcement est couplé avec de l'apprentissage supervisé (nous en reparlerons plus tard).

Apprentissage superviséApprentissage non superviséApprentissage par renforcement

Données: \((x, y)\)
\(x\) sont les données et \(y\) les étiquettes (labels)

Objectif:
Apprendre une fonction \(y = f(x)\)

Ceci est une pomme


Données: \(x\)
\(x\) sont les données, il n'y a pas d'étiquettes (labels)

Objectif:
Apprendre la structure sous-jacente

Ces deux objets sont les mêmes

Données: paires états-actions

Objectif: Apprendre à raisonner en maximisant une récompense au fil du temps

Il faut manger ceci car c'est bon pour la santé

Success stories

AlphaGo, puis AlphaGo zero (DeepMind)

Capable de battre le grand maître humain au jeu de Go en utilisant une base de données de parties pour l'entraînement

Variante "Zero", capable d'apprendre en jouant uniquement contre elle-même.

Apprentissage automatique de jeux d'Atari (DeepMind)

En utilisant l'apprentissage par renforcement (mariée au deep learning), le même algorithme était capable d'apprendre à jouer à une multitude de jeux, à partir de l'image, la manette et le score.

Victoire contre des grands maîtres StarCraft (DeepMind)

Dans un des jeux les plus compétitifs du monde, l'IA de Google s'est élevée au rang de grand maître

Résolution de Rubik's Cube avec une main robotique (OpenAI)

La manipulation du cube est apprise par de l'apprentissage par renforcement, à partir d'abord de simulation, puis sur le vrai robot.

Google Deepmind OP3

Entraînement de robots à jouer au football (marcher, tirer, se relever) entièrement end-to-end.

Ressources

Nous recommandons les ressources suivantes: