Problème du bandit manchot

En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot^[1]^,^[2] (généralisable en problème du bandit à K bras^[3] ou problème du bandit à N bras^[4]) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur.

Cet article est une ébauche concernant les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Consultez la liste des tâches à accomplir en page de discussion.

C'est un exemple d'apprentissage par renforcement. Typiquement, la politique de l'utilisateur oscille entre exploitation (utiliser la machine dont il a appris qu'elle récompense beaucoup) et exploration (tester une autre machine pour espérer gagner plus)^[5]. Le problème de bandit manchot peut être vu comme un processus de décision markovien avec un seul état^[6].

[1]

[2]

[3]

[4]

[5]

[6]