Problème du bandit manchot
De Wikipedia, l'encyclopédie encyclopedia
En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot[1],[2] (généralisable en problème du bandit à K bras[3] ou problème du bandit à N bras[4]) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur.
Cet article est une ébauche concernant les mathématiques.
Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.
Consultez la liste des tâches à accomplir en page de discussion.
Pour l’article homonyme, voir Bandit manchot.
C'est un exemple d'apprentissage par renforcement. Typiquement, la politique de l'utilisateur oscille entre exploitation (utiliser la machine dont il a appris qu'elle récompense beaucoup) et exploration (tester une autre machine pour espérer gagner plus)[5]. Le problème de bandit manchot peut être vu comme un processus de décision markovien avec un seul état[6].