Apprentissage par renforcement

Vidéo: Apprentissage par renforcement #1 : Introduction

Contenu

Définition - Que signifie apprentissage par renforcement?
Introduction à Microsoft Azure et au nuage Microsoft | Tout au long de ce guide, vous apprendrez ce qu'est le cloud computing et comment Microsoft Azure peut vous aider à migrer et à exploiter votre entreprise à partir du cloud.
Techopedia explique l'apprentissage par renforcement

Définition - Que signifie apprentissage par renforcement?

L'apprentissage par renforcement, dans le contexte de l'intelligence artificielle, est un type de programmation dynamique qui entraîne des algorithmes à l'aide d'un système de récompense et de sanction.

Un algorithme d'apprentissage par renforcement, ou agent, apprend en interagissant avec son environnement. L'agent reçoit des récompenses en effectuant correctement et des pénalités pour effectuer de manière incorrecte. L'agent apprend sans intervention humaine en maximisant sa récompense et en minimisant sa peine.

Introduction à Microsoft Azure et au nuage Microsoft | Tout au long de ce guide, vous apprendrez ce qu'est le cloud computing et comment Microsoft Azure peut vous aider à migrer et à exploiter votre entreprise à partir du cloud.

Techopedia explique l'apprentissage par renforcement

L'apprentissage par renforcement est une approche de l'apprentissage automatique inspirée de la psychologie comportementaliste. Cela ressemble à la façon dont un enfant apprend à effectuer une nouvelle tâche. L'apprentissage par renforcement contraste avec d'autres approches d'apprentissage automatique en ce que l'algorithme ne dit pas explicitement comment exécuter une tâche, mais qu'il résout le problème par lui-même.

En tant qu’agent, qui peut être une voiture autonome ou un programme jouant aux échecs, interagit avec son environnement, reçoit un état de récompense en fonction de ses performances, telles que se rendre à destination en toute sécurité ou gagner une partie. Inversement, l'agent reçoit une pénalité pour avoir effectué un travail incorrect, comme une sortie de route ou une vérification.

Au fil du temps, l'agent prend des décisions pour maximiser sa récompense et minimiser sa pénalité à l'aide d'une programmation dynamique. L'avantage de cette approche de l'intelligence artificielle est qu'elle permet à un programme d'intelligence artificielle d'apprendre sans qu'un programmeur ne précise comment un agent doit exécuter la tâche.