Champ d’études en plein essor dans la sphère de l’intelligence artificielle, l’apprentissage par renforcement ouvre de nouvelles perspectives en milieu industriel.

L’intelligence artificielle emprunte parfois des chemins détournés et inattendus. Ainsi, l’apprentissage automatique (machine learning) utilisait jusqu’alors, et utilise encore largement, une méthode consistant à répertorier des données en entrée et des données attendues en sortie. L’algorithme apprend à partir de milliers ou de millions d’exemples étiquetés et relie de la sorte les images à des catégories ou classes.

« Une nouvelle méthode permet de contourner ce problème : c’est l’apprentissage par renforcement », explique Erik Lenten, Chief Technology Officer chez Axians, la marque ICT de VINCI Energies.

L’apprentissage par renforcement se distingue fondamentalement des méthodes dites supervisées par la capacité itérative de l’algorithme à essayer ou explorer plusieurs solutions, à observer la réaction de l’environnement et à adapter son comportement afin de trouver la meilleure stratégie. Autrement dit, la machine apprend de ses propres erreurs, de façon parfaitement autonome.

La technique est basée sur un système de « récompenses » : l’algorithme est pénalisé lorsqu’il se trompe et récompensé quand il prend la bonne décision. Il optimise ainsi de lui-même sa prise de décision. Le développeur du modèle de l’apprentissage par renforcement se contente alors de fixer les règles qui déterminent si l’IA sera punie ou récompensée.

Le jeu vidéo d’Elon Musk

Amazon a ainsi développé un prototype basé sur l’apprentissage par renforcement. Baptisée AWS DeepRacer, cette voiture de course miniature et autonome doit « rester sur la piste ». Elle est pénalisée quand elle sort de la piste et récompensée quand elle y reste, tout en visant un objectif : « aller aussi vite que possible ». Ouverte aux développeurs du monde entier au travers d’un championnat international, cette expérimentation via un simulateur 3D permet jour après jour d’améliorer les performances du véhicule. Vous pouvez en effet entraîner le modèle dans ce simulateur virtuel et quand il s’est suffisamment entraîné, vous pouvez le télécharger et courir sur une piste réelle. Cette expérimentation permet également de faire comprendre ce qu’est l’apprentissage par renforcement et aux développeurs de l’utiliser dans leur propre logiciel. Dans le même registre, la start-up britannique Wayve a appris à une voiture autonome à suivre une ligne droite en une journée.

Mais l’exemple le plus parlant est sans doute celui développé par l’IA Five d’OpenAI, la fondation d’Elon Musk, qui s’est entraînée pendant l’équivalent de 45 000 ans à jouer au jeu vidéo Dota 2 avec la méthode de l’apprentissage par renforcement. Five peut désormais battre à elle seule toute une équipe de joueurs professionnels de Dota 2.

« En milieu industriel, l’apprentissage par renforcement peut effectuer des simulations afin de déterminer les meilleurs paramètres de production. »

Dans quelle mesure l’apprentissage par renforcement intéresse-t-il la sphère industrielle ? « On peut imaginer l’intérêt de cette technique dans le cadre d’une ligne de production, par exemple, qui souhaite optimiser ses process mais où il faut tenir compte de l’interaction entre différentes machines. L’apprentissage par renforcement opère ainsi différents réglages et ajuste ses décisions en fonction des résultats », note Erik Lenten.

« Évidemment, précise le CTO d’Axians, le procédé est inenvisageable en situation réelle. Mais, en construisant un jumeau numérique de la chaîne de production, on peut ainsi effectuer des simulations afin de déterminer les meilleurs paramètres de production. »

23/07/2020