Les événements du CRIM

Le CRIM organise des événements qui traitent d’une variété de sujets à l’intention de la communauté des technologies de l’information du Québec. Ces rendez-vous, qui favorisent le réseautage et le maillage, abordent des thèmes d’actualité qui vous aideront à prendre les meilleures décisions pour la bonne gestion et le bon développement de vos projets TI.

La spécification de la sûreté dans un modèle d'apprentissage par renforcement

SÉMINAIRE R-D

RÉSUMÉ (conférence en anglais)

Cette présentation explore la spécification de la sûreté dans un modèle d'apprentissage par renforcement. Cette technique consiste, pour un agent autonome (robot, etc.), à apprendre les mesures à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. La notion de spécification de la sureté (pour un agent actor-critic) vise à minimiser le comportement incertain ou incohérent de l'agent dans son environnement.

ABSTRACT

Safe Actor-Critic

With the potential of Artificial Intelligence (AI) to transform society, safety becomes a critical part of designing any AI application. In this paper, we propose a safe policy learning framework in the actor-critic style. We based the safety criteria on the regularization of the variance of return in a learned policy : the higher the variance in the return, the higher the uncertainty in the value function. The notion of safety is based on minimizing the uncertain or inconsistent behavior of the agent in the environment. We estimated the variance of lambda-return directly using temporal difference (TD) approach.

This work provides an automatic approach to learning safe policy without any prior knowledge of safety perspective or human intervention in the given environment. We first demonstrated the effectiveness of this approach in the four rooms grid world environment, and then presented the results on four environments with continuous action tasks in Mujoco domain using distributed proximal policy optimization (DPPO) framework. The proposed algorithm outperformed the baselines in all the environments with a significant reduction in the standard deviation of the scores.

CONFÉRENCIÈRE

Arushi Jain, étudiante à la maîtrise en informatique à l’Université McGill et boursière au CRIM.

BIOGRAPHY

Arushi Jain is a Computer Science master student at McGill University, advised by Doina Precup. She is interested in reinforcement learning, hierarchical reinforcement learning  and solving problems pertaining to safety in AI. She has also held a research fellow position at Microsoft Research (2016-2017) and intern position in Amazon (Winter 2015). She graduated from IIIT-Delhi in 2016 with a Bachelor’s degree in Computer Science.


Conférence gratuite. Inscription requise.

Le 17 septembre 2018
De 13h à 14h

Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les boursiers du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.

Tous les Événements

Liste des événements auxquels le CRIM et ses experts participent. Plusieurs rabais sont offerts à nos membres!

Voir les événements

Vous abonner aux infolettres du CRIM S'inscrire à notre infolettre

Voir nos infolettres récentes

Suivez-nous sur :   LinkedIn Flickr YouTube Medium