Les événements du CRIM

Le CRIM organise des événements qui traitent d’une variété de sujets à l’intention de la communauté des technologies de l’information du Québec. Ces rendez-vous, qui favorisent le réseautage et le maillage, abordent des thèmes d’actualité qui vous aideront à prendre les meilleures décisions pour la bonne gestion et le bon développement de vos projets TI.

Apprentissage spectral multitâche d'automates pondérés

Apprentissage spectral multitâche d'automates pondérés

CONFÉRENCIER

Guillaume Rabusseau, professeur adjoint, Université de Montréal

RÉSUMÉ (conférence en français)

Les objets structurés tels que les chaînes de caractères, les arbres et les graphiques sont omniprésents dans la science des données, mais les fonctions d'apprentissage définies sur ces objets peuvent être fastidieuses. Les automates pondérés sont des outils puissants qui permettent de modéliser efficacement ces fonctions et sont donc particulièrement pertinents pour l'apprentissage machine. En particulier, l'algorithme d'apprentissage spectral offre un moyen efficace d'apprendre les automates pondérés avec de solides garanties théoriques.

Dans cet exposé, je présenterai une extension récente de l'algorithme d'apprentissage spectral au réglage multitâche qui aborde le problème suivant : comment peut-on tirer parti des relations entre deux ou plusieurs automates pondérés afin d'apprendre plus efficacement ? Par exemple, considérez une modélisation en langage naturel où l'on doit faire des prédictions dans différents contextes (par exemple, clavardage en ligne et articles de journaux) et avoir accès à des ensembles de données dans chacun d'eux ; il est naturel de s'attendre à ce que la grammaire de base soit partagée entre les ensembles de données et que l'on puisse bénéficier d'apprendre simultanément ces deux tâches.

Je commencerai par introduire une notion naturelle de la relation entre les automates finis pondérés en examinant dans quelle mesure plusieurs automates finis pondérés peuvent partager un espace de représentation sous-jacent commun, et je présenterai le nouveau modèle d’automates finis pondérés à valeur vectorielle qui aide avantageusement à formaliser cette notion de relation. Je présenterai ensuite l'algorithme d'apprentissage spectral pour les automates finis pondérés à valeur vectorielle afin de résoudre le problème de l'apprentissage multitâche. En apprenant conjointement des tâches multiples sous la forme d'automates finis pondérés à valeur vectorielle, notre algorithme impose la découverte d'un espace de représentation partagé entre les tâches. Pour conclure, je présenterai des expériences sur des données synthétiques et sur une tâche de modélisation en langage naturel sur des données réelles afin de démontrer les avantages de l'approche multitâche proposée.


ABSTRACT

Multi-tasking spectral learning of weighted automata

Structured objects such as strings, trees and graphs are ubiquitous in data science but learning functions defined over such objects can be a tedious task. Weighted automata (WA) are powerful tools that can efficiently model such functions and are thus particularly relevant for machine learning. In particular, the spectral learning algorithm offers an efficient way to learn WA which comes with strong theoretical guarantees.

In this talk, I will present a recent extension of the spectral learning algorithm to the multitask setting which addresses the following problem: how can one leverage relatedness between two or more WAs to learn more efficiently? As a motivational example, consider a natural language modeling task where one needs to make predictions in different contexts (e.g. online chat vs. newspaper articles) and has access to datasets in each of them; it is natural to expect that basic grammar is shared across the datasets and that one could benefit from simultaneously learning these tasks.

I will first introduce a natural notion of relatedness between weighted finite automata (WFA) by considering to which extent several WFAs can share a common underlying representation space, and introduce the novel model of vector-valued WFA which conveniently helps to formalize this notion of relatedness. I will then present the spectral learning algorithm for vector-valued WFAs to tackle the multitask learning problem. By jointly learning multiple tasks in the form of a vector-valued WFA, our algorithm enforces the discovery of a representation space shared between tasks. To conclude, I will present experiments on both synthetic data and on a natural language modeling task on real world data to showcase the benefits of the proposed multitask approach.


Conférence gratuite. Inscription requise.

Le 23 octobre 2018
De 11h à 12h

Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les boursiers du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.

Tous les Événements

Liste des événements auxquels le CRIM et ses experts participent. Plusieurs rabais sont offerts à nos membres!

Voir les événements

Vous abonner aux infolettres du CRIM S'inscrire à notre infolettre

Voir nos infolettres récentes

Suivez-nous sur :   LinkedIn Flickr YouTube Medium