Événements  Events

FrVD : un nouveau jeu de données de référence de clips vidéo, de vidéodescriptions et d'actions en français pour l'apprentissage profond

FrVD : un nouveau jeu de données de référence de clips vidéo, de vidéodescriptions et d'actions en français pour l'apprentissage profond

Conférence en français

FrVD : un nouveau jeu de données de référence de clips vidéo, de vidéodescriptions et d'actions en français pour l'apprentissage profond

Conférenciers

Lise Rebout, spécialiste en traitement automatique des langues naturelles, CRIM
Edith Galy, linguiste informaticienne, CRIM
Francis Charette-Migneault, développeur de logiciels de recherche, CRIM

Résumé

Nous présenterons nos travaux sur la création du jeu de données FrVD constitué de vidéodescriptions (VD) annotées en français et construit pour aider la recherche en production automatique de VD. La VD fournit une description audio du contenu visuel pour le rendre plus accessible au public ayant une déficience visuelle. Elle est généralement produite manuellement. Toutefois, depuis 2015, les modèles de réseaux de neurones profonds offrent des résultats très encourageants pour aider à la production automatique de vidéodescription. Cependant, il existe très peu de ressources annotées en français pour entraîner de tels modèles. Trois tâches sont nécessaires pour parvenir à la production automatique d’une VD : 1) la reconnaissance d'éléments visuels sur la vidéo - typiquement les personnages, les scènes et les actions 2) la description de ces éléments (image captioning) et 3) la composition de la VD. 

Notre travail s’articule autour de la première tâche. L’objectif du projet est de tirer parti des VD françaises produites par le CRIM depuis 2015, pour lesquelles nous avons déjà identifié les scènes et les personnages, et de l’enrichir grâce à la détection automatique des actions afin de compiler un nouveau jeu de données : FrVD. FrVD inclut ainsi les références aux clips vidéo (films, séries), la VD originale en français et les annotations de certains éléments visuels, soit les personnages, les scènes et les actions. Nous présenterons les méthodes qui nous ont permis, à partir d’annotations manuelles (textuelles) et automatiques (textuelles et visuelles), de produire ce corpus qui pourra être employé pour entraîner des modèles de VD automatique lors de travaux futurs. 

Biographies

Lise Rebout, agente de recherche sénior, M. Sc. (maîtrise en informatique de l’Université de Montréal). Au CRIM depuis 2017, Lise détient un baccalauréat en science de l’information de la HBI Stuttgart (Allemagne) ainsi qu’une maîtrise en informatique de l’Université de Montréal. Passionnée par les langues et la programmation, elle a travaillé chez Druide informatique au développement du correcteur grammatical Antidote et dans différentes entreprises à la conception d’outils d’analyse textuelle utilisés dans des logiciels de recommandation, de récolte de données, etc. Elle s’intéresse non seulement aux applications logicielles des outils linguistiques, mais aussi à l’organisation des connaissances et à l’extraction de connaissances de données non structurées.

Edith Galy, agent de recherche (Master de linguistique théorique descriptive et automatique, Université Paris 7, 2002). Edith Galy a rejoint l’équipe à titre de linguiste informaticienne en janvier 2019. Titulaire d’un D.E.A. (Master) de linguistique théorique descriptive et automatique (laboratoire Lattice, Université Paris 7), Édith a poursuivi des études doctorales au sein de l’équipe de recherche en syntaxe et sémantique de l’Université Toulouse 2, en s’intéressant aux relations sémantiques mises au jour par l’analyse distributionnelle automatique de grands corpus. Elle a travaillé dans le domaine de l’aéronautique sur des problématiques de langages contrôlés et de catégorisation automatique de textes. Ses domaines d’expertises sont la sémantique, la lexicologie et la syntaxe dans le domaine du traitement automatique des langues naturelles. Elle s’intéresse plus particulièrement à l’analyse de sentiments et aux ressources lexicales.

Francis Charrette-Migneault, ing. jr., agent de recherche (maîtrise en génie de la production automatisée, systèmes intelligents, M. Ing., École de technologie supérieure de Montréal, 2017). Francis s’est joint à temps plein à l’équipe Vision et imagerie du CRIM en mars 2018 à titre d’agent de recherche suite à son embauche à temps partiel depuis septembre 2017. Il vient apporter à l’équipe son expertise en tant qu’intégrateur et programmeur pour la réalisation des multiples projets du CRIM. Titulaire d’une maîtrise en génie de la production automatisée de l’ÉTS, Francis a travaillé comme développeur et chercheur au LIVIA (Laboratoire d’imagerie, de vision et d’intelligence artificielle) dans le cadre d’un projet portant sur la reconnaissance de visages dans le contexte d’applications de vidéosurveillance pour la sécurité. Par le passé, il a également travaillé sur des projets de détection de routes sur images radar satellitaires de haute résolution ainsi qu’à la conception de méthodes de traitement d’image et de test de détecteurs de mammographie à rayon X. Détenant également un DEC en Technologie du Génie physique du Cégep André-Laurendeau, Francis détient un vaste champ d’expertise en l’électronique, microfabrication en salle blanche, en acoustique, en technique du vide, en fabrication et en utilisation de composants optiques de pointe, que pour en nommer que quelques-uns. Ses principaux domaines d’intérêt sont la modélisation 3D, la reconnaissance de visages, l’apprentissage machine, l’intelligence artificielle et les systèmes automatisés d’imagerie avancée.

 

FrVD: a new reference dataset of video clips, video descriptions and actions in French for deep learning

Speakers

Lise Rebout, Natural Language Processing Specialist, CRIM
Edith Galy, Computational Linguist, CRIM
Francis Charette-Migneault
Research Software Developer, CRIM

Abstract

We will present our work on the creation of the FrVD dataset consisting of annotated French video descriptions (VD) and built to aid research in automated VD production.VD provides an audio description of visual content to make it more accessible to visually impaired audiences. It is usually produced manually.  However, since 2015, deep neural network models have offered very encouraging results to assist in the automated production of video description. However, there are very few annotated resources in French to train such models. Three tasks are necessary to achieve the automated production of a VD: 1) the recognition of visual elements on the video - typically characters, scenes and actions 2) the description of these elements (image captioning) and 3) the composition of the VD. 

Our work focuses on the first task specifically. The objective of the project is to take advantage of the French VDs produced by CRIM since 2015, for which we have already identified the scenes and characters, and to enrich it thanks to the automated detection of actions in order to compile a new dataset: FrVD. FrVD thus includes references to video clips (movies, series), the original French VD and annotations of some visual elements, i.e. characters, scenes and actions. We will present the methods that allowed us, from manual (textual) and automated (textual and visual) annotations, to produce this corpus that can be used to train automated VD models in future work. 


Ce projet a été réalisé grâce au soutien du Fonds pour l'accessibilité de la Radiodiffusion (FAR).
This project was made possible thanks to the support of the Broadcasting Accessibility Fund (BAF).


Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les étudiants du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.

CRIM's scientific seminars, which are free and open to all, are given by internationally renowned experts, university collaborators, R&D staff and CRIM students and interns. The program features engaging presentations on the latest scientific and technological advances.


Cette présentation sera en français. Presentation will be given in French.

Conférence virtuelle. Gratuit, inscription obligatoire.

En vidéoconférence : l'hyperlien sera envoyé quelques jours avant la conférence.

Le 18 juin 2021
De 11h à 12h

Une présentation de Lise Rebout, spécialiste en traitement automatique des langues naturelles, Edith Galy, linguiste informaticienne et Francis Charette-Migneault, développeur de logiciels de recherche au CRIM.

Conférence en français.

Vous abonner aux infolettres du CRIM S'inscrire à notre infolettre
Suivez-nous sur :   LinkedIn  YouTube