Événements  Events

Text Summarization Across High and Low-resource Settings

Text Summarization Across High and Low-resource Settings

Présentation en anglais

Text Summarization Across High and Low-resource Settings

Speaker

Alexander Fabbri, Ph.D. Student, Yale University, Department of Computer Science.

Abstract

Natural language processing (NLP) aims to build automated systems that can both understand and generate natural language textual data. As the amount of textual data available online has increased exponentially, so has the need for intelligence systems to comprehend and present this data to the world. As a result, automatic text summarization, the process by which a text's salient content is automatically distilled into a concise form, has become a necessary tool.

This talk presents novel data and modeling techniques for deep neural network-based summarization models trained across large-scale and low-resource data settings. Large-scale datasets allowed for training initial neural models, and recently-introduced pretrained models for summarization have since beaten previous state-of-the-art results and performed very well in low-resource settings. However, recently researchers have called into question the evaluation protocols upon which we measure progress. My talk will follow this trajectory. I will first introduce Multi-News, the first large-scale news multi-document summarization dataset, and HI-MAP, our model for reducing summarization redundancy. Secondly, I will present our work WikiTransfer, which aims to push the boundaries of abstractive summarization model performance when little or no training data is available by using constraints inherent in the summarization task. Finally, I will present a comprehensive evaluation of current summarization metrics and models, pointing to positive findings in current metrics and pretrained models and also the need for improved, fine-grained evaluation protocols. 

Biography


Résumé de texte dans des conditions riches ou pauvres en ressources

Conférencier  

Alexander Fabbri, étudiant au doctorat, département d'informatique de l'Université Yale.

Résumé 

Le traitement automatique des langues naturelles (TALN) vise à construire des systèmes automatisés capables de comprendre et de générer des données textuelles en langage naturel. Alors que la quantité de données textuelles disponibles en ligne a augmenté de façon exponentielle, le besoin de systèmes intelligents pour comprendre et présenter ces données a également augmenté. Par exemple, le résumé automatique de texte, le processus par lequel le contenu essentiel d'un texte est automatiquement distillé dans une forme concise, est devenu un outil essentiel.

Cet exposé présente de nouvelles données et techniques de modélisation pour les modèles de résumé basés sur des réseaux neuronaux profonds formés dans des contextes de données à grande échelle et à faibles ressources. Les ensembles de données à grande échelle ont permis d'entraîner les modèles neuronaux initiaux. Les modèles de résumé pré-entraînés récemment introduits ont depuis dépassé les résultats précédents de l'état de l'art et ont obtenu d'excellents résultats dans des environnements à faibles ressources. Cependant, les chercheurs ont récemment remis en question les protocoles d'évaluation sur lesquels nous mesurons les progrès. Mon exposé suivra cette trajectoire. Je présenterai d'abord Multi-News, le premier jeu de données de résumé multi-documents d'actualités à grande échelle, et HI-MAP, notre modèle pour réduire la redondance du résumé. Ensuite, je présenterai notre projet WikiTransfer, qui vise à repousser les limites de la performance des méthodes abstraites de génération de résumé lorsqu'il y a peu ou pas de données d'entraînement disponibles, en utilisant les contraintes inhérentes à la tâche de résumé. Enfin, je présenterai une évaluation complète des métriques et des modèles de résumé actuels, en soulignant les résultats positifs des métriques et des modèles pré-entraînés existants, ainsi que la nécessité de protocoles d'évaluation améliorés et à granularité fine.


Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les étudiants du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.


Conférence virtuelle. Gratuit, inscription obligatoire. Cette présentation sera en anglais.

En vidéoconférence : l'hyperlien sera envoyé quelques jours avant la conférence.

Le 16 avr. 2021
De 11h à 12h

Lieu Vidéoconférence
ContactCRIM514 840-1234

A presentation by Alexander Fabbri, Ph.D. Student, Yale University.
Une présentation de Alexander Fabbri, étudiant au doctorat, Université Yale.
Conférence en anglais.

S'inscrire
Vous abonner aux infolettres du CRIM S'inscrire à notre infolettre
Suivez-nous sur :   LinkedIn  YouTube Medium