Événements  Events

On the transparency and reliability of automatic summarization

On the transparency and reliability of automatic summarization

Présentation en anglais

On the transparency and reliability of automatic summarization

Speaker

Vidhisha Balachandran Ph.D. student at the Language Technologies Institute at Carnegie Mellon University.

Abstract

Internet users today have access to an ocean of information via the Web ranging from news articles to blogs to textbooks. To consume this ever-growing pool of information, the need for tools to concisely and accurately summarize important content from these sources is urgent. As data-driven NLP (Natural Language Programming) tools for automatic summarization are increasingly deployed as primary mediums for information consumption, they also become ripe for misuse by inadvertently propagating factual inaccuracies and overfitting to spurious data artifacts. Our work aims to build transparent and reliable tools for automatic summarization.

This talk presents novel work toward building such methodologies. I will first introduce StructSum, an interpretable summarization framework that leverages the narrative structure of the document for producing higher quality summaries with reduced reliance on dataset artifacts. I will then present FRANK, a fine-grained factuality-focused evaluation benchmark that uses a linguistically motivated typology to elicit human annotations on factual errors made by many state-of-art summarization models. We present a two-fold analysis: (i) we analyze various summarization models and present their strengths and weaknesses in producing factually consistent summaries and (ii) we test recent metrics proposed to evaluate factuality and present a fine-grained understanding of what kinds of errors they detect well. Finally, I will conclude with some thoughts on future directions of our work and the field of automatic summarization.

Biography

Vidhisha Balachandran is a 2nd year Ph.D. student at the Language Technologies Institute at Carnegie Mellon University being advised by Yulia Tsvetkov. Her current research focuses on building interpretable and reliable NLP models with a focus on summarization, information extraction, and KB-based reasoning. Vidhisha completed her Master’s from LTI in 2019 under the supervision of William Cohen and Jaime Carbonell.


Transparence et fiabilité des résumés automatiques

Conférencière  

Vidhisha Balachandran, doctorante à l'Institut des technologies du langage (Language Technologies Institute) de l'Université Carnegie Mellon.

Résumé 

Les internautes ont aujourd'hui accès à une mer d'informations via le Web, allant des articles d'actualité aux blogues en passant par les manuels scolaires. Pour pouvoir consommer cette masse d'information en constante augmentation, il est urgent de disposer d'outils permettant de résumer de manière concise et précise le contenu principal de ces sources. Alors que les outils TALN (traitement automatique du langage naturel) basés sur les données pour la création de résumés automatiques sont de plus en plus déployés en tant que vecteurs primaires pour la consommation d'information, ils sont également susceptibles d'être utilisés à mauvais escient en propageant par inadvertance des inexactitudes factuelles et en s'adaptant de manière excessive à des artefacts de données erronées. Notre travail vise à construire des outils transparents et fiables pour le résumé automatique.

Cette présentation décrit les travaux novateurs réalisés pour construire de telles méthodologies. Je présenterai d'abord StructSum, un cadre de résumés interprétables qui exploite la structure narrative du document pour produire des résumés de meilleure qualité en réduisant la dépendance aux artefacts de données. Je présenterai ensuite FRANK, un outil d'évaluation à grain fin axé sur la factualité qui utilise une typologie fondée sur la linguistique pour recueillir des annotations humaines sur les erreurs factuelles commises par de nombreux modèles de pointe de génération de résumé. Nous proposons une analyse en deux volets : (i) nous analysons divers modèles et présentons leurs forces et faiblesses dans la production de résumés factuellement cohérents et (ii) nous testons plusieurs métriques récentes proposées pour évaluer la factualité et expliquons avec précision quels types d'erreurs elles détectent bien. Enfin, je conclurai par quelques réflexions sur les orientations futures de nos travaux et du domaine des résumés automatiques.

Biographie

Vidhisha Balachandran est une étudiante en deuxième année de doctorat au Language Technologies Institute de l'Université Carnegie Mellon, sous la direction de Yulia Tsvetkov. Ses recherches actuelles portent sur la création de modèles TALN fiables et interprétables, en particulier dans le domaine du résumé, de l'extraction d'information et du raisonnement basé sur les bases de données. Vidhisha a terminé sa maîtrise au LTI en 2019 sous la supervision de William Cohen et Jaime Carbonell.


Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les étudiants du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.


Conférence virtuelle. Gratuit, inscription obligatoire. Cette présentation sera en anglais.

En vidéoconférence : l'hyperlien sera envoyé quelques jours avant la conférence.

Le 30 avr. 2021
De 11h à 12h

A presentation by Vidhisha Balachandran Ph.D. student at the Language Technologies Institute at Carnegie Mellon University.
Une présentation de Vidhisha Balachandran, doctorante à l'Institut des technologies du langage de l'Université Carnegie Mellon.
Conférence en anglais.

Vous abonner aux infolettres du CRIM S'inscrire à notre infolettre
Suivez-nous sur :   LinkedIn  YouTube