[Data & crise] Saison #3 E3 — Super Caméléon sait faire des résumés

Nadia Zabeti
INVYO
Published in
4 min readNov 24, 2021

Bienvenue dans cette nouvelle aventure de Super Caméléon! Après l’avoir suivi dans sa mission de consultant RSE👇

Le voilà prêt pour… faire des résumés!

Qui n’a jamais été dans cette situation : une pile de documents à lire et à traiter, et peu de temps pour le faire 🙄

Nous allons vous accompagner pas à pas et vous montrer 2 techniques de résumé de texte généré automatiquement.

Ces 2 techniques reposent soit sur une méthode exclusivement extractive (le résumé sélectionne des bouts de phrases), ou exclusivement abstractive (le résumé génère de nouvelles phrases), ou une combinaison des deux.

Méthode 1 : TF-IDF (méthode extractive)

On se réfère à la fréquence d’apparition d’un mot (Term Frequency ou TF), et à sa fréquence inversée (Inverse Document Frequency ou IDF).

Le TF-IDF associe à chaque mot une valeur. Ce score prend en compte la fréquence d’apparition du mot (TF) mais aussi la rareté du mot via l’IDF qui sous-pondère les mots qui apparaissent trop fréquemment dans le corpus, et sur pondère ceux qui apparaissent peu dans le corpus.

Prenons un exemple.

Dans un article de presse, le mot “NLP” apparaît 10 fois. Le nombre total de mots de l’article est de 1000. Le TF du mot “NLP” est donc de 10/1000 = 0,01.

Sur le site où cet article est hébergé, le mot “NLP” apparaît dans seulement 1 articles sur 10000. L’IDF du mot “NLP” est donc de log (10000/1) ≃ 9,2.

Le TF-IDF de “NLP” est donc 0,01*9,2, = 0,092.

Ainsi, un terme peut être rare dans un corpus et avoir toutefois un TF-IDF élevé.

Le TF représente l‘occurrence d’un mot dans le document
L’IDF représente la rareté du mot dans l’ensemble du corpus
NB : pour plus de clarté dans la lecture, on affiche ici le résultat avec les stopwords
Middle-income countries include the lower-middle-income and upper-middle-income brackets. That assessment may require consideration of quantitative and qualitative factors. Nature contributes to societies through the provision of contributions to people. They threaten communities, value chains, and entire economies. And how can policy support both environmental and economic objectives? Depiction of the building blocks of the integrated ecosystem-economy model. The analysis demonstrates that nature-smart policies are also  climate-smart policies. Global carbon payments require inter- national transfers. 
The biodiversity outcomes show considerable heterogeneity among regions.
Other policies have much-improved prospects for being adopted widely. The consequential climate change mitigation benefits.The analysis demonstrates that nature-smart policies are also climate-smart policies. Global carbon payments require inter- national transfers. The biodiversity outcomes show considerable heterogeneity among regions. Middle-income countries include the lower-middle-income and upper-middle-income brackets. Other policies have much-improved prospects for being adopted widely. The consequential climate change mitigation benefits.

Méthode 2 : on utilise la similarité cosine et le TF-IDF (méthode extractive) puis on applique une méthode abstractive via Transformers 🚀

Recognizing that economies rely on ecosystem services and that loss of nature's assets stems from economic decisions, this report presents a novel modeling framework that uses economic data to estimate how an economy mightthe decline in the ecosystem services analyzed, caused by the conversion of natural land to cropland, pastureland and forest plantations, results in a loss of global real gdp in 2030 of $90the major limitation of this scenario, which is referred to as the "baseline scenario," is that, although changes in the economy increase the demand for natural capital, which in turn a drawing on the work of the stockholm resilience centre, 21 the model assesses the impact of the collapse-a 90 percent reduction in the flow of ecosystem services value-of wild pollination, marinethe report assesses the link between the decline of the select ecosystem services-pollination of crops by wild pollinators, climate regulation from carbon storage.

Quel résumé trouvez-vous le plus pertinent ? 😁 Le 1 ou le 2?

Merci pour votre lecture et rdv le mois prochain 🌼

Merci à @Enzo Ramirez pour le code

--

--