Андрій Елиїв, Нікхіл Аґґарваль

Світові ЗМІ щогодини видають тисячі новин різними мовами. Багато з них є оригінальними, деякі з них зібрані з соціальних мереж, але більшість просто передруковані з інших джерел із незначними змінами. Новини містять різні атрибути, метадані, сутності, ключові слова, вони можуть бути вжитті в контексті з різними сентиментами. Для управління такою кількістю неструктурованих даних були розроблені Прикладні Програмні Інтерфейси (API), що дозволяють кінцевим користувачам послідовно отримувати події, теми та іншу корисну інформацію з новин у добре організованій та зрозумілій формі.

Image for post
Image for post

Пряме застосування веб-скреперів до сайтів новин стикається з великою кількістю викликів та обмежень. RSS-канали новин стали менш популярними зараз, і багато джерел обмежили їх підтримку. Новинні API широко використовуються розробниками, спеціалістами з аналізу даних, вченими з даних та інженерами з обробки природних мов. Зазвичай API новин доповнюється інструментами аналізу тексту, які надають можливість отримувати з новин цінну інформацію, таку як мова, ключові слова та фрази, сентименти, категорії, резюме та ін. …


Андрій Елиїв, Нікхіл Аґґарваль, Альдо Візібеллі

В останні місяці світ кардинально змінився, і засоби масової інформації почали переводити свою увагу на надзвичайну ситуацію з Ковід-19. Аналізуючи мільйони новин опублікованих в березні-квітні 2020 року, ми виявили що близько 98% з них мають те чи інше відношення до Ковід-19. Кількість хворих та кількість жертв були одними з найчастіших тем. Однак, статистичні дані щодо кількості випадків у певних регіонах містять багато розбіжностей.

Image for post
Image for post

Невизначеність у кількості нових випадків та жертв захворювання спонукає засоби масової інформації до пошуку правдивих даних. Невідповідності між інформацією з різних видань та оперуванням чутливими термінами призвели до того, що ми звернулися до надійних першоджерел даних. Наша команда науковців даних порівняла загальну кількість загиблих у березні 2019 року в кожному муніципалітеті Італії з кількістю загиблих у 2020. …


Виділення найбільш релевантної та інформативної частини тексту новин

Андрій Елиїв, Нікхіл Аґґарваль, Альдо Візібеллі

Життя в суспільстві, що швидко розвивається, характеризується перевантаженням інформації, відомим як інфоксикація, що сильно гальмує здатність обробляти інформацію для прийняття рішень. Перевантаження інформацією також може серйозно погіршити якість прийняття рішень. Таким чином, здатність людей та організацій оперативно розуміти ключові повідомлення, що стоять за великим обсягом інформації, стає все більш необхідною.

Наявність в Інтернеті великої кількості суперечливих, а в деяких випадках і неперевірених матеріалів щодо кризи Covid-19 є прикладом виклику, з яким ми повинні мати справу для прийняття зважених рішень. …

About

Connexun | news api

Connexun is the ultimate AI news engine — turning unstructured news content into multi-purpose actionable data.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store