Text Analysis and Topic Modelling Covid-19

Octaviano
BISA.AI
Published in
3 min readJun 1, 2020

Pandemic Covid-19 di Indonesia saat ini memunculkan riset — riset terbaru terkait penanganan covid-19, salah satunya adalah riset di bidang text analysis dan topik modelling. sebagai contoh misalkan jika diberikan suatu text yang berasal dari sosial media (Twitter, Instagram, atau sosmed lainnya), maka kita dapat memodelkan topik apakah yang sedang hangat dibicarakan pada saat ini (seperti gambar word cloud diatas mengenai topik yang sedang dibahas). Pada tutorial ini akan dibahas mengenai tutorial cara membuat text analysis dan pemodelan topik Covid-19 dengan latent dirichlet allocation pada bahasa pemrograman python.

Pre-Requisites:

  1. Memahami alur Crawling Data dengan Python disini
  2. Memahami dasar — dasar Data Science atau Machine Learning

Pada tutorial ini akan dibagi pada 3 bahasan yaitu: (1) data gathering, (2) data pre-processing, dan (3) Topik Modelling

Data Gathering

pada tahap ini akan dilakukan pengumpulan dataset yang berasal dari sosial media ataupun dari news. kami merekomendasikan untuk menggunakan data berikut: https://www.kaggle.com/ryanxjhan/cbc-news-coronavirus-articles-march-26 atau anda dapat melakukan crawling sendiri sesuai dengan kebutuhan anda, contohnya crawling Twitter mengenai Covid-19. Bertikut detail langkah — langkah yang dapat dijalankan:

Langkah awal setelah anda memiliki dataset teks, simpan dataset teks covid-19 anda di Google Drive

Anda dapat menggunakan Library Pandas untuk membaca dataset text yang berisi text article dan Twitter

langkah berikutnya anda dapat memberikan visualisasi terhadap korpus yang telah dibaca dengan Word Cloud

Data Pre-Processing

Langkah berikutnya adalah memberikan teknik data pre-processing untuk corpus yang telah dibaca seperti teknik stemming, stopwords, remove punctuation dan teknik text processing lainnya

Langkah pertama adalah kita membuat beberapa fungsi untuk text pre-processing seperti berikut:

perintah diatas berfungsi untuk tokenisasi (memisahkan kalimat menjadi kata), replace newline, tab dan sebagainya, menghapus punctuation, dan remove emoji. kemudian pada baris perintah berikut, kita jalankan fungsinya dan juga berikan text pre-processing lainnya seperti menghapus link, tag html dan mengubah menjadi lower case

setelah program tersebut dijalankan, maka hasil yang diperoleh sebagai berikut. terdapat field baru yaitu token_bersih yang berisi token setelah dijalankan text pre-processing.

Topik Modelling

pada tahap ini akan dijalankan topik modelling untuk memodelkan topik dengan model Latent Dirichlet Allocation.

Langkah pertama, ubah setiap text menjadi Vektor dengan CountVectorizer yang tersedia di Sklearn. kemudian kita masukan kedalam model Latent Dirichlet Allocation.

Visualisasikan dengan Wordcloud untuk setiap topik yang telah dibentuk

--

--