Implementasi Algoritma Logistic Regression Menggunakan Teknik Randomized SearchCV dan Multioutput Classifier untuk Menangani Klasifikasi Multilabel

Dadan Dahman W.
Howdy Sysinfo
Published in
3 min readMay 26, 2024

Ujaran kebencian (hate speech) dan bahasa kasar (abusive language) merupakan suatu tindakan negatif yang seringkali terjadi di lingkungan kita. Terlebih lagi dengan adanya teknologi yang semakin maju dan serba online, siapa saja bisa melakukan penyebaran ujaran kebencian maupun bahasa kasar melalui media sosial.

image by https://www.lpb-bw.de/hatespeech

Howdy Sysinfo? Kali ini saya akan berbagi pengalaman hasil dari tugas akhir strata-1 saya pada tahun 2022, namun baru sempat saya post di tahun 2024, semoga bermanfaat.

Latar Belakang Masalah

Media sosial merupakan sebuah media daring yang digunakan satu sama lain yang para penggunanya bisa dengan mudah berpartisipasi, berkomunikasi, berbagi, dan menciptakan berbagai konten tanpa dibatasi oleh ruang dan waktu. Selain memiliki fungsi yang dapat memudahkan berbagai urusan media sosial juga tidak terlepas dari hal-hal negatif yang dapat mempengaruhi pola pikir dan juga pola hidup si pengguna media sosial. Berdasarkan laporan We Are Social, jumlah pengguna aktif media sosial di Indonesia sebanyak 191 juta orang pada Januari 2022. Jumlah itu telah meningkat 12,35% dibandingkan pada tahun sebelumnya yang sebanyak 170 juta orang.

Melihat trennya, jumlah pengguna media sosial di Indonesia terus meningkat setiap tahunnya. Walau demikian, pertumbuhannya mengalami fluktuasi sejak tahun 2014–2022. Kenaikan jumlah pengguna media sosial tertinggi mencapai 34,2% pada tahun 2017. Hanya saja, kenaikan tersebut melambat hingga sebesar 6,3% pada tahun lalu. Angkanya baru meningkat lagi pada tahun 2022. Adapun, Whatsapp menjadi media sosial yang paling banyak digunakan masyarakat Indonesia. Persentasenya tercatat mencapai 88,7%. Setelahnya ada Instagram dan Facebook dengan persentase masing-masing sebesar 84,8% dan 81,3%. Sementara, proporsi pengguna TikTok dan Telegram berturut-turut sebesar 63,1% dan 62,8%.

image by author

Ujaran kebencian (hate speech) merupakan perbuatan yang dilakukan oleh individu maupun kelompok dengan tujuan ingin menjatuhkan individu atau kelompok lainnya. Provokasi, fitnah, dan hinaan adalah bentuk dari ujaran kebencian. Ujaran kebencian dalam ruang lingkup sosial media sering terjadi dengan konteks atau aspek ras, warna kulit, jenis kelamin, agama, dan sebagainya (Fauzi & Yuniarti, 2018).

Bahasa kasar (abusive language) sering diungkapkan karena kekesalan, emosi, kecewa, atas sebuah peristiwa yang terjadi dengan individu atau kelompok tertentu. Dalam sosial media bahasa kasar sering di implementasikan pada hal-hal yang tergolong ke dalam konteks SARA (suku, agama, ras, dan antar golongan). Kata-kata kasar dalam bahasa Indonesia biasanya diucapkan atau dituliskan untuk menyerang pihak tertentu, mengungkapkan kekesalan, kekecewaan, atau meluapkan emosi terhadap peristiwa tertentu (Hidayatullah dkk., 2019).

Identifikasi Masalah

Berdasarkan masalah yang terdapat pada latar belakang, maka penulis akan melakukan analisa dan perancangan arsitektur model terhadap metode Logistic Regression dalam mengklasifikasi multilabel ujaran kebencian dan bahasa kasar pada twitter bahasa Indonesia dengan menggunakan teknik Randomized Search CV dan Multioutput Classifier untuk menangani klasifikasi multilabel.

Perumusan Masalah

Rumusan masalah yang akan dibahas dalam penelitian ini yaitu bagaimana cara membangun arsitektur model klasifikasi multilabel ujaran kebencian dan bahasa kasar pada twitter bahasa Indonesia dengan menggunakan algoritma Logistic Regression sebagai classifier, melihat performa dari algortima Logistic Regression dalam mengklasifikasi multilabel menggunakan metode evaluasi model akurasi, serta menggunakan teknik randomized search cv dan multioutput classifier dalam proses model selection dan hyperparameter tuning.

Ruang Lingkup

Ruang lingkup masalah dalam penelitian ini, diantaranya:

  1. Data yang diproses sebanyak 13169 tweet (Ibrohim & Budi, 2019).
  2. Label yang diproses yaitu hate speech dan abusive.
  3. Algoritma klasifikasi yang digunakan adalah Logistic Regression.
  4. Metode feature selection yang digunakan adalah Term Frequency-Inverse Document Frequency.
  5. Output yang dihasilkan dari penelitian ini adalah klasifikasi multilabel ujaran kebencian dan bahasa kasar pada twitter bahasa Indonesia.

Tujuan Penelitian

Beberapa tujuan yang ingin dicapai dalam penelitian ini, diantaranya:

--

--