PENERAPAN METODE SMOTE (Synthetic Minority Over-Sampling Technique) MENGGUNAKAN WEKA (Waikato Environment for Knowledge Analysis)

Ara Widhi Astutik
7 min readJul 28, 2023

--

Dataset yang akan digunakan dalam pengklasifikasian, akan dibagi dengan data latih dan data uji, pembagian tersebut diantaranya data latih 70%:30% data uji, data latih 80%:20% data uji dan data latih 90%:10% data uji di WEKA (Waikato Environment for Knowledge Analysis). Pada WEKA (Waikato Environment for Knowledge Analysis), akan dilakukan over-sampling menggunakan metode SMOTE (Synthetic Minority Over-Sampling Technique), penggunaan metode SMOTE dalam hal ini untuk menyamaratakan (menyeimbangkan) dataset agar seimbang. Data yang tidak seimbang mengakibatkan tidak diketahuinya nilai dari Precision, F Measure dan MCC yang hanya menghasilkan nilai (?). Tabel dibawah ini akan menampilkan dataset sebelum dan sesudah melalui proses over-sampling menggunakan metode SMOTE (Synthetic Minority Over-Sampling Technique) pada WEKA (Waikato Environment for Knowledge Analysis).

Diketahui bahwa dataset sebelum melalui proses over-sampling berjumlah 2771 data dengan sentimen positif sebanyak 1453 data, negatif sebanyak 1152 data dan netral sebanyak 166 data. Melalui proses over-sampling pada WEKA (Waikato Environment for Knowledge Analysis), maka jumlah dataset berubah menjadi 7866 data dengan sentimen positif sebanyak 2906 data, negatif sebanyak 2304 data dan netral sebanyak 2656 data. Berikut merupakan gambaran Tabel yang akan mengilustrasikan pembagian data latih dan data uji setelah over-sampling.

  • Klasifikasi Naïve Bayes

Pada pengujian menggunakan Naïve Bayes Classifier, dataset akan menghitung sesuai dengan rumus Naïve Bayes Classifier.

Keterangan :

X : Data dengan class yang belum diketahui

H: Hipotesis data X merupakan suatu class spesifik

P(H | X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probability)

P(H) : Probabilitas hopotesis H (prior probability)

P(X | H) : Probabilitas X berdasarkan kepada kondisi pada hipotesis H

P(X) : Probabilitas X

menghasilkan keluaran (output) yaitu Visualisasi Confusion Matrix

Keterangan :

  • TP (True Positif) merupakan data kelas positif yang terdeteksi benar.
  • FP (False Positif) merupakan data kelas negatif yang terdeteksi sebagai data positif.
  • FN (False Negatif) merupakan data kelas positif yang salah diklasifikasikan sehingga tergolong ke dalam data negatif.
  • TN (True Negatif) merupakan data kelas negatif yang terdeteksi benar.

untuk mengetahui tingkat akurasi tertinggi data latih dan data uji, sebelum melakukan klasifikasi menggunakan Naïve Bayes Classifier, Pada Gambar dibawah ini akan menampilkan cara WEKA (Waikato Environment for Knowledge Analysis) dalam membagi data latih dan data uji.

Gambar dibawah ini menampilkan hasil perhitungan klasifikasi dengan pembagian data latih 70% dan 30% data uji.

Hasil perhitungan klasifikasi dengan pembagian data latih 80% dan 10% data uji ditampilkan pada Gambar berikut.

Gambar berikut ini merupakan Perhitungan hasil klasifikasi dengan data latih 90% dan 10%.

  • Pengujian Confusion Matrix

Penguijan confusion matrix pada pembahasan ini , berdasarkan data yang telah melalui tahap over-sampling dan telah dibagi menjadi data latih dan data uji dari data komentar yang berjumlah 7866 data. Pengujian akan menggunakan confusion matrix 3x3 dengan acuan confusion matrix , karena klasifikasi penelitian ini terdiri dari tiga yaitu positif, negatif dan netral. Dibawah ini akan menampilkan confusion matrix terhadap pengujian data latih 70% dan 30% data uji.

Dari confusion matrix dengan data latih 70% dan 30% data uji, maka didapat hasil perhitungan Accuracy, Precision, Recall dan F-Measure sebagai berikut :

Hasil pengujian confusion matrix untuk data latih 80% dan 20% data uji ditampilkan pada Tabel dibawah ini.

Hasil perhitungan Accuracy, Precision, Recall dan F-Measure untuk data latih 80% dan 20% sebagai berikut :

Hasil pengujian confusion matrix untuk data latih 90% dan 10% data uji ditampilkan pada Tabel berikut ini.

Hasil perhitungan Accuracy, Precision, Recall dan F-Measure untuk data latih 90% dan 10% sebagai berikut :

PEMBAHASAN

  • ANALISIS SENTIMEN

Berdasarkan confusion matrix pada tiga pengujian data latih dan data uji, hasil akurasi tertinggi terdapat pada data latih 70% dan 30% data uji dengan tingkat akurasi sebesar 82%. Sentimen positif berjumlah 837 data dengan tingkat True Positive 100% dan term yang paling banyak muncul adalah “negara” berjumlah 51,671750 data kemudian di susul oleh term “indonesia”, “jokowi”, “kalimantan”, ”rencana”, sedangkan sentimen negatif berhasil mendapatkan data 79 sebanyak 364 data dengan term yang paling banyak muncul adalah “negara” dengan jumlah 37,076073 data kemudian di susul oleh term “dana”, “rakyat”, “proyek”, “tolak”, dan pada sentimen netral didapatkan data sebanyak 738 data dengan term yang paling banyak muncul adalah “negara” dengan jumlah 7,585516 data, kemudian di susul oleh term “rencana”, “indonesia”, “bahas”, “jokowi”.

Dalam pembahasan kali ini berdasarkan perhitungan nilai akurasi, diketahui Naïve Bayes Classifier dapat digunakan untuk mengklasifikasi sentimen dan mampu memberikan hasil yang baik dengan tingkat akurasi tertinggi. Tingkat hasil akurasi yang didapatkan menghasilkan sebesar 82% , hasil tersebut tidak jauh berbeda dengan penelitian sebelumnya yang telah dilakukan oleh Sunardi dkk. (2018), dimana dalam penelitian tersebut menghasilkan akurasi sebesar 80%. Adapun perbedaan antara pembahasan ini dengan penelitian sebelumnya adalah penanganan emoji (emoticon) pada tahap normalization. Ayuningtyas (2020) melakukan tindakan terhadap emoji (emoticon) dengan mengubah ke dalam bentuk tekstual untuk memperkaya daftar pustaka kata yang dipelajari pada saat pengklasifikasi. Sedangkan dalam pembahasan ini penanganan terhadap emoji (emoticon) pada komentar dihilangkan pada proses cleaning, hal ini karena mengganggu dalam proses sentiment analysis tweet.

  • EVALUASI KLASIFIKASI

Pada pembahasan ini, terdapat beberapa pengklasifikasian yang salah di artikan dalam proses klasifikasi Naïve Bayes di WEKA (Waikato Environment for Knowledge Analysis). Gambar dibawah ini merupakan hasil prediksi yang dilakukan oleh WEKA (Waikato Environment for Knowledge Analysis).

Tabel berikut membandingkan hasil prediksi yang dilakukan oleh WEKA (Waikato Environment for Knowledge Analysis) dan prediksi yang dilakukan secara manual untuk mendapatkan hasil kesimpulan klasifikasi sentimen.

Melalui Gambar dan Tabel diatas, penyebab WEKA salah dalam klasifikasi dataset yaitu :

Terdapat dataset yang tidak tepat, penyebab dari permasalahan ini adalah banyak ditemukan fitur kemunculan kata (term) yang bukan termasuk kategorinya pada data uji yang digunakan. Contohnya pada dataset terdapat kalimat “pindah kota islam”, Kemunculan kata (term) “pindah” terdapat pada sentimen positif dan sentimen netral. Hal inilah yang menyebabkan kesalahan dalam proses klasifikasi data. Kalimat “pindah kota islam” yang sebenarnya terklasifikasi menjadi kalimat dengan sentimen Netral, karena tidak beranggapan/beropini apapun akan di kenali sistem sebagai kalimat sentimen Positif. Pada saat sistem bekerja kalimat tersebut akan masuk dalam klasifikasi sentimen Positif yang ada pada dataset sebelumnya, hal ini dikarenakan pada sentimen Positif terdapat kata “pindah” dengan kalimat “pindah kota negara catat inosentius samsul istana negara jual” . Jadi, dapat disimpulkan bahwa permasalahan dalam hal ini apabila terdapat kata (term) yang sama pada dataset akan mempengaruhi proses klasifikasi pada sistem dan dapat mempengaruhi tingkat akurasi sistem, sehingga mengakibatkan kinerja sistem tidak berjalan secara maksimal.

KESIMPULAN

Berdasarkan hasil pengujian dan analisis yang telah dilakukan maka dapat disimpulkan bahwa :

  • Sentimen masyarakat terhadap Pemindahan Ibu Kota Negara Indonesia Tahun 2024 hingga saat ini cenderung positif , dengan tingkat True Positive 100% dan kata (term) yang paling sering muncul “negara” dengan frekuensi sebanyak 51, 671750 kata , disusul oleh term “indonesia”, “jokowi”, “kalimantan” dan “rencana”. Kata (term) inilah yang paling sering diulas oleh masyarakat Twitter dalam menyampaikan pendapatnya pada cuitan media sosial Twitter. Sehingga dapat di simpulkan dalam hal ini masyarakat mendukung mengenai pemindahan Ibu kota Indonesia yang berlangsung secara bertahap pada tahun 2024.
  • Tingkat akurasi tertinggi yang didapatkan dalam penelitian ini yaitu pada percobaan pertama dimana menggunakan data latih 70% dan 30% data uji yang menghasilkan tingkat akurasi sebesar 82% dengan nilai Precision 66,53% , Recall 100%, dan F-Measure sebesar 79,86%.
  • Semakin kecil data latih dan data uji yang digunakan dalam pengklasifikasian sentimen pada pembahasan ini, maka akan semakin kecil tingkat kesalahan error rate dan menghasilkan tingkat akurasi lebih tinggi.
  • Pengklasifikasian dataset mengenai sentimen masyarakat terhadap Pemindahan Ibu Kota Negara Indonesia Tahun 2024 pada Media Sosial Twitter menggunakan algoritma Naïve Bayes Classifier dapat di klasifikasikan dengan baik dan mampu memberikan hasil dengan tingkat akurasi tertinggi.

Daftar Pustaka :

https://i.ytimg.com/vi/adHqzek--d0/maxresdefault.jpg

http://eprints.utdi.ac.id/id/eprint/9837

--

--

Ara Widhi Astutik
0 Followers

Hallo Hallo, Untuk kalian yang gemar dibidang analis data dan ingin mengolah data kemudian merepresentasikannya, semoga artikel ini membantu ya