Data Azab FTV: the other point of view
*the content will be written in Bahasa
azab n siksa Tuhan yang diganjarkan kepada manusia yang melanggar larangan agama: dia takut akan — Allah;
— sengsara segala macam penderitaan (kesengsaraan)
Pada 24 Oktober lalu, Kumparan merilis satu analisa dari data judul-judul ftv religi yang sedang menjadi topik hangat dalam beberapa minggu terakhir. Dalam tulisannya, kumparan menyatakan bahwa data tersebut menyebutkan bagaimana Pedagang dan Pengangguran Paling Banyak tertimpa azab disebut dalam judul-judul tersebut. Tak hanya azab menurut profesi, kumparan juga melakukan analisa sederhana dari azab menurut gender.
Disebabkan oleh artikel tersebut dan ketersediaanya data, tulisan ini pun dibuat untuk melihat aspek lain yang bisa di dapat dari data 194 judul ftv tersebut. Dimulai dari bagaimana menyiapkan datanya, merumuskan tujuan analisa, dan menentukan teknik sederhana yang akan dilakukan menggunakan python. (keselurahan script bisa didapat di sini)
Data Extraction
Link data diatas menyediakan semua 194 judul ftv yang digunakan kumparan dalam analisisnya, namun terlihat tidak serapi yang diperkirakan (bayangannya sudah rapi aja).
Dalam link tersebut data text yang tersedia belum dalam bentuk tabular, namun teks-teks tersebut terlihat ada polanya dimana setelah angka pasti diikuti dengan judul filmnya dan kata sebelum angka adalah stasiun TV yang menyiarkannya. Teks tersebut dapat diextract menjadi tabular dengan simple script di python (3.6.5) seperti di bawah ini (dengan semua teks di link tersebut dicopy dan disimpan dalam “raw_data.txt”).
PS: Hati-hati dengan judul yang mengandung angka. Untungnya hanya ada 1 judul yang mengandung angka. Jenazah 3 Bersaudara Mati Dempet, Dikuburkan Dekat Galian Sampah
Script diatas menghasilkan tabular data dengan 194 baris dan 2 kolom sebagai berikut (yang selanjutnya akan disebut sebagai “Data Azab”).
Data Text Cleaning
Data Azab ini terbilang cukup bersih dan bisa langsung dilakukan analisa, yang harus diperhatikan adalah hanya stopwords dan punctuation . Jika ingin dilakukan analisa lebih juga bisa dilakukan stemmer yang artinya mengubah kata-kata dalam teks menjadi kata dasar (untuk python bisa menggunakan Sastrawi).
Karena dalam koteks judul-judul ini (dan analisa kita selanjutnya) kata “Ibu” penting, walaupun cuma disebut 9 kali, sehingga kata “ibu” tidak dimasukan ke stopwords . Kata “dzolim” atau “dzalim” serta “orang tua” juga penting sehingga perlu dilakukan perilaku khusus pada saat stemming yang dimana sastrawi belum bisa mengubahnya menjadi kata dasar (dimana kata yang benar adalah “Zalim” berdasarkan KBBI).
zalim/za·lim/ a bengis; tidak menaruh belas kasihan; tidak adil; kejam;
Berikut hasil stemming dan pembersihan punctuation ditabular data,
Tingkatan “Azab”
Pada umumnya data teks cukup sulit untuk dianalisa dikarenakan banyak kata yang berbeda dengan makna yang sama, serta bahkan bisadibutuhkan embedding process. Namun, untuk kasus Data Azab ini, dikarenakan rata2 panjang teks relative sedang (10 kata tiap judul dalam rata-rata) serta variasi kata yang begitu banyak (seperti ‘adukan’, ‘terjebur’, ‘tawon’, ‘ribuan’, ‘formalin’, ‘timah’, ‘ternak’), embedding process tidak akan membantu banyak hal.
Hal yang menarik dari Data Azab ini (setelah dilakukan skimming) adalah pola yang muncul di hampir semua Judul. Secara garis besar, setiap judul FTV ini pasti mengandung entitas Pelaku Dosa dan Azab yang diberikan, ditambah juga elemen Dosa yang dilakukan pelaku yang sering muncul didalam entitas Pelaku Dosa, sebagai contoh
Namun, Azab memiliki tingkatan yang berbeda untuk setiap satu Pelaku Dosa yang sama. Hal ini terjadi jelas bergantung pada Dosa apa yang dilakukannya. Berdasarkan skimming dan konteks dari semua judul pada Data Azab ini, entitas Azab memiliki beberapa tingkatan :
- Penderitaan : Pada tingkatan ini Azab tidak menyebabkan kematian pada Pelaku dosa. Seperti menjadi sakit-sakitan atau harta menghilang.
- Kematian : Azab yang diberikan adalah suatu kejadian yang begitu dahsyat yang menyebabkan kematian pada Pelaku dosa. Seperti tersengat listrik, tertimpa panggung, atau mati karena lintah di rawa.
- Jenazah : Pelaku dosa mendapatkan Azab setelah kematiannya, seperti jenazah menghilang, bumi menolak jenazah atau janazah dipatok puluhan ular.
- Keranda : Hampir sama dengan sebelumnya, namun Azab ini terjadi secara spesifik di keranda si Pelaku Dosa. Sebagai contoh, keranda tertimpa atap, atau tertancap bambu.
- Kuburan : Tingkat ini juga sama dengan sebelumnya, yang berbeda hanya tempatnya dimana Azab terjadi di kuburannya. Bisa setelah dikuburkan atau saat sebelum dikuburkan. Contohnya, kuburan mengecil, kuburannya bau atau kuburannya tak bisa digali.
Untuk satu judul FTV tidak menutup kemungkinan terdapat multiple tingkatan Azab, seperti FTV berjudul Akibat Tamak Suamiku Tenggelam dalam Gentong Minyak dan Makamnya Jatuh Ke Jurang, atau Jenazah Penebang Kayu Liar Mati Dengan Kulit Bersisik Pohon Dan Kerandanya Tetimpa Pohon Sampai Terbakar.
Untuk mengekstrak tingkatan Azab ini disetiap judul FTV bisa dilakukan dengan rule based sederhana untuk setiap tingkatannya. Misalkan jika judul mengandung kata “Jenazah”, “Mayat” atau “Jasad” maka judul ini memiliki tingkatan Jenazah.
Rule Based ini tidak memberikan keakuratan yang tinggi contohnya Anakku Ditolak Bumi Karena Hidup penuh Dosa harusnya memiliki tingkatan Kuburan namun judul ini masuk tingkatan Penderitaan karena tidak eksplisit menyebut “kuburan” di dalam judulnya. Walaupun keakuratannya masih kurang, Rule based ini cukup untuk menggambarkan bagaimana proporsi tingkatan Azab di semua Data Azab ini.
Selanjutnya, setelah mendapatkan tingkatan Azab di setiap judul, bisa dilakukan perhitungan proporsi tingakatn Azab di setiap Saluran TV.
Terlihat bahwa proporsi tingkat Kematian di MNC TV lebih banyak secara signifikan dibandingkan di Indosiar. Sebaliknya, tingkat Keranda lebih banyak terjadi di Indosiar. Namun, untuk tingkatan lainnya, tidak ada perbedaan yang besar, yang menandakan judul yang diberikan di MNC dan Indosiar tidak memiliki variasi yang berbeda berdasarkan tingkatan Azabnya hanya saja MNC TV lebih sering melakukan multiple Azab dengan menambahkan fenomena kematiannya si Pelaku Dosa di Judulnya.
Durhaka
Tingkatan Azab diatas, seperti juga sudah dibahas, sebenernya juga mungkin bergantung pada bentuk dosanya. Untuk melihat hubungan dosa dan azabnya bisa diambil beberapa contoh dosanya seperti dosa yang berhubungan dengan harta dan dosa durhaka. (Karena keterbatasan waktu dan teknik yang digunakan, dosa yang dipilih hanya dua dosa tersebut).
Dosa pertama untuk diekstrak adalah dosa durhaka dimana dosa durhaka bisa ada dua jenis, Durhaka antara Orangtua-Anak dan Durhaka Suami-Istri. Menggunakan rule based yang hampir sama, bisa didapat matrix correlation sebagai berikut,
Matrix korelasi ini (nilai negatif menunjukan hubungan yang sangat lemah) menunjukan bahwa untuk kedua saluran TV lebih sering melakukan judul dengan durhaka antara Orangtua-Anak dibandingkan durhaka Suami-Istri. Sebagai tambahan, hubungan Anak dengan Ibu lebih sering dibahas dibandingan Anak dengan Ayah. Untuk selanjutnya, Durhaka akan menunjuk ke Durhaka Orangtua-Anak.
Menggunakan perhitungan korelasi yang sama, didapat tabel pivot seperti berikut,
Matrix korelasi dosa-azab diatas memberikan beberapa informasi menarik dimana
- MNC TV lebih sering menghubungkan Durhaka Orangtua-Anak dengan Dosa harta dibanding Indosiar.
- Untuk Pendosa Harta ataupun Durhaka, Indosiar seringnya memberikan judul dengan azab ditingkatan Jenazah. Namun, Durhaka Ortu sedikit variatif dengan adanya tingkatan Kematian.
- Sedangkan untuk kedua dosa di MNC TV lebih sering diberikan judul dengan tingkat Kuburan. Sama dengan Indosiar, Durhaka Ortu jauh lebih variatif dengan adanya tingkatan Keranda.
Dua Informasi terakhir diatas menunjukan bahwa Dosa Ortu-Anak lebih banyak dapat perhatian dibandingkan Dosa Harta. Hal ini terjadi kemungkinan karena adat ketimuran yang masih sangat erat dengan menghormati orang tua.
Most Word Bias
Walaupun dengan teknik diatas telah memberikan informasi yang bagus, namun ada kemungkinan informasi tersebut adalah informasi bias, contohnya informasi tingkatan azab Jenazah di Indosiar untuk pedosa Durhaka. Informasi ini ada kemungkinan bias karena sebagian besar judul di Indosiar mengandung kata “Jenazah”. Untuk itu perlu di lakukan statistical testing terlebih dahulu apakah informasi yang didapat hanya kebetulan belaka atau bisa digeneralisir.
Konklusi
Data Teks merupakan salah satu bentuk data yang menarik untuk dianalisa karena bisa dilihat dari berbagai point of view sesuai konteks dari setiap kalimat di dalam teksnya. Beberapa diantaranya yang bisa dilakukan adalah NER (Named Entity Recognition), yang mana untuk kasus ini ada Entitas baru yang unik yaitu Pelaku Dosa dan Azab, dan korelasi sederhana diantara kata dalam teks yang bisa memiliki banyak arti serta interpretasi.
Terakhir, janganlah durhaka dengan orang tua karena ada banyak variasi azab yang akan diterima dikemudian hari.

