Sitemap
Data Science Indonesia

A place to share and learn about anything related to Data Science curated by Data Science Indonesia members for Data Science People.

Data Azab FTV: the other point of view

7 min readOct 27, 2018

--

*the content will be written in Bahasa

Press enter or click to view image in full size
Punishment From God

azab n siksa Tuhan yang diganjarkan kepada manusia yang melanggar larangan agama: dia takut akan — Allah;

— sengsara segala macam penderitaan (kesengsaraan)

Pada 24 Oktober lalu, Kumparan merilis satu analisa dari data judul-judul ftv religi yang sedang menjadi topik hangat dalam beberapa minggu terakhir. Dalam tulisannya, kumparan menyatakan bahwa data tersebut menyebutkan bagaimana Pedagang dan Pengangguran Paling Banyak tertimpa azab disebut dalam judul-judul tersebut. Tak hanya azab menurut profesi, kumparan juga melakukan analisa sederhana dari azab menurut gender.

Disebabkan oleh artikel tersebut dan ketersediaanya data, tulisan ini pun dibuat untuk melihat aspek lain yang bisa di dapat dari data 194 judul ftv tersebut. Dimulai dari bagaimana menyiapkan datanya, merumuskan tujuan analisa, dan menentukan teknik sederhana yang akan dilakukan menggunakan python. (keselurahan script bisa didapat di sini)

Data Extraction

Link data diatas menyediakan semua 194 judul ftv yang digunakan kumparan dalam analisisnya, namun terlihat tidak serapi yang diperkirakan (bayangannya sudah rapi aja).

Press enter or click to view image in full size
Judul film-film ftv

Dalam link tersebut data text yang tersedia belum dalam bentuk tabular, namun teks-teks tersebut terlihat ada polanya dimana setelah angka pasti diikuti dengan judul filmnya dan kata sebelum angka adalah stasiun TV yang menyiarkannya. Teks tersebut dapat diextract menjadi tabular dengan simple script di python (3.6.5) seperti di bawah ini (dengan semua teks di link tersebut dicopy dan disimpan dalam “raw_data.txt”).

PS: Hati-hati dengan judul yang mengandung angka. Untungnya hanya ada 1 judul yang mengandung angka. Jenazah 3 Bersaudara Mati Dempet, Dikuburkan Dekat Galian Sampah

Press enter or click to view image in full size
script sederhana extract datanya

Script diatas menghasilkan tabular data dengan 194 baris dan 2 kolom sebagai berikut (yang selanjutnya akan disebut sebagai “Data Azab”).

Press enter or click to view image in full size
Tabular Data Azab

Data Text Cleaning

Data Azab ini terbilang cukup bersih dan bisa langsung dilakukan analisa, yang harus diperhatikan adalah hanya stopwords dan punctuation . Jika ingin dilakukan analisa lebih juga bisa dilakukan stemmer yang artinya mengubah kata-kata dalam teks menjadi kata dasar (untuk python bisa menggunakan Sastrawi).

Press enter or click to view image in full size
Pembersihan data teks dari tanda baca dan mengubah ke kata dasar

Karena dalam koteks judul-judul ini (dan analisa kita selanjutnya) kata “Ibu” penting, walaupun cuma disebut 9 kali, sehingga kata “ibu” tidak dimasukan ke stopwords . Kata “dzolim” atau “dzalim” serta “orang tua” juga penting sehingga perlu dilakukan perilaku khusus pada saat stemming yang dimana sastrawi belum bisa mengubahnya menjadi kata dasar (dimana kata yang benar adalah “Zalim” berdasarkan KBBI).

zalim/za·lim/ a bengis; tidak menaruh belas kasihan; tidak adil; kejam;

Berikut hasil stemming dan pembersihan punctuation ditabular data,

Press enter or click to view image in full size
kolom baru hasil stemming dan punctuation clearence

Tingkatan “Azab”

Pada umumnya data teks cukup sulit untuk dianalisa dikarenakan banyak kata yang berbeda dengan makna yang sama, serta bahkan bisadibutuhkan embedding process. Namun, untuk kasus Data Azab ini, dikarenakan rata2 panjang teks relative sedang (10 kata tiap judul dalam rata-rata) serta variasi kata yang begitu banyak (seperti ‘adukan’, ‘terjebur’, ‘tawon’, ‘ribuan’, ‘formalin’, ‘timah’, ‘ternak’), embedding process tidak akan membantu banyak hal.

Press enter or click to view image in full size

Hal yang menarik dari Data Azab ini (setelah dilakukan skimming) adalah pola yang muncul di hampir semua Judul. Secara garis besar, setiap judul FTV ini pasti mengandung entitas Pelaku Dosa dan Azab yang diberikan, ditambah juga elemen Dosa yang dilakukan pelaku yang sering muncul didalam entitas Pelaku Dosa, sebagai contoh

Press enter or click to view image in full size
Entitas Judul FTV

Namun, Azab memiliki tingkatan yang berbeda untuk setiap satu Pelaku Dosa yang sama. Hal ini terjadi jelas bergantung pada Dosa apa yang dilakukannya. Berdasarkan skimming dan konteks dari semua judul pada Data Azab ini, entitas Azab memiliki beberapa tingkatan :

  1. Penderitaan : Pada tingkatan ini Azab tidak menyebabkan kematian pada Pelaku dosa. Seperti menjadi sakit-sakitan atau harta menghilang.
  2. Kematian : Azab yang diberikan adalah suatu kejadian yang begitu dahsyat yang menyebabkan kematian pada Pelaku dosa. Seperti tersengat listrik, tertimpa panggung, atau mati karena lintah di rawa.
  3. Jenazah : Pelaku dosa mendapatkan Azab setelah kematiannya, seperti jenazah menghilang, bumi menolak jenazah atau janazah dipatok puluhan ular.
  4. Keranda : Hampir sama dengan sebelumnya, namun Azab ini terjadi secara spesifik di keranda si Pelaku Dosa. Sebagai contoh, keranda tertimpa atap, atau tertancap bambu.
  5. Kuburan : Tingkat ini juga sama dengan sebelumnya, yang berbeda hanya tempatnya dimana Azab terjadi di kuburannya. Bisa setelah dikuburkan atau saat sebelum dikuburkan. Contohnya, kuburan mengecil, kuburannya bau atau kuburannya tak bisa digali.

Untuk satu judul FTV tidak menutup kemungkinan terdapat multiple tingkatan Azab, seperti FTV berjudul Akibat Tamak Suamiku Tenggelam dalam Gentong Minyak dan Makamnya Jatuh Ke Jurang, atau Jenazah Penebang Kayu Liar Mati Dengan Kulit Bersisik Pohon Dan Kerandanya Tetimpa Pohon Sampai Terbakar.

Untuk mengekstrak tingkatan Azab ini disetiap judul FTV bisa dilakukan dengan rule based sederhana untuk setiap tingkatannya. Misalkan jika judul mengandung kata “Jenazah”, “Mayat” atau “Jasad” maka judul ini memiliki tingkatan Jenazah.

Press enter or click to view image in full size
Mengekstrak Tingkatan Azab

Rule Based ini tidak memberikan keakuratan yang tinggi contohnya Anakku Ditolak Bumi Karena Hidup penuh Dosa harusnya memiliki tingkatan Kuburan namun judul ini masuk tingkatan Penderitaan karena tidak eksplisit menyebut “kuburan” di dalam judulnya. Walaupun keakuratannya masih kurang, Rule based ini cukup untuk menggambarkan bagaimana proporsi tingkatan Azab di semua Data Azab ini.

Selanjutnya, setelah mendapatkan tingkatan Azab di setiap judul, bisa dilakukan perhitungan proporsi tingakatn Azab di setiap Saluran TV.

Press enter or click to view image in full size
Proporsi Tingkatan disetiap Saluran TV

Terlihat bahwa proporsi tingkat Kematian di MNC TV lebih banyak secara signifikan dibandingkan di Indosiar. Sebaliknya, tingkat Keranda lebih banyak terjadi di Indosiar. Namun, untuk tingkatan lainnya, tidak ada perbedaan yang besar, yang menandakan judul yang diberikan di MNC dan Indosiar tidak memiliki variasi yang berbeda berdasarkan tingkatan Azabnya hanya saja MNC TV lebih sering melakukan multiple Azab dengan menambahkan fenomena kematiannya si Pelaku Dosa di Judulnya.

Durhaka

Tingkatan Azab diatas, seperti juga sudah dibahas, sebenernya juga mungkin bergantung pada bentuk dosanya. Untuk melihat hubungan dosa dan azabnya bisa diambil beberapa contoh dosanya seperti dosa yang berhubungan dengan harta dan dosa durhaka. (Karena keterbatasan waktu dan teknik yang digunakan, dosa yang dipilih hanya dua dosa tersebut).

Dosa pertama untuk diekstrak adalah dosa durhaka dimana dosa durhaka bisa ada dua jenis, Durhaka antara Orangtua-Anak dan Durhaka Suami-Istri. Menggunakan rule based yang hampir sama, bisa didapat matrix correlation sebagai berikut,

Press enter or click to view image in full size
Matrix Korelasi Dosa Durhaka

Matrix korelasi ini (nilai negatif menunjukan hubungan yang sangat lemah) menunjukan bahwa untuk kedua saluran TV lebih sering melakukan judul dengan durhaka antara Orangtua-Anak dibandingkan durhaka Suami-Istri. Sebagai tambahan, hubungan Anak dengan Ibu lebih sering dibahas dibandingan Anak dengan Ayah. Untuk selanjutnya, Durhaka akan menunjuk ke Durhaka Orangtua-Anak.

Press enter or click to view image in full size
Script mengekstrak Dosa Durhaka dan Dosa Harta

Menggunakan perhitungan korelasi yang sama, didapat tabel pivot seperti berikut,

Press enter or click to view image in full size
Korelasi dosa dan tingkatan azabnya

Matrix korelasi dosa-azab diatas memberikan beberapa informasi menarik dimana

  • MNC TV lebih sering menghubungkan Durhaka Orangtua-Anak dengan Dosa harta dibanding Indosiar.
  • Untuk Pendosa Harta ataupun Durhaka, Indosiar seringnya memberikan judul dengan azab ditingkatan Jenazah. Namun, Durhaka Ortu sedikit variatif dengan adanya tingkatan Kematian.
  • Sedangkan untuk kedua dosa di MNC TV lebih sering diberikan judul dengan tingkat Kuburan. Sama dengan Indosiar, Durhaka Ortu jauh lebih variatif dengan adanya tingkatan Keranda.

Dua Informasi terakhir diatas menunjukan bahwa Dosa Ortu-Anak lebih banyak dapat perhatian dibandingkan Dosa Harta. Hal ini terjadi kemungkinan karena adat ketimuran yang masih sangat erat dengan menghormati orang tua.

Most Word Bias

Walaupun dengan teknik diatas telah memberikan informasi yang bagus, namun ada kemungkinan informasi tersebut adalah informasi bias, contohnya informasi tingkatan azab Jenazah di Indosiar untuk pedosa Durhaka. Informasi ini ada kemungkinan bias karena sebagian besar judul di Indosiar mengandung kata “Jenazah”. Untuk itu perlu di lakukan statistical testing terlebih dahulu apakah informasi yang didapat hanya kebetulan belaka atau bisa digeneralisir.

Press enter or click to view image in full size
Most Word di setiap saluran TV

Konklusi

Data Teks merupakan salah satu bentuk data yang menarik untuk dianalisa karena bisa dilihat dari berbagai point of view sesuai konteks dari setiap kalimat di dalam teksnya. Beberapa diantaranya yang bisa dilakukan adalah NER (Named Entity Recognition), yang mana untuk kasus ini ada Entitas baru yang unik yaitu Pelaku Dosa dan Azab, dan korelasi sederhana diantara kata dalam teks yang bisa memiliki banyak arti serta interpretasi.

Terakhir, janganlah durhaka dengan orang tua karena ada banyak variasi azab yang akan diterima dikemudian hari.

--

--

Data Science Indonesia
Data Science Indonesia

Published in Data Science Indonesia

A place to share and learn about anything related to Data Science curated by Data Science Indonesia members for Data Science People.

Responses (1)