Menjelajah Film Indonesia Berdasarkan Data IMDB

Mikael Dewabrata
8 min readJan 24, 2022

--

Artikel ini ditulis sebagai bagian dari tugas membangun portfolio di kelas Data Science untuk kursus yang diadakan dibimbing.id.

Membahas film Indonesia itu selalu menarik. Umumnya, pembahasan film Indonesia lebih sering terkait aspek sinematik. Kecenderungan diskusi film Indonesia lebih banyak pada sisi plot, penyutradaraan, akting, dan aspek teknis perfilman lain. Maka, tentu menarik jika ada pembahasan di luar itu seperti aspek bisnis, atau untuk artikel ini eksplorasi beranjak dari data.

Data Film Indonesia yang Langka

Sayangnya, data mengenai film Indonesia sangat terbatas. Mencari set data yang berkaitan dengan ini seperti mencari jarum dalam jerami. Jika ada, datanya tidak cukup untuk dikulik atau dieksplorasi. Untuk itu, butuh cara lain untuk mengambil data untuk dieksplorasi.

Di sini IMDB jadi pilihan karena situs tersebut mampu memberikan jumlah data yang cukup memadai untuk ditelaah. Namun, data di IMDB tidak bisa diunduh begitu saja, dan scraping dijadikan teknik untuk menarik data film-film Indonesia di situs tersebut. Setelah ditarik, lalu disimpan menjadi set data dan kemudian diolah.

Penambangan Data di IMDB

Sebenarnya struktur informasi film di IMDB cukup rapi, memungkinkan informasi yang ada di halaman IMDB bisa di-scrape lalu disusun dalam set data. Karena sudah rapi dan terstruktur, proses scraping pun jadi lebih mudah. Untuk proses ini menggunakan Python dengan library Beautiful Soup. Setelah pattern situs IMDB sudah dipelajari, maka selanjutnya adalah penarikan datanya.

Cuplikan coding:

for i in range (2000,2001):
IMDB_I = ('https://www.imdb.com/search/title/?country_of_origin=ID&start=' + str(i))
res = requests.get(IMDB_I, headers = headers, proxies=proxies)
soup = BeautifulSoup(res.content, 'html.parser')
IMDB_page = soup.find_all(class_ = 'lister-list')

Untuk scrape ini, ditarik data lalu ditempelkan ke kolom-kolom yang diperlukan, yaitu: Judul Film, Tahun Rilis, Durasi, Genre, Ratings, Sutradara, Jumlah Vote, Klasifikasi, Artis. Demi kebutuhan artikel ini, kolom tersebut sudah cukup untuk melakukan eksplorasi.

Setelah proses scraping dilakukan, data tersebut disimpan dalam bentuk .csv lalu proses pembersihan data (cleansing) dilakukan dengan R.

Menentukan Data yang Dibutuhkan

Saat tulisan ini dibuat, data Film Indonesia yang ada di IMDB bisa sampai 8000 baris dan per baris itu merepresentasikan satu judul. Sayangnya, semuanya itu bukan film panjang atau feature film. Bahkan sebagian besar yang masuk adalah film seri.

Karena pemetaan antara film panjang dengan film seri berbeda, di sini hanya akan dibatasi pada film panjang.

R sangat berguna untuk proses berikutnya, mulai dari memilih data yang sesuai (misalnya mengeluarkan film seri dari data frame), sampai menyingkirkan data yang dirasa tidak relevan. Data di IMDB ada karena user yang memasukkan, jadi data yang tidak cocok bisa saja masuk.

Contoh pembersihan data:

df <- df_raw %>%
filter(!grepl('Tukang Bubur Naik Haji', Title)) %>%
filter(!grepl('The Series', Title)) %>%
filter(!grepl('Commercial', Title)) %>%
filter(!grepl('Stryper', Title)) %>%
filter(!grepl('United', Title)) %>%
filter(!grepl('NET.', Title)) %>%
filter(!grepl('Switch', Title)) %>%
filter(!grepl('Anak Langit', Title)) %>%
filter(!grepl('Reality-TV', Genre)) %>%
filter(!grepl('Documentary', Genre)) %>%
filter(!grepl('Talk-Show', Genre)) %>%
filter(!grepl('Video Game', Year)) %>%
filter(!grepl('Music Video', Year)) %>%
filter(!grepl('Podcast Series', Year))

Pembersihan perlu dilakukan karena eksplorasi di artikel ini tujuannya untuk melihat pola di film panjang. Di IMDB sendiri dari daftar pencarian film Indonesia, judul yang dimasukkan didominasi oleh film seri. Bahkan ada beberapa serial yang memasukkan satu episode menjadi satu judul, seperti contoh sinetron Tukang Bubur Naik Haji. Itu alasannya kenapa judul yang mengandung ‘Tukang Bubur Naik Haji’ dihilangkan dari set data.

Pembersihan lain yang dilakukan adalah menghilangkan entri yang masuk kategori dokumenter, film seri, iklan, reality tv, video musik, sampai podcast. Tentu ini dilakukan agar data lebih terfokus pada yang ingin dieksplorasi saja, yaitu film fiksi panjang.

Ribuan episode Tukang Bubur Naik Haji masuk dan mendominasi pencarian. Membuat data yang tadinya diperkirakan sampai 8000 ternyata hanya menyisakan 3000 data yang cocok dieksplorasi.

Eksplorasi dari Data yang Tepat

Setelah data dirasa sesuai, maka sudah saatnya data ini diterjemahkan menjadi insight yang menarik. Data hanya sekadar data jika ditampilkan begitu saja, maka penjabaran adalah cara untuk menjadikan data sebagai informasi. Lewat data yang sudah dibersihkan di atas, bisa didapatkan berbagai insight menarik terkait data film-film Indonesia berdasarkan IMDB.

Untuk set data bisa diambil di sini.

Cuplikan set data film Indonesia dari IMDB yang sudah dibersihkan.

Film Indonesia Berdasarkan Tahun

Setelah data sudah dibersihkan, pertama-tama adalah melihat total film panjang yang ada di IMDB berdasarkan tahun. Dari grafik di bawah, terlihat bahwa entri film Indonesia makin aktif ada di IMDB dari tahun 2008 dan memuncak di tahun 2019. Dan, terlihat juga data entri judul-judul film Indonesia cukup banyak di tahun 1991 ke belakang.

Setelah 1990 dan sebelum 2005 memang produksi film Indonesia sempat mandek.

Lalu, apakah data ini merepresentasikan film Indonesia yang diproduksi secara nyata. Ternyata setelah dikros cek, perbedaannya cukup jauh. Sebagai contoh, dari data Kementerian Pendidikan dan Kebudayaan, film Indonesia di tahun 2020 ada di angka 289 film. Sedangkan dari yang tertangkap di IMDB, di tahun 2020 hanya ada 77.

Jika IMDB dijadikan platform terpercaya untuk pengarsipan data film, maka melihat kenyataan ini pihak produser atau pemerhati film patut lebih rajin lagi untuk melakukan input agar data film semakin akurat. Karena reputasi dan usia IMDB yang cukup lama, maka menjadikan IMDB sebagai tempat pengarsipan dan juga rekomendasi atau bahkan diskusi merupakan keputusan tepat.

Lalu, dengan perbedaan yang cukup mencolok ini apakah data yang diambil jadi tidak seru untuk diolah, tentu tidak. Ribuan judul film yang ada di IMDB tetap menarik untuk diambil informasinya. Setidaknya bisa kelihatan pola yang ada dari data yang tersedia.

Eksplorasi Berdasarkan Genre

Dalam membuat film, genre perlu ditentukan dari awal sebelum proses produksi dijalankan. Dengan memilih genre merupakan cara untuk menyesuaikan film dengan target pasar. Setiap produksi film, genre dipilih disesuaikan dengan kesukaan pasar.

Menilik data IMDB, bisa dilihat bahwa genre favorit di Indonesia adalah drama diikuti oleh komedi. Horor menjadi urutan ketiga, menjawab kenapa belakangan film horor sempat menjamur di mana-mana.

Tabel genre teratas:

Dari genre juga bisa lihat secara umum bagaimana penilaian penonton atas film yang terdata. Coba lihat tiga genre teratas. Untuk drama dan komedi, jika dilihat menggunakan violin plot, secara keseluruhan penonton cukup puas dengan film-film Indonesia ber-genre tersebut. Sekarang lihat plot pada genre horor. Dilihat dari rating, penilaian atas film-film ber-genre ini terlihat tidak begitu memuaskan. Kebanyakan rating ada di bawah 6.0.

Korelasi Durasi dan Rating

Durasi juga merupakan unsur penting dalam produksi film. Tentu tidak ada yang mau berlama-lama menonton film di bioskop. Dari plot yang dibuat berdasar set data, juga kelihatan bahwa film-film di Indonesia cenderung memiliki pola sama berdasarkan genre.

Dari set data terlihat bahwa secara keseluruhan, film-film Indonesia cenderung ada di batas aman dengan durasi di bawah 125 menit atau di bawah dua jam. Beberapa genre mencoba mengambil risiko seperti drama dan komedi. Film Eiffel I’m in Love (2003) bahkan terlihat memiliki durasi 4 jam 22 menit lebih! Namun, itu pengecualian dan durasi tersebut hanya pada versi extended.

Horor terlihat tidak mau mengambil risiko. Rata-rata durasi untuk genre ini termasuk yang terendah ada di angka 90.5 menit. Bandingkan dengan drama dan komedi yang masing-masing 98.9 dan 96.5. Horor memang terlihat tidak mengambil risiko , dan jarang ada film horor di atas dua jam. Dua film yang tercatat memiliki durasi di atas 140 rilis di tahun 1979 dan 1980.

Mungkin produser tidak tega menakut-nakuti penonton lebih dari dua jam.

Lalu apakah ada korelasi antara durasi dengan penilaian penonton. Dari grafik yang dibuat, beberapa poin bisa diambil. Film berdurasi panjang memang sedikit tapi kebanyakan memiliki rating yang lumayan. Ini juga kebanyakan film yang berani mengambil durasi panjang sudah memiliki pasar yang pasti dan cenderung memberi rating yang positif.

Drama, Komedi, dan Horor menjadi genre terpopuler. Obviously.

Uniknya, film dengan rating rendah didominasi oleh film dengan durasi pendek. Dari genre besar yang disorot, film yang memiliki rating rendah kebanyakan memiliki durasi di bawah 100 menit. Film seperti Roy Kiyoshi: The Untold Story yang memiliki rating 2.1 durasi hanya 86 menit. Ini bisa jadi karena kebanyakan film dengan durasi rendah memiliki kualitas produksi rendah hingga filmnya pun acak kadut.

Sutradara dan Produktivitas

Sutradara jelas merupakan ujung tombak dari produksi film. Dari set data yang diambil bisa diambil poin melihat dari produktivitas sutradara saja. Menurut IMDB, ternyata juga tidak jauh dari apa yang sudah diketahui oleh orang banyak, Nayato Fio Nuala merupakan sutradara terproduktif di Indonesia dengan total sudah bikin 70 film.

Namun, apakah Nayato juga berhasil menghasilkan film-film dengan penilaian tinggi?

Menurut set data, meski jauh di atas sutradara-sutradara lain jumlah film yang dia besut, secara rata-rata film dia memiliki rating rendah. Rata-rata dia hanya memiliki rating 4.9. Film-film seperti Malam Jumat Kliwon (2007) dan Enak Sama Enak (2012) memiliki rating 2.2. Cukup mengejutkan juga Nayato juga memiliki film dengan rating tinggi seperti Rumah Pasung (2016) dan Heart 2 Heart (2010) masing-masing memiliki rating 9.0 dan 8.3. Mungkin kapan-kapan bisa dilirik film-film tersebut.

Dari data yang sama juga bisa dilihat sutradara lain yang pernah produktif pada masanya. Di bawah Nayato ada Arizal. Meninggal pada tahun 2014, Arizal sudah menyutradarai 51 film jika menurut IMDB. Menurut Wikipedia, dia sudah menyutradarai 52 film. Beda tipis. Rataan rating film Arizal juga lumayan, 6.4.

Dari sini juga ditemukan fakta menarik bahwa Arizal merupakan sutradara yang sempat go international, menyutradarai film-film produksi Amerika seperti The Stabilizer (1986), Final Score (1986). Arizal juga menyutradarai film legendaris seperti Dongkrak Antik (1982) yang merupakan film Warkop DKI.

Menurut IMDB, 10 sutradara terproduktif dihiasi oleh sutradara lawas dan juga beberapa nama yang cukup familiar. Ada nama Sisworo Gautama Putra yang populer dengan film Sundelbolong (1982) atau Jaka Sembung (1981), juga ada nama Hanung Bramantyo atau Monty Tiwa.

Dari sini terlihat hanya Hanung yang berani membuat film dengan durasi panjang
Hanya Hanung yang berani membuat film dengan durasi panjang hingga tiga jam di antara sutradara-sutradara terproduktif.

Dari deretan sutradara-sutradara kesohor ini, bisa dilihat selain siapa yang paling produktif, juga siapa yang paling berani membuat film dengan durasi panjang. Hanung Bramantyo memegang reputasi itu, pernah satu kali membuat film dengan durasi 180 menit lewat Bumi Manusia (2019) dan satu film berdurasi 148 menit lewat Sultan Agung (2018).

Untuk deretan sutradara-sutradara ini, film dengan rating terendah dipegang oleh Rudy Soedjarwo dengan Algojo: Perang Santent (2016) yang nilainya 1.6. Bahkan film terburuk Nayato tidak serendah ini. Secara rata-rata, Rudy memiliki rataan rating 5.8. Walau begitu, Rudy merupakan sutradara yang pernah membesut film monumental, Ada Apa Dengan Cinta? (2002).

IMDB Sebagai Media Arsip

Di Indonesia, mengisi ulasan di IMDB mungkin belum menjadi kebiasaan. Para produser juga terlihat belum mau memasukkan film-film mereka ke media ini. Padahal IMDB bisa menjadi media penting ke depannya. Interaksi sineas dengan audiens tentu jadi tidak terbatas pada lingkup lokal saja. Ketika data besar pun analisa perfilman jadi lebih menarik.

Dari pengarsipan ini yang terhitung datanya tidak begitu besar saja bisa kelihatan pola-pola film dibagi dalam variasi kategori. Jika IMDB dimanfaatkan lebih luas lagi tentu manfaatnya bisa jauh lebih penting.

--

--