Report Dataset Kompetisi Data Engineering— #1 Dataset Klasifikasi Emosi Dan Fitur Pada Podcast

Ramdhanii Ram
BISA.AI
Published in
3 min readApr 30, 2020
Original Image from icon8 @ Unsplash

Sebelum masuk langsung ke dalam laporan tentang dataset lomba, karena ini adalah tulisan pertama di Medium BISA.AI mengenai Kompetisi Data Engineering, maka saya wajib menjelaskan apa itu Kompetisi Data Engineering.

Kompetisi ini adalah salah satu kompetisi online yang diadakan oleh BISA.AI dan Tebar Bisa Foundation yang bertujuan untuk mengumpulkan dan mengembangkan koleksi dataset-dataset yang berkualitas dan gratis di Indonesia.
Setelah mendapatkan 400 peserta dan 70 lebih dataset yang isinya bermacam-macam, akhirnya para juri bisa menyeleksinya hingga menjadi 34 finalis saja.

Mulai sekarang, saya akan mencoba untuk melaporkan kembali bagaimana dataset-dataset para finalis ini bisa diambil dan bisa berkerja berdasarkan proposal dan dataset yang diberikan.

Berikut nama-nama pembuat dataset ini :

  • Ramdhani (SMKN 2 Kota Bandung)
  • Ibrahim Fanji Dipura (Institut Teknologi Nasional)
  • Sony Maulana (SMKN 12 Kota Bandung)

1. Penjelasan Dataset

Dataset ‘Klasifikasi Emosi dan Fitur Pada Podcast’ jenis datasetnya adalah Speech atau percakapan yang sudah dikonversi menjadi fitur dan anotasi.

Fitur bisa disebut juga sebagai karakteristik pada suara. Contohnya jika fitur pada suatu rumah adalah harga, umur, dan jumlah kamarnya maka fitur pada suara adalah frekuensi, noise, tangga nada, dan lain-lain.

Anotasi di sini berisi tentang emosi dan sentimen setiap file suara yang sudah kami pecah-pecah menjadi ratusan bagian.

Menurut proposal yang dibuat, dataset ini diambil karena Podcast selaku media untuk berdiskusi dan bercerita selalu membahas topik-topik yang menarik, yang dimana topik-topik tersebut akan menghasilkan berbagai macam emosi yang bisa pendengar rasakan.

2. Pengambilan dan Pengolahan Data

Ada dua platform Podcast yang umum digunakan, YouTube dan Spotify. Keduanya mempunyai kekurangan dan kelebihan masing-masing, di sini data bisa diambil dari kedua platform di atas.

Untuk menghindari permasalahan mengenai Hak Cipta dan lain-lain, saya tidak akan membahas secara detail bagaimana pembuat dataset bisa mengambil data yang diperlukan.

Setelah data diambil, data yang diolah adalah berbentuk .mp3 / .wav yang kemudian akan dianotasi oleh dua anotator dan satu programmer untuk mengesktrak fitur-fitur pada podcast. Berikut penjelasan singkat tentang bagaimana pembuat dataset mengolah datanya:

  • Data suara yang berbentuk .mp3 / .wav dipecah menjadi banyak file dengan masing-masing file berdurasi 5 detik menggunakan ffmpeg dengan sintaks sebagai berikut:

ffmpeg -i [nama_file].mp3 -f segment -segment_time [detik] -c copy [direktori_hasil]%03d.mp3

  • File-file yang sudah dipecah tersebut bisa langsung dianotasi dengan membuat tabel spreadsheet yang isi emosi dan sentimennya dikategorikan sebagai berikut:
Contoh sekaligus sedikit hasil anotasi emosi dan sentimen
  • Selagi file-file tersebut dianotasi, programmer juga mengekstrak fitur-fitur pada file tersebut menggunakan Python dengan library librosa
Contoh kode dan hasil ekstrasi fitur Spectogram

3. Hasil

Dari satu Podcast yang berdurasi sekitar 20 menit, hasil pemecahan filenya berjumlah 261 yang masing-masing berdurasi 5 detik.

261 file tersebut diekstrak satu jenis high-level feature-nya yaitu Spectogram yang masing-masing mempunyai label emosinya juga.

Koleksi Spectogram hasil ekstraksi menggunakan Librosa

Tidak hanya high-level features, ada juga 7 low-level features yang berhasil diekstrak. Diantaranya, chroma_stft, rmse, spec_cent, spec_bw, rolloff, zcr, dan mfcc.

Isi file .csv hasil ekstraksi 7 low-level features

Untuk mengetahui lebih lanjut apa maksud fitur-fitur tersebut, bisa kalian kunjungi halaman dokumentasi Librosa di https://librosa.github.io/librosa/feature.html

4. Pemanfaatan

Menurut pembuat dataset, data-data ini diharapkan bisa membantu memperbanyak data suara terutama percakapan berbahasa Indonesia, dan bisa juga dimanfaatkan untuk Speech Recognition dan beberapa pengaplikasian Machine Learning lainnya.

Untuk dapat menggunakan dataset ini, anda dapat mengunjungi halaman berikut: https://bisa.ai/dashboard/Detail_dataset?id=7

Sekian dari saya mengenai laporan pertama dataset Kompetisi Data Engineering BISA.AI. Terimakasih dan semoga bermanfaat!

--

--

Ramdhanii Ram
BISA.AI
Writer for

Work stuffs & making sense interesting thoughts from my brain.