Report Dataset Kompetisi Data Engineering — #2 Deteksi Kandungan Senyawa Dalam Produk Kopi Nusantara

Ramdhanii Ram
BISA.AI
Published in
4 min readMay 6, 2020
Photo from Jakub Dziubak @ Unsplash

Kompetisi Data Engineering ini tidak hanya mengumpulkan data-data yang berkaitan dengan IT saja, beberapa dataset yang lolos menjadi finalis buktinya berasal dari kategori Science. Contohnya dataset ini.

Dataset yang diberi nama lengkap “Deteksi Kandungan Senyawa Dalam Produk Kopi Nusantara Melalui Pendekatan Secara Metabolomics, In Silico dan Artificial Intelligence untuk Melihat Beragam Khasiat Bagi Tubuh Manusia” bisa dibilang cukup unik untuk sebuah kompetisi pengumpulan data. Dari motivasi dan cara pengolahan data yang unik, dataset ini berhasil menjuarai posisi kedua Kompetisi Data Engineering BISA.AI. Simak terus untuk melihat detail-detail selanjutnya.

Berikut nama-nama pembuat dataset ini :

  • M. Miftahul Madya (Institut Teknologi Bandung)
  • Hilya Aulia (Universitas Indonesia)

1. Penjelasan Dataset

Jika kalian bingung apa alasan dataset ini dibuat, saya bisa mengutip alasan pembuat dataset langsung dari proposalnya, isinya sebagai berikut:

Ide ini didasarkan atas maraknya produsen yang mengoplos hasil panen kopi agar mendapatkan keuntungan yang cukup besar. Deteksi kandungan senyawa dalam kopi dilakukan dengan tiga pendekatan karena ketiga pendekatan tersebut sangat berkaitan sehingga dapat dijadikan suatu rangkaian pengujian kualitas kopi.

Dari kutipan di atas sudah bisa dibayangkan bahwa dataset ini akan berkaitan dengan bidang kimia, jadi mungkin akan ada istilah-istilah yang kurang familiar atau dimengerti. Berikut adalah maksud dari tiga pendekatan tersebut:

  • Metabolomics, yang dipusatkan pada metabolite (bagian terkecil dari molekul) yang kemudian metabolite tersebut akan dikelompokkan sehingga dapat diketahui kandungan secara pasti di dalam kopi.
  • In Silico, yaitu pendekatan yang dilakukan secara komputasi dengan memusatkan perhatian pada keadaan fisik dari molekul kopi.
  • Phyton, untuk melatih model Artificial Intelligence dalam mendeteksi kualitas molekul kopi.

2. Cara Pengolahan Data

Sebelum memulai langsung ke cara pengolahan data, saya akan membuat daftar software atau alat-alat yang digunakan beserta penjelasan singkatnya, berikut daftarnya:

  • Nuclear Magnetic Resonance (NMR), instrumen ini berguna untuk pengambilan data.
  • Simca, digunakan untuk menganalisis secara multivarian dan memvisualisasikan tren dan cluster.
  • Avogadro, berguna untuk merefleksikan molekul kopi yang berupa angka ke dalam bentuk vektor meliputi: x, y dan z.
  • Orca, software untuk merepresentasikan data vektor ke dalam data physical dari molekul.

2.1. Metabolomics

Jadi sesuai urutan di atas, pertama data diambil dengan alat NMR yang akan menghasilkan keluaran berupa gelombang sinyal yang berisikan macam-macam kandungan senyawa dari kopi. Contoh hasil output NMR,

Contoh gambar dari chem.ucla.edu

Kemudian data sinyal tersebut diintegrasikan ke dalam bentuk angka agar mudah dibaca. Angka yang diperoleh diolah menggunakan Microsoft Excel yang kemudian akan dilatih menggunakan Simca.

2.2. In Silico

Simca juga dapat membantu untuk menganalisis variasi proses dan mengidentifikasi parameter produk akhir, contohnya apakah produk tersebut campuran atau sesuai dengan standar atau tidak. Terakhir, Simca juga dapat mengelompokkan molekul dari kopi.

Dalam hal ini, berguna untuk menganalisis apakah kopi luwak benar berasal dari luwak atau tidak. Oleh karena itu kita harus meninjau dari segi molekul yang terkandung di dalam kopi.

Bila kopi tersebut asli dan alami, maka metabolite (molekul kecil) akan dominan berkumpul disatu sisi. Namun, apabila kopi tersebut hasil campuran dengan kopi lain, maka metabolite akan tersebar secara tidak merata dan berada pada sisi yang berbeda. Data yang telah dikelompokkan dapat menentukan apakah kopi tersebut layak dikategorikan alami atau tidak.

Contoh pengelompokkan molekul dari Simca @ Umetrics

Sekarang Avogadro mulai berfungsi untuk mengelompokkan dataset molekul metabolite dari kopi. Avogadro juga dapat berguna untuk merefleksikan molekul kopi yang berupa angka menjadi bentuk vektor : X, Y dan Z.

Ketiga vektor tersebut disinyalir sebagai:

  • X merupakan bidang yang merefleksikan panjang ikatan atom ke atom.
  • Y adalah panjang ikatan atom ke sub atom.
  • Z adalah sudut ikatan pada kedua atom.

Vektor-vektor tersebut bisa diberi label agar nanti dapat dibandingkan antara molekul kopi satu dengan yang lainnya.

Data yang telah diambil diuji lebih lanjut menggunakan Orca yang dimana akan menghasil data physical. Data physical molekul yang diperoleh bisa berupa data termodinamika, data ini berguna dalam pencarian senyawa yang berkhasiat.

Kode awal dan hasil pemodelan 3D empat molekul kopi luwak

2.3 Python

Total data yang diperoleh dari menggunakan aplikasi dari Orca untuk satu molekul kopi hasilnya adalah lebih dari 1000 data, yang menunjukkan karakteristik secara keseluruhan dari molekul yang diuji.

Di sini barulah Python akan berguna — jika ada metode Deep Learning yang bisa diimplementasikan terhadap data-data ini. Menurut pembuat dataset, untuk sekarang dia belum bisa menemukan metode Deep Learning yang cocok, tetapi dia yakin data tersebut bisa digunakan untuk melatih model pendeteksi molekul kopi yang berpotensi.

3. Hasil

Dikarenakan hasil data yang ada cukup rumit dan banyak untuk ditampilkan, kalian bisa langsung saja mengunjungi website kami di : https://bisa.ai/dashboard/List_Dataset?id=17

4. Pemanfaatan

Setelah data berhasil dilatih menjadi model Deep Learning akhir dari data tersebut bisa dijadikan parameter untuk penentuan molekul kopi yang berpotensi. Rencana kedepannya juga dari data tersebut itu bisa dijadikan satu bank data sehingga para kimiawan tidak perlu repot lagi dalam menginput kodingan molekul.

Sekian tulisan saya mengenai laporan dataset kedua Kompetisi Data Engineering BISA.AI, mohon maaf bila ada kesalahan dalam bentuk kata-kata maupun materi. Terimakasih!

--

--

Ramdhanii Ram
BISA.AI
Writer for

Work stuffs & making sense interesting thoughts from my brain.