Mengakali AI dengan Celah Keamanan Siber

Asosiasi Ilmuwan Data Indonesia
AIDI Indonesia
Published in
6 min readSep 29, 2019

Tulisan Asli: Mengakali AI dengan Celah Keamanan Siber oleh Hani Ramadhan, Member Asosiasi Ilmuwan Data Indonesia.

Halo, rekan-rekan pembaca!
Apa kabar semua? Kali ini saya ingin mengulas hal yang menarik (dan paling saya ingat) dari konferensi KDD 2019 tanggal 3–8 Agustus 2019 lalu. Saya datang sebagai peserta bukan presenter artikel ilmiah. Satu yang menurut saya penting di era 4.0 ini adalah dampak adanya Kecerdasan Buatan (Artificial Intelligence, selanjutnya kita sebut AI) dan keamanan siber terhadap satu sama lain. Pernahkah terbayang bagaimana seorang maling bisa menggunakan AI dalam aksinya? Apakah seperti di film-film yang sepertinya super canggih itu? Hm, mari kita simak!

(Materi utama [1]: https://www.microsoft.com/en-us/research/wp-content/uploads/2017/07/AI_and_Security_Dawn_Song.pdf, saya cuil dan interpretasikan ke Bahasa Indonesia.)

Prestasi AI

Sampai saat ini apa saja sih yang bisa AI lakukan? Ada beberapa kasus dalam lingkup visi komputer/citra, yakni
1. Mengenali wajah kita, atau secara umum objek, dengan keakuratan tinggi, beberapa perusahaan ponsel sudah menerapkannya sebagai pengenal, contoh: Apple
2. Membangkitkan citra wajah seseorang dengan sangat realistis. Salah satu terapannya adalah DeepFake. Teknologi DeepFake bisa “menempelkan” wajah seseorang pada kepala orang lain di suatu video.
Dan masih banyak lagi.

Seorang jurnalis melihat video hasil terapan DeepFake pada 25 Januari 2019 yang berpotensi mengelabui para penonton (Alexandra Robinson/AFP/Getty Images)

Keberhasilan AI dalam tugas-tugas tersebut diakibatkan perkembangan salah satu metode pembelajaran mesin yang bernama Deep Learning. Secara singkat, kita “suruh” Deep Learning untuk mempelajari pola dari data yang kita miliki. Lalu, hasil pembelajaran ini, kita sebut model, akan memperkirakan pola dari data baru seperti apa. Mirip ketika manusia belajar (belajar dari data yang ada), lalu ada ujiannya (perkiraan data baru — yang mirip data lama).
Misal nih, kita suruh si Deep Learning ini belajar data gambar-gambar kucing sama jenisnya apa (Angora? Kocheng Oren?) dan kita dapatkan model hasilnya. Terus ada gambar kucing yang kita ingin tahu jenisnya, tanyakan ke si model. Kucing ini jenis apa?

Proses sederhana pembelajaran mesin

Meskipun sepertinya keren, Deep Learning tidaklah sempurna. Salah satu kelemahannya adalah Deep Learning ini mudah “diganggu”. Mari kita cek contoh dari hasil penelitian [2]. Dari ilustrasi tersebut, kita dapat melihat citra asli dan citra yang diganggu tidak memiliki perbedaan signifikan dan benar-benar bisa dianggap sebagai citra yang sama. Namun, model hasil pembelajaran mesin menganggap gangguan tersebut signifikan dan menghasilkan perkiraan yang jauh berbeda dari jawaban sebenarnya.

Meskipun sepertinya keren, Deep Learning tidaklah sempurna. Salah satu kelemahannya adalah Deep Learning ini mudah “diganggu”. Mari kita cek contoh dari hasil penelitian [2]. Dari ilustrasi tersebut, kita dapat melihat citra asli dan citra yang diganggu tidak memiliki perbedaan signifikan dan benar-benar bisa dianggap sebagai citra yang sama. Namun, model hasil pembelajaran mesin menganggap gangguan tersebut signifikan dan menghasilkan perkiraan yang jauh berbeda dari jawaban sebenarnya.

Meskipun sepertinya keren, Deep Learning tidaklah sempurna. Salah satu kelemahannya adalah Deep Learning ini mudah “diganggu”. Mari kita cek contoh dari hasil penelitian [2]. Dari ilustrasi tersebut, kita dapat melihat citra asli dan citra yang diganggu tidak memiliki perbedaan signifikan dan benar-benar bisa dianggap sebagai citra yang sama. Namun, model hasil pembelajaran mesin menganggap gangguan tersebut signifikan dan menghasilkan perkiraan yang jauh berbeda dari jawaban sebenarnya.

Itu anjing atau burung unta? Telah disunting dari [2]

Kok bisa? Deep Learning menggunakan fitur mentah per piksel citra secara acak, sehingga kadang-kadang berbeda dengan fitur high-level yang bisa ditangkap oleh manusia. Contohnya, sekali lihat citra anjing, kita bisa identifikasi “bulu”, “hidung”, “fluffiness” dari anjing dalam citra tersebut. Sedangkan, si Deep Learning harus memproses dari fitur paling kasar dulu (piksel), dan terkadang melewati banyak langkah untuk mendapati fitur “bulu” dari anjing. Masalahnya, langkah-langkah terhadap fitur kasar hingga fitur high-level ini tidak dapat diketahui bagaimana proses detailnya. Sehingga, jika fitur kasar ini diganggu sedikit saja, bisa mempengaruhi kualitas perkiraan model hasil belajar ini secara signifikan tanpa ketahuan gangguannya berdampak di mana. Dari model yang mengalami “gangguan” ini, mari kita berangkat ke ranah keamanan siber.

Celah Keamanan Siber melalui AI yang Diganggu

Tunggu sebentar! Keamanan siber yang dimaksud ini seperti apa ya? Secara mudahnya, kita melawan si maling dengan berperan sebagai si maling. Bagaimana caranya kita bisa merampok uang dari brankas X? Ada beberapa cara, tetapi bisa dipersempit ke menduplikasi kunci atau membongkar gembok dari brankas.
Kalau di kemanan siber, bisa kita kaitkan ke kasus yang dekat dengan kita sehari-hari. Misal, ponsel harus mengenali wajah pemiliknya untuk membuka kunci ponsel. Apa saja celahnya? Saya tidak akan membahas sistem keamanan yang cukup njelimet, cukup dari sisi data citra wajahnya saja. Cukup dari premis ini saja: Si maling harus dikenali sebagai si pemilik wajah. Apakah memang bisa hal ini dikerjakan?

Salah satu perkembangan lagi di dunia pembelajaran mesin adalah model yang bisa membangkitkan ‘tiruan’ dari masukan awal, atau dikenal sebagai Generative Model. Mengapa harus meniru masukan? Inspirasinya tetap dari cara manusia belajar. Misal manusia belajar mengenai seekor anjing. Setelah belajar, manusia pun bisa membayangkan bagaimana anjing tersebut ber-make up, sedikit luka, atau beda arah sisir, namun harus tetap bisa direkonstruksi sebagai anjing X. Jadi, model kita harus sangat handal untuk mengenali dan merekonstruksi si anjing X. Seperti contoh di bawah ini, angka rekonstruksi angka 7 harus tetap mirip angka 7 di awalnya.

Pada praktiknya, pembelajaran mesin harus selalu belajar dari data terbaru untuk menghasilkan model yang up-to-date. Inilah celah yang bisa digunakan para maling ketika menghadapi model yang terus terperbarui: memasukkan data yang diganggu agar modelnya menghasilkan perkiraan yang salah. Bagaimana contohnya? Ilustrasi di bawah ini adalah bagaimana suatu Generative Model bisa dikelabui untuk menghasilkan citra wajah orang yang sama menggunakan prinsip citra yang diganggu.

Salah satu kasus citra yang salah direkonstruksi menjadi gambar wajah orang lain. Baris atas: kondisi normal citra asli dan citra yang direkonstruksi. Baris bawah: kondisi tiruan citra yang diganggu sedemikian hingga agar rekonstruksinya mirip dengan target image.

Mencengangkan bukan? Citra yang diganggu bisa menghasilkan rekonstruksi wajah satu orang yang sama secara kasat mata dan jauh berbeda dari masukan. Dalam kasus pengenalan wajah oleh ponsel, maling pun bisa dikenali sebagai pemilik ponsel dengan “gangguan” yang “tepat”.

Antisipasi Keamanan Siber untuk AI

Sebagaimana semua sistem, tidak ada sistem yang memiliki keamanan sempurna, termasuk AI yang biasa menggunakan model pembelajaran mesin. Bagaimana agar model yang kita proses bisa terhindar dari celah keamanan ini?

Secara teknis, kita harus menerapkan dua tujuan berbeda ketika membuat model, yaitu

  1. Handal menghadapi data agar masukan benar tidak disalahkan(well-generalized). Contohnya, ingin mengenali X: si X meskipun ber-make up atau cedera, harus tetap dikenali sebagai X.
  2. Handal menghadapi data agar masukan salah tidak dibenarkan (resilient). Contohnya, ingin mengenali X: si Y walaupun sudah ber-make up sebagai X, tidak boleh dianggap sebagai X/bukan Y.

Walaupun terdengar mirip, tetapi kedua tujuan tersebut bermakna jauh berbeda (lihat di Galat Statistik tipe 1 dan tipe 2, halaman 9). Kedua tujuan tersebut bisa dicapai dengan adanya kriteria belajar tambahan dari data yang sengaja diganggu (poisoned data).

Hal yang bisa kita lakukan untuk menghadapi ini adalah secara aktif ikut mengawasi bagaimana hasil perkiraan dari model ini agar tetap well-generalized dan resilient. Lalu, model tersebut bisa diperbaiki dengan campur tangan manusia (human-in-the-loop). Di sisi lain, data yang disiapkan sebagai masukan pembelajaran harus tepat dan memiliki gangguan agar kedua tujuan tersebut tetap terpenuhi.

Sebenarnya belum semua aspek keamanan siber dan AI terbahas di sini, baru konsep keamanan siber dalam mengelabui AI. Masih ada penerapan AI-keamanan siber di tingkat perangkat lunak, bagaimana keamanan siber bisa memanfaatkan AI, dan seterusnya. Di sisi lain, beberapa usaha sudah diterapkan dalam dunia riset untuk meningkatkan keamanan siber dengan AI ([1] halaman 79, 88), memerangi DeepFake [3], termasuk perlindungan privasi dalam AI [4], dan sebagainya. Semuanya tentu menarik diperbincangkan dan didiskusikan.

Ada masukan, pertanyaan, atau hal yang ingin didiskusikan? Silakan berikan komentar atau kontak saya melalui surel di hani.its.042@gmail.com. Terima kasih telah membaca!

Referensi

[1] AI and Security. https://www.microsoft.com/en-us/research/wp-content/uploads/2017/07/AI_and_Security_Dawn_Song.pdf

[2] Intriguing properties of neural networks. https://arxiv.org/pdf/1312.6199.pdf

[3] Google fights deepfakes by releasing 3,000 deepfakes. https://www.engadget.com/2019/09/25/google-deepfake-database/

[4] PRIVACY-PRESERVING AI IN MEDICAL IMAGING: FEDERATED LEARNING, DIFFERENTIAL PRIVACY, AND ENCRYPTED COMPUTATION. https://blog.openmined.org/federated-learning-differential-privacy-and-encrypted-computation-for-medical-imaging/

--

--

Asosiasi Ilmuwan Data Indonesia
AIDI Indonesia

Membangun Ekosistem Data Scientist Indonesia yang Bermanfaat, Aman, Sejahtera, Berdaya-saing dan Sustainable untuk kedaulatan data Indonesia.