Nodeflux AI Digest|Yearly AI Rewind 2019

Rizky Munggaran
Nodeflux
Published in
9 min readDec 30, 2019

Hi, guys! Kali ini, teman-teman researcher di Nodeflux meluncurkan edisi khusus digest tahunan yang bernama “Yearly AI Rewind 2019”. Di edisi khusus ini, researcher kami telah merangkum berbagai informasi menarik yang muncul di tahun 2019 dan dianggap sebagai milestone untuk masa akan datang, pastinya di bidang Artificial Intelligent (AI) dan Computer Vision.

Ingin tau informasi apa saja yang kami anggap penting di tahun 2019 dan menjadi tonggak utama perkembangan AI di masa depan? Simak terus artikel khusus ini!

Editor’s Pick

EfficientDet: Scalable and Efficient Object Detection

Dipilih oleh: Rizky Munggaran
Dibuat oleh: Mingxing Tan, Ruoming Pang, Quoc V. Le (2019)
Sumber: https://arxiv.org/pdf/1911.09070.pdf

Object detection telah lama hadir sebagai teknik dari computer vision untuk melokalisasi dan mengenali objek dari suatu gambar. Munculnya convolutional neural network (CNN) menambah peran signifikan untuk menghasil akurasi yang lebih tinggi dan cepat sehingga dapat dijalankan secara real-time. Umumnya, kedua aspek ini memiliki trade-off dan sebagian banyak detektor telah terbukti bekerja dengan baik hanya pada satu metrik ukuran, baik akurasi maupun kepepatan. Sebagai contoh, detektor yang lebih akurat lebih menuntut komputasi, begitu pun sebaliknya. Tentunya hal tersebut bukan skenario ideal, terutama ketika mencari model yang lebih akurat dan lebih efisien.

Pada pertengahan 2019, Tim Google Brain meluncurkan arsitektur CNN yang bernama EfficientNets. EfficientNets ini meraih state-of-the-art (SOTA) untuk kasus klasifikasi gambar pada dataset ImageNet dibandingkan arsitektur popular lain seperti Inception-ResNet-v2, Resnet-152, dll. Selain itu, arsitektur CNN yang mereka desain diklaim lebih ringan, efisien dan scalable namun tetap lebih akurat.

Berangkat dari kesuksesan EfficientNets, Tim Google Brain kembali mengusulkan untuk mengembangkan EfficientNets sebagai backbone pada kasus berbeda yaitu object detection. Berdasarkan pada paper ilmiahnya, mereka berhasil mendesain suatu arsitektur untuk detektor baru menggunakan EfficientNets sebagai backbone yang disebut EfficientDet.

Mereka mengusulkan dua optimasi proses. Pertama, memodifikasi matrik pembobotan pada Feature Pyramid Networks (FPN) untuk persoalan scale-invariant menjadi bi-directional feature pyramid network (BiFPN). BiFPN memungkinkan komputasi lebih ringan dan dapat dibuat lebih dalam dari level 3–7. Kedua, mengusulkan teori compound scaling yaitu metode pembobotan dengan menggabungkan seluruh level penskalaan baik dari resolusi input-nya, lebar jaringan, kedalaman jaringan dan resolusi dari output fitur dan kelas. Alhasil, detektor tersebut menghasilkan output yang 4x lebih ringan dan 9,3x lebih cepat, namun masih lebih akurat dibandingkan detektor popular seperti YOLOv3 dan RetinaNet.

Papers

PifPaf: Composite Fields for Human Pose Estimation

Dipilih oleh: Iman Rahmansyah Tayibnapis
Dibuat oleh: Sven Kreiss, Lorenzo Bertoni, Alexandre Alahi (2019)
Sumber: http://openaccess.thecvf.com/content_CVPR_2019/papers/Kreiss_PifPaf_Composite_Fields_for_Human_Pose_Estimation_CVPR_2019_paper.pdf

Human Pose Estimation adalah suatu metode yang berguna untuk mendeteksi kerangka pose manusia yang merepresentasikan orientasi tubuh seseorang dalam format grafis. Pada dasarnya, ini adalah metode untuk mendeteksi lokasi koordinat-koordinat pada beberapa titik anggota tubuh manusia kemudian menghubungkan titik-titik koordinat tersebut untuk menggambarkan pose orang. Human Pose Estimation dapat diaplikasikan kepada berbagai hal, seperti:

  1. Mendeteksi seseorang yang sedang jatuh atau sakit,
  2. Melatih secara otonom suatu gerakan teknik olahraga atau tarian,
  3. Mengenal bahasa tubuh,
  4. Melatih gerakan robot untuk meniru suatu gerakan spesifik dari manusia,
  5. Mendeteksi gerakan tubuh manusia untuk menjadi input berbagai game, seperti dalam Just Dance (video game),
  6. Mengajari karakter virtual dalam game untuk bergerak lebih alami seperti manusia asli, dll.

Pada paper ilmiah ini, penulis mengenalkan suatu metode baru dalam Human Pose Estimation. Metode yang penulis gunakan dikenal sebagai PifPaf yang mana metode ini menggunakan Part Intensity Field (PIF) untuk mendeteksi lokasi bagian-bagian tubuh manusia pada gambar dan Part Association Field (PAF) untuk menghubungkan bagian-bagian tubuh manusia yang sudah terdeteksi sehingga menjadi kerangka utuh tubuh manusia. Metoda PifPaf ini berhasil bekerja pada gambar dengan resolusi rendah. Selain itu, PifPaf juga berhasil mendeteksi pose manusia pada gambar yang terdapat banyak orang (keramaian) dan juga mampu mendeteksi pose manusia meskipun sebagian tubuhnya tidak terlihat dikarenakan tertutup oleh suatu objek.

A Dataset and Benchmark for Large-Scale Multi-Modal Face Anti-Spoofing (CVPR 2019)

Dipilih oleh: Alvin Prayuda Juniarta Dwiyantoro
Dibuat oleh: Shifeng Zhang, Xiaobo Wang, Ajian Liu, Chenxu Zhao, Jun Wan, Sergio Escalera, Hailin Shi, Zezheng Wang, Stan Z. Li
Sumber: http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_A_Dataset_and_Benchmark_for_Large-Scale_Multi-Modal_Face_Anti-Spoofing_CVPR_2019_paper.pdf

Pengembangan teknologi face recognition sudah mencapai titik di mana performanya hampir sempurna dan banyak diaplikasikan dalam kehidupan kita, seperti membuka akses smartphone, access control, pembayaran menggunakan muka, dan sebagainya. Salah satu tantangan penggunaan teknologi ini adalah tingginya resiko pemalsuan dan usaha untuk membajak data yang sering kita dengar dengan istilah hacking dengan hanya menggunakan foto dari muka orang yang ingin kita tiru identitasnya.

Konsep pembajakan dan pemalsuan data dengan menggunakan foto ini disebut dengan istilah face spoofing. Oleh karena itu, seiring dengan matangnya teknologi face recognition, riset di bidang face-anti spoofing pun semakin gencar dilakukan. Bila dibandingkan dengan open dataset yang tersedia untuk riset face recognition, bisa dikatakan dataset face-anti spoofing ketinggalan lumayan jauh. Dataset face recognition bisa mencapai jutaan gambar dan ratusan ribu identitas namun beberapa dataset face anti-spoofing hanya terdiri dari ribuan video dan kurang lebih 100 identitas. Hal ini menyebabkan kurangnya data yang bisa menggeneralisir riset di bidang ini.

Untuk mengatasi hal tersebut dataset baru dikembangkan yang diberi nama CASIA-SURF yang terdiri dari 1000 subject dan 21000 videos yang menggunakan modality yang berbeda, yaitu pixel RGB, depth sensor, dan IR. Dataset ini juga mengaplikasikan 6 tipe serangan menggunakan foto yang berbeda yang dikombinasikan dengan beberapa operasi tambahan seperti cropping, membengkokkan foto mengikuti muka, dan jarak muka yang berbeda. Selain itu, mereka juga memperkenalkan arsitektur deep learning sebagai suatu metode dasar untuk evaluasi terhadap kapabilitas dataset ini. Arsitektur tersebut juga secara efektif menggunakan penggabungan multi modality yang dapat membuktikan bahwa setiap tipe modality mempunyai karakteristik masing-masing dan terbukti berkontribusi terhadap peningkatan akurasi dari pengenalan serangan face spoofing.

Selain itu, mereka juga memperkenalkan metode evaluasi performance yang lebih praktikal dibanding metode yang sebelumnya. Pada studi yang terlebih dahulu lebih populer penggunaan matriks attack presentation classification error rate (APCER), bona fide presentation classification error rate (BPCER), dan average classification error rate (ACER) dimana metode-metode ini lebih menekankan pada error rate dari sampel data asli dan serangan. Namun pada praktisnya, banyak yang lebih menekankan pada matriks false positive rate (FPR) yang sering dipakai di face recognition. Sehingga dalam studi ini mereka memperkenalkan matriks receiver operating characteristics (ROC) yang bisa memvisualisasikan trade-off antara false positive rate (FPR) dan true positive rate (TPR) pada threshold yang berbeda-beda.

News

Intern Google Membangun sebuah Synthetic Image Generator yang Sangat Realistis

Dipilih oleh: Adhiguna Mahendra
Sumber: https://www.fanaticalfuturist.com/2019/12/a-google-intern-built-a-shockingly-good-synthetic-image-generator/

Gambar ini tidak nyata, dibuat dengan menggunakan Generative Adversarial Network (BigGAN). GAN adalah jenis Neural Network yang terdiri dari dua model: Satu model menghasilkan random image, satu lagi membandingkan image tersebut ke image asli dan memberi tahu seberapa besar perbedaannya.

AI Kini Mampu Merancang Desain Interior Sendiri

Dipilih oleh: Adhiguna Mahendra
Sumber: http://news.mit.edu/2019/teaching-artificial-intelligence-to-create-more-common-sense-visuals-0701

GANpaint Studio,” yang dikembangkan tim MIT dan IBM adalah sistem yang memungkinkan dihasilkannya citra fotografi yang realistis dan dapat mengedit obyek semisal merubah ukuran, menambah obyek lain dengan menggabungkannya dengan Generative Adversarial Network (GAN).

Tutorials

Human Pose Estimation with Open PifPaf

Dipilih oleh: Iman Rahmansyah Tayibnapis
Sumber: https://github.com/vita-epfl/openpifpaf

Open PifPaf adalah salah satu metode untuk mendeteksi pose manusia. PifPaf diambil berdasarkan dua buah singkatan yaitu Part Intensity Field (PIF) dan Part Association Field (PAF).PIF digunakan untuk mendeteksi lokasi bagian-bagian tubuh manusia pada gambar dan PAF untuk menghubungkan bagian — bagian tubuh manusia yang sudah terdeteksi sehingga menjadi kerangka utuh tubuh manusia.

Open Pifpaf menggunakan bahasa pemrograman Python 3 (belum ada support untuk Python 2). Untuk framework pembuatan model kecerdasan buatannya menggunakan PyTorch . Untuk Live demo, semisal dengan webcam, library OpenCV — Python perlu digunakan.

NVIDIA Data Loading Library(DALI)

Dipilih oleh: Alvin Prayuda Juniarta Dwiyantoro
Sumber: https://docs.nvidia.com/deeplearning/sdk/dali-developer-guide/docs/index.html

NVIDIA DALI merupakan salah satu alternatif untuk membuat dan mendesain data loaders dan data iterators yang memiliki performa tinggi, terutama dalam kasus pengolahan data visual. Proses decode file gambar, data augmentasi, dan berbagai proses lainnya dapat ditingkatkan kecepatannya dengan pengintegrasian proses tersebut menggunakan graphical processing unit (GPU). Terlebih lagi, NVIDIA DALI juga menjanjikan kemudahan untuk pengintegrasian dengan framework-framework terkemuka seperti Tensorflow, Pytorch, dan MXNet.

Pada praktisnya, NVIDIA DALI menggunakan konsep graph execution mirip seperti Tensorflow. Sehingga kita diminta untuk mendefinisikan pipeline pemrosesan gambar, mulai dari proses decoding, resize, crop, dst. dalam suatu kelas tertentu yang meng inherit dari nvidia.dali.pipeline. Nantinya class ini akan dapat mengakses operasi-operasi dan resource CPU dan GPU yang dikelola oleh DALI.

Dalam prakteknya kami sendiri melakukan benchmark NVIDIA DALI ini dibandingkan dengan DataLoader+torchvision milik Pytorch dan membandingkan performanya. DeEfficientNetsngan menggunakan dataset image yang berukuran 112x112, batch size 32 dan workers (multi thread/process) 4, kami menggunakan 4 macam skenario :

  1. 1st scenario : standard processing → Data normalization (mean = 0.5, std = 0.5), to pytorch tensor
  2. 2nd scenario : 1st scenario + 2 step image resize (112 → 60 → 112)
  3. 3rd scenario : 2nd scenario + random flip
  4. 4th scenario : 3rd scenario + color jitter (brightness,contrast,hue,saturation)

Kemudian performa dalam satuan image/second diperoleh dengan menggunakan simple convolutional neural network dan GPU Nvidia RTX 2070, dapat dilihat di grafik di bawah ini

Bisa dilihat bahwa Pytorch DataLoader lebih superior pada 1st scenario dimana augmentasi yang dilakukan sangat minim, namun pada kasus-kasus selanjutnya performa degradasinya semakin terasa. Namun dalam kasus penggunaan Nvidia DALI, bisa disimpulkan bahwa penambahan augmentasi tersebut hampir tidak berpengaruh pada kecepatan dasarnya sekaligus menunjukkan superioritas NVIDIA DALI dibanding Pytorch DataLoader dengan trade-off penggunaan sebagian kecil memori GPU.

Miscellaneous AI

Turing Award: ‘Godfathers of AI’, 3 AI Pioneers 2019

Dipilih oleh: Rizky Munggaran
Sumber : https://www.forbes.com/sites/nicolemartin1/2019/03/27/turing-award-and-1-million-given-to-3-ai-pioneers/#e45dc8747841

(Image:Twitter)

Asosiasi Computing Machinery (ACM A.M. Turing Award) memberikan penghargaan “Nobel Prize of computingTuring Award , kepada tiga peneliti artificial Intelligence (AI) yaitu Yann LeCun (kiri), Geoffrey Hinton (tengah) dan Yoshua Bengio (kanan). Mereka membawa hadiah sebesar $1 juta yang diberikan oleh Google atas atas kontribusinya dalam mengembangkan teori dan engineering AI terutama deep learning. Yann LeCun merupakan Professor dari New York University dan Vice President (VP) AI Scientist di Facebook; Geoffrey Hinton merupakan VP dan Engineering Fellow Google, Chief Scientific Adviser Vector Institute dan professor Emeritus dari University of Toronto sedangkan Yoshua Bengio merupakan Professor dari University of Montreal, Scientific Director Mila dan Quebec’s Artificial Intelligence Institute.

The rise of AI-enabled chips

Dipilih oleh: Rizky Munggaran
Sumber : https://hackernoon.com/artificial-intelligence-trends-to-watch-out-in-2019-b04q23dz5
https://artificialintelligenceindonesia.com/chip-ai-pertama-alibaba-hanguang-800/

Tren implementasi AI yang terus meningkat menjadikan kebutuhan pasar terhadap perangkat lunak yang dapat menjalankan komputasi AI juga meningkat. Hal ini menjadi alasan beberapa perusahaan penyedia perangkat keras komputasi untuk membuat chip khusus untuk AI.

Chip khusus AI ini dirancang sedemikian rupa untuk melakukan komputasi yang kompleks dalam waktu yang singkat, sehingga proses training dapat dilakukan dengan lebih cepat tanpa perlu dependensi terhadap GPU (Graphic Processing Unit). Produsen chip seperti NVIDIA, ARM, Intel dan Qualcomm berlomba-lomba untuk membuat chip khusus untuk meningkatkan kecepatan terhadap kebutuhan berbasis AI.

Dengan adanya chip AI, proses komputasi AI seperti NLP (Natural Language Processing), Speech Recognition, dan Computer Vision akan dapat dilakukan dengan lebih “ringan” bahkan hingga ke tingkat perangkat/device yang sumber daya komputasinya terbatas.

Interesting Tweet

Learning To Paint using GAN

Dipilih oleh: Adhiguna Mahendra
Sumber: https://twitter.com/arkitus/status/1179760332140662784

Ali Eslami, salah satu kontributor paper yang ditautkan dalam tweet disamping memperkenalkan Artificial Intelligence(AI) yang menggambar karikatur dengan menggunakan Deep Reinforcement Learning dan GAN. Agents yang di-training menggunakan dataset CelebA mampu menghasilkan karya seni yang simpel.

The Machines are Learning, So are the Students

Dipilih oleh: Adhiguna Mahendra
Sumber: https://twitter.com/ylecun/status/1208153651941978112?s=12

Tweet selanjutnya dari Yann LeCun memperkenalkan sebuah artikel yang isinya pemanfaatan Convolutional Neural Network (ConvNet) di bidang pendidikan. Dengan model Handwriting Recognition, metode penilaian Pekerjaan Rumah (PR) siswa bisa digantikan oleh model AI. Sebagai contoh, siswa dapat mengambil foto PR mereka dan menyerahkannya kepada model AI untuk dinilai.

Demikianlah ulasan singkat kami tentang apa saja yang terjadi di industri AI selama setahun belakangan. Simak terus informasi terbaru seputar industri AI dan ekosistemnya di rubrik Monthly AI Digest edisi Januari 2020. Sampai jumpa!

--

--