Report Dataset Kompetisi Data Engineering — #3 Dataset Tulisan Tangan Aksara Sunda

Ramdhanii Ram
BISA.AI
Published in
3 min readMay 14, 2020
Image from Joanna Kosinska @ Unsplash

Aksara salah satu artinya adalah sistem penulisan. Optical Character Recognition sebagai salah satu cara mendeteksi tulisan biasanya mendeteksi sistem penulisan Latin — yang kita gunakan sekarang.

Kali ini untuk memulai memperbanyak koleksi data-data tulisan tangan terutama Aksara Sunda, tim yang berasal dari Telkom University ini memulainya lewat kompetisi BISA.AI. Dataset ini berhasil meraih juara ketiga dalam Kompetisi Data Engineering BISA dan Tebar Bisa 2020.

Berikut anggota timnya:

  • Elvin Nur Furqon (Telkom University)
  • Sebastian Cahyo Ardhi Iswara (Telkom University)

Penjelasan Dataset

Dataset ini diberi nama lengkap ‘Dataset Tulisan Tangan Aksara Sunda Guna Membantu Implementasi OCR Pada Kehidupan Sehari-hari’. Sesuai namanya, dataset dibuat karena menurut pembuat dataset

“..di daerah yang kami tempati (Bandung) banyak orang yang masih kebingungan mengenai aksara Sunda..”

Aksara Sunda sendiri terdiri dari 32 Aksara dasar dan 10 angka, dan dari 32 aksara tersebut pun terbagi lagi menjadi dua bagian: Aksara Swara dan Aksara Ngalagena. Berikut ilustrasi 32 Aksara dan 10 angka tersebut,

Sumber Aksara Swara, Aksara Ngalagena, Angka

Cara Pengambilan

Semua Aksara yang berjumlah 42 itu ditulis tangan di kertas dan diulangi sebanyak 20 kali dalam gaya yang berbeda. Setelah semuanya tertulis, kertas di Scan untuk menghasilkan file digital yang bisa digunakan untuk Normalization dan Preprocessing.

Salah satu hasil Scan dari tulisan tangan pembuat dataset

Gambar yang berhasil discan ini pun masing-masing Aksaranya dipisahkan menggunakan Python, kemudian data-data gambar yang sudah terpecah menjadi ratusan file tersebut dilakukan preprocessing

Preprocessing-nya sendiri meliputi :

  • Rescale/resize
  • Grayscale
  • Thresholding
  • Convolution
  • Reduce Noise
  • Contrast Enhancement
  • Aliasing

Contoh kode untuk mengubah ukuran gambar menggunakan library scikit-image/skimage :

import os
from skimage.io import imread, imsave
from skimage.transform import resize

PATH = os.getcwd()+r'\2.normalized'

for data in os.listdir(PATH):
image = imread(os.path.join(PATH, data))
image_new = resize(image, (28, 28))
imsave(data, image_new)

Semua hal di atas bermanfaat untuk meningkatkan kualitas gambar dan memudahkan pengambilan fitur yang menonjol. Kemudian ada juga fitur-fitur yang dibuat untuk berjaga-jaga bila nantinya dipakai, seperti

  • Contour Image
  • Edge Image
  • Corner Image

Hasil

  • Gambar grayscale berukuran 28x28 px berjumlah 840 data.
Contoh data Aksara ‘na’
  • contour_shape (shape array)
  • coord_corner (x, y)

Dataset dapat anda lihat selengkapnya di https://bisa.ai/dashboard/Detail_dataset?id=6

Pemanfaatan

Data gambar-gambar ini dapat dipakai untuk membuat model Machine Learning pengenalan Aksara Sunda, atau secara umum ini termasuk ke dalam bagian Computer Vision.

Setelah berhasil diimplementasikan, pembuat dataset berharap ini bisa bermanfaat untuk kembali mengenalkan Aksara Sunda kepada orang Indonesia maupun orang luar.

Sekian untuk laporan mengenai Dataset juara kompetisi Data Engineering BISA dan Tebar Bisa Foundation ini. Selanjutnya saya akan membahas mengenai juara-juara kategori seperti: Best Science, Best API, dan lain-lain. Terimakasih!.

--

--

Ramdhanii Ram
BISA.AI
Writer for

Work stuffs & making sense interesting thoughts from my brain.