Apapun Bidangnya, Implementasi Big Data Yuk!

Mr. I
kasta
Published in
4 min readDec 10, 2017

Makassar, Irsyad — Sebenarnya mau posting tentang analisis hasil crawling. Pada artikel sebelumnya kan sudah dibuatkan source code untuk mengumpulkan data dari Twitter. Nah rencananya mau buat source code untuk menghitung frekuensi hashtag, kemudian menghitung berapa banyak tweet yang ada hashtagnya, menghitung berapa banyak tweet yang mention ke user lain, dan rencananya mau buat text analisis misalnya menghitung frequency kata. Tapi boro — boro mau menghitung frequency kata, crawling satu orang user aja lama banget. Koneksi internetnya lemot banget, entah kenapa tiba — tiba lemot, padahal kuota masih ada beberapa puluh GB. Indosat sedang ada masalah atau pengaruh cuaca yah? Nah untuk text analysis kan butuh library NLTK python tapi untuk installnya butuh internet yang agak kenceng dan sizenya juga gede.

Sebelum melakukan analisis dan sambil nunggu hasil crawling untuk dua public figur yang saya sebutkan pada artikel sebelumnya, ada baiknya kita bahas implementasi big data. Saya belum terlalu tau perusahaan mana saja yang telah menerapkan atau membuat jasa big data. Tapi pada tahun 2014 lalu saya pernah ngobrol sama HRD Biofarma. Beliau menyampaikan tentang penggunaan big data di Biofarma. Biofarma saat itu menggunakan jasa iSentia atau Isentia Sdn Bhd. Sekilas informasi aja, Sdn Bhd itu salah satu penyebutan perusahaan di Malysia yang berarti Sendirian Berhad setingkat Perseroan Terbatas lah di Indonesia. Dan ternyata negara — negara persemakmuran kerajaan Inggris menggunakan Bhd, kayak di India sana. Dan salah satu penyedia jasa di Indonesia adalah NoLimit.id yang ada di Gerlong, Bandung. Di Biofarma sendiri membutuhkan informasi dari semua koran yang ada di Asia dan iSentia melakukan itu. Saya tidak tahu prosesnya seperti apa yang jelas flownya adalah iSentia mengumpulkan koran — koran se Asia kemudian mereka scan dan dilakukan lah text analysis. Sepertinya mereka membuat teknologi OCR atau Optical Character Recognizion. Btw sekarang sudah ada stabilo digitil basednya OCR juga. Pengen beliin doi kayaknya ah, kan bagus banget baca, dan kalau menarik langsung discan kayak citate gitu sih.

Nah untuk big data bukan programmer yang melakukannya, bukan pula DBA yang mengerjakannya, akan tetapi ada data engineering dan data scientist.

Terus sebenarnya implementasi big data bisa buat apa aja sih? Lets find out.

Social Network Analysis

Social Network Analysis atau sering disebut dengan SNA adalah mencari sentiment entah itu positif atau negatif. Sentimen ini nanti sebagai bahan evaluasi terhadap apa yang kita lakukan dan digunakan oleh publik. Sebagai contoh ada event dan pada event tersebut kita aktif menyuarakan di social media seperti ada suatu hashtag untuk memberikan komentar terhadap event tersebut. Serunya dengan penggunaan social media adalah, sekarang semua orang dapat berkomentar, memberikan pendapat, kritik, saran, atau bahkan sekedar menyebar informasi sederhana. Kalau kita mau tau respon orang tanpa sosial media, memangnya mau wawancara satu — satu setiap orang? Kan gak mungkin. Mau berapa lama ngerjainnya? Lagian interview itu kadang cuma formalitas yang memberikan jawaban — jawaban netral. Jarang interview yang benar — benar memberikan pandangan sebenarnya. Nah kalau di social media kan banyak yang curhat apa adanya. Baik alay maupun serius. Penggiat SNA bahkan bersyukur jika ada status yang alay, kan bisa tau dia alay intinya apa.

Nanti pada tutorial selanjutnya akan dibuat Streaming Data biar tau berapa besar data yang ada di social media. Pilpres Jokowi vs Prabowo aja sampe 10Gb data txt dan json. Bayangin, untuk data txt dan json aja segitu gedenya. Padahal cuma stream atau get datanya dari jam 3 subuh sampai jam 1 siang. Seingat saya, data bersih ada sekitar 160rb row untuk Jokowi dan ada 90rb row untuk Prabowo. Yah sepintas tanpa melihat yang terjadi pada isi tweetnya kan banyak yang memberikan reaksi pada Jokowi. Buat teman — teman pembaca yang iseng — iseng baca artikel ini, saya kasih gambaran sederhana aja, ada berapa film untuk sampai 10GB? Filmkan tersusun dari audio, video, dan multimedia lainnya. Sedangkan file txt dan json cuma berisi karakter tanpa ada spasi dan break line atau enter.

Nah, SNA ini juga dapat digunakan untuk mengetahui demografi pengguna. Bukan pengguna barang jualan atau jasa yang kita jual melainkan pengguna yang memberikan respon terhadap usaha kita. Mengetahui demografi tersebut kan sangat bagus buat tim marketing untuk mengembangkan strategi penjualan, dari suduh pandang sentimen negatif, produk owner dapat mengevaluasi usahanya. Entah dari qualitas atau quantitas produknya, dan service atau layanan yang mereka berikan kepada pelanggan.

Historical Data Analysis

Historical data analysis adalah proses untuk menganalisa data — data pada masa lampau. Kita dapat menggunakan metode qualitatif dan quantitatif untuk melakukan analisis. Historical data analysis ini memanfaatkan data yang bertahun — tahun bahkan puluhan tahun yang disimpan pada suatu perusahaan. Biasanya digunakan untuk forecasting atau mempelajari apa yang telah terjadi dan bagaimana cara perusahaan bersikap atas kejadian tersebut. Dengan menggunakan data lampau, juga dapat memprediksi apa saja langkah untuk ke depannya. Misalnya apa yang akan digunakan untuk metode pemasaran, atau menciptakan trend baru yang akan digunakan pada masa yang akan datang.

--

--

Mr. I
kasta
Editor for

Code using various programming language commonly based on JVM (Java, Scala, Groovy) with DBMS (Oracle, PostgreSQL & MySQL)