Pengenalan Data Science

Mufidatul Ngazizah
Amikom Computer Club
6 min readJul 29, 2023

Hallo sobat AMCC…

Kali ini aku mau sharing sedikit untuk mengenalkan apa itu Data Science. Buat temen-temen yang ingin mempelajari ‘Data Science’ bisa banget simak artikel ini sampai akhir yaa!

Apa itu Data Science?

Data Science merupakan salah satu disiplin ilmu yang mempelajari tentang proses pengolahan data seperti pengumpulan data, manipulasi data, analisis data sehingga dapat menemukan pola tak terlihat dari kumpulan big data untuk menghasilkan informasi maupun prediksi dalam pengambilan keputusan. Menurut definisinya Data Science bukanlah ilmu yang berdiri sendiri. Ia merupakan gabungan dari berbagai bidang ilmu seperti matematika, strategi bisnis, statistik, dan pemrograman.

Data yang diolah oleh seorang data scientist merupakan data yang besar dan beragam mulai dari data struktur sampai data tidak terstruktur. Maka dari itu diperlukan tools tambahan untuk membantu pekerjaan data scientist. Beberapa tools yang digunakan yaitu :

1. Jupyter Notebook

Jupyter Notebook merupakan singkatan dari tiga bahasa pemrograman, yakni Julia (Ju), Python (Py), dan R. Ia adalah sebuah aplikasi web gratis yang paling banyak dipakai oleh data scientist. Aplikasi ini dipakai untuk membuat dan membagikan dokumen yang memiliki kode, hasil hitungan, visualisasi, dan teks. Ketiga bahasa pemrograman pada Jupyter Notebook sendiri adalah sesuatu yang penting bagi seorang data scientist.

Sederhananya, Jupyter Notebook berfungsi membantu data scientist dalam membuat narasi komputasi. Narasi komputasi sendiri menjelaskan makna dari data di dalamnya dan memberikan insight (wawasan) tentang data tersebut.

2. Google Colaboratory

Selain jupyter Notebook, kita juga bisa menggunakan tools Google Colab sebagai text editor. Google Colab atau Google Colaboratory, adalah sebuah executable document yang dapat digunakan untuk menyimpan, menulis, serta membagikan program yang telah ditulis melalui Google Drive. Software ini pada dasarnya serupa dengan Jupyter Notebook namun Google Colab berbentuk cloud yang dapat dijalankan menggunakan browser, seperti Mozilla Firefox dan Google Chrome.

Melalui Google Colaboratory pengguna dapat menjalankan kode Python tanpa perlu melakukan proses instalasi dan setup lainnya. Semua keperluan setting dan adjustment akan diserahkan ke cloud. Maka dari itulah, aplikasi ini merupakan tempat yang baik bagi programmer untuk mengasah pengetahuan mengenai Python. Selain itu, Google Colaboratory juga terkenal karena dapat mendorong kebutuhan kolaborasi tim. Di mana notebook yang akan dibuat nantinya juga dapat diedit secara bersamaan oleh anggota tim lain, seperti halnya menyunting dokumen di Google Documents. Salah satu keunggulan utama dari Google Colaboratory adalah ketersediaan kumpulan pustaka machine learning paling populer yang sudah terintegrasi, yang dapat dengan mudah dimuat ke dalam notebook.

3. Python

Salah satu bahasa pemrograman yang sering digunakan dalam Data Science yaitu Python. Python adalah bahasa pemrograman yang ditujukan untuk general-purpose programming dan termasuk dalam kategori high-level programming language. Maksudnya gimana sih kak? Jadi Python sebagai general-purpose programming language karena dapat digunakan untuk berbagai macam program seperti aplikasi web, pengembangan perangkat lunak, ilmu data, IoT dan machine learning (ML). Selain itu, Python juga termasuk high-level programming language karena mudah untuk dibaca dan dituliskan oleh manusia. Python terbilang lebih simpel dan mudah dipahami sehingga sangat cocok untuk teman-teman yang sebelumnya tidak memiliki basic dalam pemrograman.

Dengan kelebihan Python tersebut, banyak pengembang yang menggunakan library python untuk data science dan tentunya memudahkan pengguna dalam melakukan analisis, membuat model, dan banyak hal dalam data science.

Beberapa library python yang sering digunakan dalam pengolahan, manipulasi maupun prediksi data.

  1. Numpy (Numerical Python) adalah library yang memudahkan dalam pendefinisian array dan juga memiliki fungsi-fungsi untuk aljabar linier. Salah satu kelebihan library numpy adalah membutuhkan memori yang lebih sedikit jika dibandingkan dengan list python.
  2. Scipy (Scientific Python) merupakan library yang ditujukan untuk keperluan komputasi saintifik seperti keperluan aljabar linier, integrasi dan diferensiasi numerik, transformasi fourier, optimasi, interpolasi, statistik dan yang lainnya.
  3. Pandas adalah library open source pada Python yang sering digunakan untuk memproses data yang meliputi pembersihan data, manipulasi data, hingga melakukan analisis data. Selain itu, Pandas juga merupakan adalah library yang dapat mengolah data dalam bentuk tabular dari berbagai sumber seperti file CSV, TSV, Excel, SQL queries, Google BigQuery, SAS, Stata, SPSS, dsb.
  4. Matplotlib merupakan library untuk visualisasi dari data ke dalam berbagai bentuk grafik 2D atau 3D, seperti line chart, bar chart, histogram, polar chart, error bar plot, dan jenis grafik lainnya. Visualisasi data merupakan salah satu skillset yang wajib dikuasai oleh seorang data scientist sehingga penguasaan terhadap library matplotlib sangat penting.
  5. Scikit-learn adalah Scipy Toolkit yang ditujukan untuk menghasilkan model prediktif dengan menggunakan machine learning. Scikit-learn juga menyediakan berbagai pilihan algoritma pembelajaran yang diawasi (supervised) dan tidak diawasi (unsupervised).
  6. Seaborn merupakan library yang dibuat dari matplotlib yang ditujukan oleh visualisasi grafik statistik dengan warna yang menawan, terintegrasi dengan baik dengan pandas.

Skill Apa yang Harus Dimiliki Data Scientist?

Selain tools yang sudah dibahas sebelumnya, seorang data scientist juga memerlukan skill yang tidak kalah penting. Beberapa skill teknis dan non teknis yang bisa teman-teman kembangkan untuk menjadi seorang data scientist.

Skill Teknis

Skill teknik adalah kemampuan atau keahlian dalam menerapkan pengetahuan dan keterampilan praktis untuk menyelesaikan tugas atau tantangan teknis dalam data science.

  • Pemrograman

Dalam konteks data science, Python adalah bahasa pemrograman yang paling umum digunakan. Python memiliki kelebihan dalam mengelola kumpulan data yang tidak terstruktur. Selain itu, seperti yang sudah dijelaskan sebelumnya, bahwa python memiliki banyak library pendukung sehingga sangat membantu dalam pemrosesan data, analisis statistik, visualisasi, dan pembelajaran mesin.

  • Statistika

Statistika adalah disiplin ilmu yang berkaitan dengan pengumpulan, analisis, interpretasi, penyajian, dan pengaturan data. Oleh karena itu, memiliki kemahiran dalam statistika sangat penting dalam pekerjaan yang berhubungan dengan data. Selain itu juga diperlukan pengetahuan tentang uji statistik, distribusi, dan analisis regresi.

  • Bekerja dengan Data Tidak Terstruktur

Seorang data scientist harus memiliki pengalaman dalam menghadapi data yang tidak terstruktur dari berbagai sumber dan kanal yang berbeda. Misalnya, jika seorang data scientist ditugaskan untuk proyek yang membantu tim pemasaran dalam mendapatkan wawasan mendalam, maka dia harus memiliki kemampuan untuk mengelola data yang tidak teratur dari media sosial.

  • Visualisasi Data

Kemampuan untuk memvisualisasikan data dengan cara yang jelas dan efektif sangat penting dalam menyajikan temuan dan wawasan dari analisis data kepada pemangku kepentingan. Data scientist harus mahir menggunakan alat bantu visualisasi data seperti Matplotlib, Seaborn, atau Tableau untuk membuat grafik, diagram, dan visualisasi interaktif yang membantu menjelaskan pola dan tren yang ada dalam data. Visualisasi yang baik membantu dalam komunikasi hasil analisis dengan cara yang mudah dipahami dan menarik perhatian.

  • Pembelajaran Mesin (Machine Learning)

Pengetahuan dan keterampilan dalam algoritma pembelajaran mesin adalah komponen inti dalam data science. Seorang data scientist perlu memahami berbagai algoritma pembelajaran mesin, teknik evaluasi model, dan pemilihan fitur yang relevan. Mereka harus memiliki pemahaman yang kuat tentang konsep dasar seperti klasifikasi, regresi, pengelompokan, serta pemahaman tentang model pembelajaran mendalam seperti model supervised learning maupun unsupervised learning.

Skill Non Teknis

Selain mempelajari skil teknis, seorang data science juga wajib memiliki soft skill seperti :

  • Komunikasi

Sebagai seorang data scientist, tidak hanya penting untuk memiliki keterampilan teknis dalam mengekstrak dan menganalisis data, tetapi juga kemampuan komunikasi yang kuat. Tugas data scientist adalah melakukan analisis yang kompleks dan menghasilkan temuan yang berharga. Namun, jika tidak dapat mengkomunikasikan hasil temuan dengan jelas kepada rekan kerja atau pemangku kepentingan, nilai dari analisis tersebut akan hilang. Kemampuan untuk mengungkapkan temuan dengan cara yang mudah dipahami oleh orang non-teknis sangat penting.

  • Ketajaman Bisnis

Memiliki keterampilan ketajaman bisnis yang kuat sehingga seorang data science dapat mengidentifikasi masalah bisnis yang relevan dan menghadapi tantangan yang mungkin dihadapi oleh perusahaan. Keterampilan ketajaman bisnis membantu. Pemahaman yang baik tentang proses bisnis, data scientist dapat melihat area dimana data dapat memberikan wawasan berharga atau di mana ada peluang untuk meningkatkan efisiensi, mengurangi biaya, atau meningkatkan kinerja.

  • Intuisi Data

Keterampilan ketajaman bisnis dan intuisi data tidak hanya didasarkan pada pengetahuan teknis semata, tetapi juga dikembangkan melalui pengalaman dan pelatihan yang tepat. Pengalaman dalam bekerja dengan data dan terlibat dalam proyek analisis yang beragam dapat membantu seorang data scientist mengembangkan intuisi yang kuat. Melalui pengalaman tersebut, mereka dapat mempelajari pola-pola umum, memahami kompleksitas data yang berbeda, dan mengidentifikasi situasi atau masalah yang sering muncul.

Itulah beberapa pengenalan singkat mengenai data science dan skill yang diperlukan untuk menjadi seorang data scientist. Terus pada praktek sebenarnya, project case seperti apa si yang dilakukan oleh seorang data scientist?

Beberapa project case yang dikerjakan oleh seorang data scientist

  1. Sistem Rekomendasi

Membangun sistem rekomendasi yang dapat memberikan rekomendasi produk, film, musik, atau konten lainnya kepada pengguna berdasarkan preferensi mereka. Proyek ini melibatkan penggunaan algoritma seperti collaborative filtering atau content-based filtering untuk mempelajari pola-pola preferensi pengguna dari data historis.

2. Segmentasi Pelanggan

Menganalisis data pelanggan untuk mengidentifikasi segmen pelanggan yang berbeda berdasarkan perilaku, preferensi, atau karakteristik demografis. Proyek ini dapat membantu perusahaan dalam menyusun strategi pemasaran yang lebih efektif dan menyesuaikan penawaran dengan kebutuhan dan preferensi segmen pelanggan yang berbeda.

3. Prediksi Harga Properti

Membangun model prediktif untuk memprediksi harga properti berdasarkan faktor-faktor seperti lokasi, luas bangunan, fasilitas, dan data pasar properti lainnya. Proyek ini dapat membantu pihak real estate atau investor untuk memahami faktor-faktor yang mempengaruhi harga properti dan membuat keputusan investasi yang lebih baik.

Data science memberikan kemampuan untuk menganalisis dan menggali nilai dari data yang melimpah, serta memberikan wawasan yang berharga dalam pengambilan keputusan. Oleh karena itu, mempelajari dan mengembangkan keterampilan dalam data science membuat kita dapat memanfaatkan potensi yang tak terbatas dari data. Semoga sedikit pengenalan tentang Data science ini dapat bermanfaat untuk teman-teman yaa…

--

--