Ringkasan Materi: Data Science

Mari mempelajari dan memahami ‘ilmu data’ dengan mudah.

Jane Mahasmara
4 min readAug 19, 2021

Apa itu Data Science?

Data science merupakan bidang ilmu multi-disiplin yang menyatukan konsep dari ilmu komputer, statistik/machine learning, dan analisis data untuk memahami dan memperoleh informasi berdasarkan data yang sangat besar.

Terdapat dua paradigma dalam penelitian, yaitu

  1. Hypothesis-Driven: Apabila kita diberikan suatu kasus, data seperti apa yang kita butuhkan untuk mendapatkan penyelesaiannya?
  2. Data-Driven: Apabila kita diberikan suatu data, solusi menarik apa yang bisa kita peroleh atau selesaikan dengan data tersebut?

‘‘The heart of data science is to always ask questions. Always be curious about the world.’’

Tipe-tipe Data

  1. Data Terstruktur (Structured Data): Data yang memiliki struktur yang telah ditentukan sebelumnya. Contoh: tabel, spreadsheet.
  2. Data Tidak Terstruktur (Unstructured Data): Data yang tidak memiliki struktur yang telah ditentukan sebelumnya, dapat memiliki berbagai ukuran maupun bentuk, dan sukar disimpan dalam bentuk tabel. Contoh: gambar, suara, dan kumpulan teks.
  3. Data Kuantitatif (Quantitative Data): Data numerik, seperti berat dan tinggi.
  4. Data Kategorik (Categorical Data): Data yang dapat diberi label atau dibagi menjadi beberapa grup atau kelas-kelas tertentu. Contoh: Jenis kelamin, warna rambut, dan ras.
  5. Big Data: Dataset yang sangat besar, atau data yang mengandung variasi informasi yang sangat besar.

Format data yang umum digunakan antara lain CSV, XML, SQL, JSON.

Masalah Utama dalam Data Science:

Terdapat dua masalah yang sering muncul dalam data science, yaitu:

  1. Klasifikasi (Classification): Menempatkan sesuatu ke dalam serangkaian kemungkinan diskrit, contoh: golongan darah (O, A, B, AB), tinggi atau rendah.
  2. Regresi (Regression): Memprediksi suatu nilai numerik, contoh: nilai PDB tahun mendatang, harga saham.

Overview: Probabilitas

Teori probabilitas memberikan gambaran untuk membantu penalaran mengenai kemungkinan terjadinya suatu peristiwa atau kejadian.

TERMINOLOGI:

Eksperimen:

Suatu cara yang menghasilkan salah satu dari serangkaian hasil yang mungkin, misalnya melempar dadu atau koin berulang kali.

Ruang Sample ‘S’:

Himpunan atau kumpulan kemungkinan yang mungkin dari suatu eksperimen, misalnya jika melempar dadu maka S = {1, 2, 3, 4, 5, 6}

Kejadian/Peristiwa ‘E’:

Himpunan atau kumpulan hasil dari suatu eksperimen, misalnya peristiwa muncul angka 4 dalam pelemparan dadu.

Probabilitas Suatu Kejadian ‘s’ atau P(s):

Merupakan suatu nilai yang memiliki dua sifat, yaitu:

  1. untuk setiap hasil ‘s’, 0 ≤ P(s) ≤ 1
  2. Σ p(s) = 1

Probabilitas Eksperimen atau P(E):

Jumlah peluang hasil eksperimen atau percobaan adalah p(E) = Σs⊆E p(s)

Variabel Random V:

Suatu fungsi numerik pada hasil dari ruang probabilitas.

Nilai Harapan Variabel Random:

E(V) = Σs⊆S p(s) * V(s)

INDEPENDENSI, KONDISIONAL, GABUNGAN:

  1. Kejadian bebas (independent events): A dan B dikatakan saling bebas jika P(A and B) = P(A∩B) = P(B) × P(A). Dengan P(A|B) = P(A) dan P(B|A) = P(B).
  2. Probabillitas bersyarat: P(A|B) = P(A∩B)/P(B)
  3. Teori Bayesian: P(A|B) =P(B|A) × P(A)/P(B)
  4. Probabilitas Gabungan: P(A∩B) = P(B|A) × P(A)
  5. Probabilitas Marginal: P(A)

PROBABILITAS DISTRIBUSI

  1. Fungsi Densitas Probabilitas (Probability Density Function) menyatakan probabilitas variabel random memiliki nilai x: p(x) = P(X=x)
  2. Fungsi Densitas Kumulatif (Cumulative Density Function) menyatakan probabilitas bahwa variabel random bernilai kurang atau sama dengan x: F(x) = P(X≤x)

Statistika Deskriptif

Merupakan suatu cara untuk mengumpulkan data dan menyajikan informasi yang bermanfaat berdasarkan data. Terdapat dua tipe statistika yaitu ukuran pemusatan data (centrality) dan ukuran penyebaran data (variability).

Ukuran Pemusatan Data (Centrality)

  • Arithmetic Mean: Dapat digunakan untuk distribusi simetri tanpa outlier/pencilan. μ(x) = (1/n)Σx
  • Geometric Mean: Berguna untuk mencari rata-rata rasio.
Rumus Geometric Mean
  • Median: Nilai tengah data. Dapat digunakan untuk distribusi yang miring (skewed distribution) atau data tanpa outlier.
  • Mode/Modus: Nilai yang sering muncul dalam data.

Ukuran Penyebaran Data (Variability)

  • Standart Deviasi: Menghitung perbedaan kuadrat antara elemen data dan rata-rata.
Rumus Standart Deviasi untuk Populasi (kiri) dan Sampel (kanan).
  • Variansi: V = σ²

Analisis Korelasi

Koefisien korelasi r(X,Y) merupakan statistik yang mengukur derajat bahwa Y adalah fungsi dari X dan sebaliknya. Korelasi bernilai antara -1 sampai 1. Nilai 1 berarti bahwa variabel X dan Y berkorelasi positif, -1 berarti bahwa variabel X dan Y berkorelasi negatif, sedangkan 0 berarti tidak terdapat korelasi.

  • Koefisien Pearson: Menghitung derajat hubungan antara variabel yang berhubungan linear.
Rumus Koefisien Pearson
  • Koefisien Rank Spearman: Menghitung korelasi antara variabel yang memiliki rank/peringkat.

Catatan: korelasi tidak mengimplikasikan sebab-akibat.

--

--

Jane Mahasmara
0 Followers

to sum it up, my colour is periglacial blue.