Reduksi Dimensi (Dimensionality Reduction) dalam Preprocessing Machine learning

M Jundi Hakim
2 min readJan 4, 2024

--

Reduksi dimensi adalah teknik yang digunakan untuk mengurangi jumlah fitur atau variabel dalam suatu dataset. Tujuan utama dari reduksi dimensi adalah untuk mengatasi “masalah kutukan” dalam statistik dan machine learning, di mana jumlah fitur (dimensi) jauh lebih besar daripada jumlah sampel, yang dapat menyebabkan overfitting, kompleksitas model yang tinggi, dan kesulitan dalam memahami pola yang sebenarnya dalam data.

Metode Reduksi Dimensi:

1.Principal Component Analysis (PCA):

  • PCA adalah teknik reduksi dimensi yang paling umum digunakan.
  • Mengidentifikasi arah di mana data memiliki varian maksimum dan memproyeksikannya ke dalam ruang yang lebih rendah.
  • Komponen utama (principal components) yang dihasilkan adalah linear kombinasi dari fitur-fitur asli.

2.Linear Discriminant Analysis (LDA):

  • LDA adalah metode yang mempertimbangkan label kelas dalam reduksi dimensi.
  • Tujuannya adalah memaksimalkan jarak antara pusat-pusat kelas sambil meminimalkan dispersi dalam setiap kelas.

3.t-Distributed Stochastic Neighbor Embedding (t-SNE):

  • Metode non-linear yang efektif untuk memvisualisasikan data dalam ruang dua atau tiga dimensi.
  • Memelihara struktur lokal dari data asli.

4.Autoencoders:

  • Jenis arsitektur jaringan saraf tiruan (neural network) yang digunakan untuk tugas reduksi dimensi.
  • Belajar merepresentasikan data dalam ruang yang lebih rendah melalui pembelajaran tanpa supervisi.

Aplikasi Reduksi Dimensi dalam Machine Learning:

1.Percepatan Pelatihan Model:

  • Mengurangi dimensi dapat mempercepat pelatihan model, terutama jika jumlah fitur sangat besar.

2.Visualisasi Data:

  • Mengurangi dimensi memungkinkan representasi visual data yang kompleks dalam dua atau tiga dimensi.
  • Berguna untuk memahami pola dan struktur data.

3.Mengatasi Masalah Kutukan:

  • Mengurangi dimensi membantu mengatasi masalah ketika jumlah fitur melebihi jumlah sampel, mengurangi risiko overfitting.

4.Pengurangan Noise:

  • Menghilangkan fitur-fitur yang mungkin mengandung noise atau tidak relevan, memungkinkan model fokus pada informasi yang lebih penting.

5.Ekstraksi Fitur:

  • Reduksi dimensi dapat berfungsi sebagai langkah ekstraksi fitur otomatis, menghasilkan fitur-fitur baru yang lebih informatif.

6.Kompresi Data:

  • Mengurangi dimensi juga dapat berfungsi sebagai metode kompresi data, mengurangi kebutuhan ruang penyimpanan.

7.Klasifikasi dan Pengelompokan:

  • Dimensi yang lebih rendah dapat mempermudah tugas klasifikasi dan pengelompokan pada data yang kompleks.

Penting untuk memahami bahwa reduksi dimensi dapat memberikan manfaat dalam beberapa konteks, pemilihan metode harus disesuaikan dengan karakteristik data dan tujuan spesifik dari tugas machine learning yang sedang dihadapi.

--

--

M Jundi Hakim

Chief Technology | Project Manager | Machine Learning Mentor | Big Data Enthusiast