Pengenalan Data Processing

Fauzan Al Irsyadul Ikhbaad
Amikom Computer Club
5 min readSep 13, 2023

Halo teman-teman AMCC…!!!!!

Dalam dunia digital yang terus berkembang, Data Processing memiliki peran kunci. Dalam artikel ini, kita akan menjelajahi dasar-dasar pemrosesan data. Mari kita mulai! 🚀💻

APA ITU DATA PROCESSING ?
Data Processing adalah proses pengumpulan data mentah dan mengubahnya menjadi informasi yang berguna. Proses ini biasanya dilakukan secara bertahap oleh tim data scientist dan data engineers dalam sebuah organisasi. Data awal dikumpulkan, disaring, diurutkan, diproses, dianalisis, disimpan, dan akhirnya disajikan dalam format yang dapat dengan mudah dipahami. Dengan kata lain, Data Processing adalah langkah penting dalam mengambil data dan mengubahnya menjadi pengetahuan yang berharga.

Mengenal Tahap-Tahap Pemrosesan Data

1. Pengumpulan Data

Pemrosesan data dimulai dengan pengumpulan data mentah dari berbagai sumber. Data ini bisa dalam bentuk teks, angka, gambar, suara, atau bahkan sensor data fisik. Contohnya termasuk data pembelian pelanggan, catatan medis, atau data cuaca. Sumber data dapat mencakup survei, sensor, basis data, atau bahkan log file.

berikut ini daftar sumber data yang biasanya digunakan oleh para profesional data science untuk mengakses data:

  • Kaggle (www.kaggle.com)
  • Data.gov (www.data.gov)
  • World Bank Data (data.worldbank.org)
  • Google Dataset Search (datasetsearch.research.google.com)
  • DataHub (datahub.io)

2. Pembersihan Data (Data Cleaning)

Data yang dikumpulkan jarang sempurna. Mereka bisa mengandung duplikat, data yang hilang, atau entri yang tidak valid. Tahap pembersihan data melibatkan identifikasi dan penanganan masalah ini. Misalnya, data duplikat dihapus, nilai yang hilang diisi, dan outlier diatasi.

Penerapan Data Cleaning pada DATASET

Melihat terlebih dahulu pada setiap kolom/fiturnya apakah ada Null / Missing Value Di Dataset

Agar memperbaiki data null atau missing kita bisa menghapus data nya secara langsung,

Atau, kita bisa mengganti nilai Null menjadi Mean atau Median

3. Transformasi Data

Setelah data dibersihkan, langkah selanjutnya adalah mentransformasikannya. Ini bisa berarti menggabungkan data dari berbagai sumber, mengubah format tanggal, atau menghitung statistik tambahan. Transformasi data ini penting untuk mempersiapkan data agar siap untuk analisis.

Penerapan Transformasi/Normalisasi Data pada DATASET

Normalisasi Data menggunakan library scikit-learn

Metode Min-Max Scaling

Metode Min-Max Scaling adalah teknik normalisasi data yang digunakan dalam analisis data. Dalam metode ini, nilai-nilai data diubah sehingga mereka berada dalam rentang tertentu, biasanya antara 0 dan 1

Metode Z-Score

dikenal sebagai Z-Score Normalization atau Standardization, adalah teknik normalisasi data yang digunakan dalam analisis data. Dalam metode ini, nilai-nilai data diubah sehingga memiliki rata-rata (mean) nol dan deviasi standar (standard deviation) satu.

Metode Decimal Scale

Metode Decimal Scaling adalah teknik normalisasi data yang mengubah nilai-nilai data sehingga mereka berada dalam rentang antara -1 hingga 1. Metode ini berguna untuk menghilangkan perbedaan skala antar variabel dalam dataset dan membuat data lebih mudah dibandingkan.

Metode Logarithmic Scaling

Metode Logarithmic Scaling adalah teknik normalisasi data yang mengubah nilai-nilai data dengan mengambil logaritma alami (logaritma basis e) dari nilai asli. Metode ini berguna untuk mengatasi data yang memiliki sebaran nilai yang sangat luas, dengan perbedaan skala yang signifikan antara nilai-nilai data.

4. Pengorganisasian Data

Data harus diorganisasi dengan baik agar mudah diakses dan dikelola. Biasanya, data diatur dalam bentuk tabel atau basis data, di mana setiap entri memiliki atribut atau kolom yang menggambarkan informasi tertentu. Indexing juga digunakan untuk meningkatkan efisiensi dalam pencarian data.

Menggali Potensi Data Melalui Analisis

Analisis Data

Di sinilah inti dari pemrosesan data terletak. Data yang sudah bersih dan terorganisir bisa dianalisis. Ini melibatkan penggunaan berbagai teknik statistik, visualisasi data, dan metode analisis untuk menemukan pola, tren, atau insight dalam data. Sebagai contoh, sebuah bisnis bisa menggunakan analisis data untuk mengidentifikasi tren pembelian pelanggan dan merancang strategi pemasaran yang lebih efektif

.

Interpretasi Data

Hasil dari analisis data harus diinterpretasikan agar bisa memberikan pemahaman yang berguna. Ini bisa berarti membuat kesimpulan, membuat prediksi, atau mengambil tindakan berdasarkan temuan dalam data. Sebagai contoh, dari analisis data medis, dokter bisa membuat diagnosis atau rekomendasi perawatan.

Penyajian Data

Informasi yang dihasilkan dari data seringkali disajikan dalam bentuk laporan, grafik, atau visualisasi data. Tujuannya adalah memudahkan komunikasi hasil analisis dengan jelas kepada pemangku kepentingan. Sebuah perusahaan mungkin membuat laporan penjualan tahunan dengan grafik yang mencerminkan pertumbuhan pendapatan.

Penyimpanan Data dan Pengambilan Keputusan

Penyimpanan Data

Data yang sudah diproses dan hasil analisisnya perlu disimpan secara aman dan dapat diakses kembali jika diperlukan. Ini melibatkan penggunaan sistem penyimpanan data yang sesuai, seperti basis data atau penyimpanan awan (cloud storage).

Pengambilan Keputusan

Informasi yang diperoleh dari pemrosesan data adalah landasan untuk pengambilan keputusan yang lebih baik dalam berbagai konteks. Dalam bisnis, data dapat membantu manajer untuk mengambil keputusan strategis seperti perencanaan stok atau strategi harga.

Penutup

Pemrosesan data adalah pondasi dari banyak aspek kehidupan kita saat ini. Ini mengubah data mentah menjadi pengetahuan yang berguna, membantu kita membuat keputusan yang lebih baik, meningkatkan efisiensi, dan memahami dunia dengan lebih baik berdasarkan informasi yang terkandung dalam data. Di era data, pemrosesan data tidak hanya tentang mengumpulkan data, tetapi juga tentang membuatnya bekerja untuk kita, organisasi kita, dan masyarakat secara keseluruhan. Jadi, mari kita bersama-sama menjelajahi dunia pemrosesan data dan mengungkap potensi besar yang terkandung dalam informasi. Dengan pemahaman ini, kita dapat mengambil langkah lebih maju dalam menghadapi tantangan di masa depan yang semakin terhubung secara digital.

--

--