Data preparation adalah langkah awal seorang data scientist untuk mulai mengolah data dengan alat analitik dan laporan. Proses ini melibatkan mengambil data mentah dan mempersiapkannya agar dapat diserap dalam platform analitik. Beberapa istilah yang sering digunakan dalam data preparation antara lain:
Data Cleansing: Proses menghapus atau memodifikasi data yang dianggap tidak lengkap, duplikat, tidak akurat, salah format, atau rusak dalam kumpulan data. Data cleansing penting untuk memastikan konsistensi dan keakuratan data mentah yang digunakan untuk pemrosesan dan analisis.
Data Outlier: Data yang nilainya secara signifikan berbeda dari data lainnya. Outlier dapat berdampak negatif pada akurasi dan performa algoritma dan model statistik machine learning.
Generalisasi Data: Proses menyamakan beberapa ciri/karakteristik yang dimiliki oleh dua kelas yang berbeda sehingga kelas tersebut berada dalam satu kelas yang lebih tinggi. Contohnya adalah mengelompokkan data penjualan berdasarkan negara asal pelanggan atau berdasarkan kategori produk pada sebuah penjualan toko.
Missing Value: Peristiwa hilangnya beberapa data yang telah diperoleh atau tidak terbaca pada data. Missing value dapat terjadi karena tidak terkumpulnya beberapa informasi, seperti ketidaklengkapannya dalam mengisi data berat badan, usia, atau pendapatan bulanan
Data preparation adalah proses persiapan data sebelum dianalisis atau dimodelkan. Tujuannya adalah untuk membersihkan, mengubah, dan mengorganisir data sehingga dapat digunakan secara efektif dalam analisis atau pemodelan selanjutnya. Langkah-langkah dalam data preparation termasuk pembersihan data, penggabungan data dari berbagai sumber, transformasi data, dan lain-lain.
Proses Data Preparation:
- Pengumpulan Data: Mengumpulkan data dari berbagai sumber, baik itu basis data internal, file excel, data sensor, atau sumber lainnya.
- Pembersihan Data: Identifikasi dan penanganan nilai yang hilang, data duplikat, atau data yang tidak konsisten.
- Transformasi Data: Melakukan transformasi seperti normalisasi, encoding kategori, dan pembuatan fitur baru.
- Integrasi Data: Menggabungkan data dari berbagai sumber untuk menciptakan satu set data yang lengkap.
- Formatting Data: Memformat data sesuai dengan kebutuhan analisis atau pemodelan, misalnya mengubah format tanggal atau waktu.
- Pemilihan Fitur: Memilih fitur atau variabel yang paling relevan dan bermanfaat untuk analisis atau pemodelan.
- Validasi Data: Memvalidasi integritas data setelah proses pembersihan dan transformasi.
Komentar
Posting Komentar