Langsung ke konten utama

PERTEMUAN 2 : Data Preparation

 


    Data preparation adalah langkah awal seorang data scientist untuk mulai mengolah data dengan alat analitik dan laporan. Proses ini melibatkan mengambil data mentah dan mempersiapkannya agar dapat diserap dalam platform analitik. Beberapa istilah yang sering digunakan dalam data preparation antara lain:

  1. Data Cleansing: Proses menghapus atau memodifikasi data yang dianggap tidak lengkap, duplikat, tidak akurat, salah format, atau rusak dalam kumpulan data. Data cleansing penting untuk memastikan konsistensi dan keakuratan data mentah yang digunakan untuk pemrosesan dan analisis.

  2. Data Outlier: Data yang nilainya secara signifikan berbeda dari data lainnya. Outlier dapat berdampak negatif pada akurasi dan performa algoritma dan model statistik machine learning.

  3. Generalisasi Data: Proses menyamakan beberapa ciri/karakteristik yang dimiliki oleh dua kelas yang berbeda sehingga kelas tersebut berada dalam satu kelas yang lebih tinggi. Contohnya adalah mengelompokkan data penjualan berdasarkan negara asal pelanggan atau berdasarkan kategori produk pada sebuah penjualan toko.

  4. Missing Value: Peristiwa hilangnya beberapa data yang telah diperoleh atau tidak terbaca pada data. Missing value dapat terjadi karena tidak terkumpulnya beberapa informasi, seperti ketidaklengkapannya dalam mengisi data berat badan, usia, atau pendapatan bulanan

    Data preparation adalah proses persiapan data sebelum dianalisis atau dimodelkan. Tujuannya adalah untuk membersihkan, mengubah, dan mengorganisir data sehingga dapat digunakan secara efektif dalam analisis atau pemodelan selanjutnya. Langkah-langkah dalam data preparation termasuk pembersihan data, penggabungan data dari berbagai sumber, transformasi data, dan lain-lain.

Proses Data Preparation:

  1. Pengumpulan Data: Mengumpulkan data dari berbagai sumber, baik itu basis data internal, file excel, data sensor, atau sumber lainnya.
  2. Pembersihan Data: Identifikasi dan penanganan nilai yang hilang, data duplikat, atau data yang tidak konsisten.
  3. Transformasi Data: Melakukan transformasi seperti normalisasi, encoding kategori, dan pembuatan fitur baru.
  4. Integrasi Data: Menggabungkan data dari berbagai sumber untuk menciptakan satu set data yang lengkap.
  5. Formatting Data: Memformat data sesuai dengan kebutuhan analisis atau pemodelan, misalnya mengubah format tanggal atau waktu.
  6. Pemilihan Fitur: Memilih fitur atau variabel yang paling relevan dan bermanfaat untuk analisis atau pemodelan.
  7. Validasi Data: Memvalidasi integritas data setelah proses pembersihan dan transformasi.

Komentar

Postingan populer dari blog ini

PERTEMUAN 2 : Data visualization

          Data visualization     adalah proses mengubah informasi dan data menjadi format visual seperti grafik, peta, dan diagram, untuk memudahkan pemahaman, analisis, dan pengambilan keputusan. Tujuannya adalah untuk menyajikan data kompleks secara intuitif, memungkinkan penonton untuk melihat tren, pola, dan korelasi yang mungkin tidak langsung terlihat dalam format data mentah. Dengan menggunakan elemen visual seperti warna, ukuran, dan bentuk, data visualization membantu dalam menyampaikan cerita di balik data, menjadikannya alat yang sangat berharga dalam berbagai bidang seperti bisnis, sains, pendidikan, dan teknologi.      Visualisasi data berperan penting dalam era informasi saat ini, sebagai alat untuk menginterpretasi dan memahami volume data besar dan kompleks dengan cepat dan efektif. Dalam dunia pengolahan data besar dan kompleks, kemampuan untuk menyajikan data tersebut dalam format yang mudah dicerna merupakan sebuah kebutuhan. Dengan visualisasi data, perusahaan dapat