Langsung ke konten utama

PERTEMUAN 2 : Data Preparation

 


    Data preparation adalah langkah awal seorang data scientist untuk mulai mengolah data dengan alat analitik dan laporan. Proses ini melibatkan mengambil data mentah dan mempersiapkannya agar dapat diserap dalam platform analitik. Beberapa istilah yang sering digunakan dalam data preparation antara lain:

  1. Data Cleansing: Proses menghapus atau memodifikasi data yang dianggap tidak lengkap, duplikat, tidak akurat, salah format, atau rusak dalam kumpulan data. Data cleansing penting untuk memastikan konsistensi dan keakuratan data mentah yang digunakan untuk pemrosesan dan analisis.

  2. Data Outlier: Data yang nilainya secara signifikan berbeda dari data lainnya. Outlier dapat berdampak negatif pada akurasi dan performa algoritma dan model statistik machine learning.

  3. Generalisasi Data: Proses menyamakan beberapa ciri/karakteristik yang dimiliki oleh dua kelas yang berbeda sehingga kelas tersebut berada dalam satu kelas yang lebih tinggi. Contohnya adalah mengelompokkan data penjualan berdasarkan negara asal pelanggan atau berdasarkan kategori produk pada sebuah penjualan toko.

  4. Missing Value: Peristiwa hilangnya beberapa data yang telah diperoleh atau tidak terbaca pada data. Missing value dapat terjadi karena tidak terkumpulnya beberapa informasi, seperti ketidaklengkapannya dalam mengisi data berat badan, usia, atau pendapatan bulanan

    Data preparation adalah proses persiapan data sebelum dianalisis atau dimodelkan. Tujuannya adalah untuk membersihkan, mengubah, dan mengorganisir data sehingga dapat digunakan secara efektif dalam analisis atau pemodelan selanjutnya. Langkah-langkah dalam data preparation termasuk pembersihan data, penggabungan data dari berbagai sumber, transformasi data, dan lain-lain.

Proses Data Preparation:

  1. Pengumpulan Data: Mengumpulkan data dari berbagai sumber, baik itu basis data internal, file excel, data sensor, atau sumber lainnya.
  2. Pembersihan Data: Identifikasi dan penanganan nilai yang hilang, data duplikat, atau data yang tidak konsisten.
  3. Transformasi Data: Melakukan transformasi seperti normalisasi, encoding kategori, dan pembuatan fitur baru.
  4. Integrasi Data: Menggabungkan data dari berbagai sumber untuk menciptakan satu set data yang lengkap.
  5. Formatting Data: Memformat data sesuai dengan kebutuhan analisis atau pemodelan, misalnya mengubah format tanggal atau waktu.
  6. Pemilihan Fitur: Memilih fitur atau variabel yang paling relevan dan bermanfaat untuk analisis atau pemodelan.
  7. Validasi Data: Memvalidasi integritas data setelah proses pembersihan dan transformasi.

Komentar

Postingan populer dari blog ini

Pertemuan 4 : Cleaning, Data Transformation, Data Reduction

Blog dengan Video YouTube TUGAS KELOMPOK FP Data Cleaning, Data Transformation, Data Reduction:

Apa itu ERD

       Entity Relationship Diagram , juga dikenal sebagai ERD, ER Diagram atau er model, adalah jenis diagram struktural untuk digunakan dalam desain database. ERD berisi simbol dan konektor berbeda yang memvisualisasikan dua informasi penting: Entitas utama dalam lingkup sistem, dan hubungan antar di antara entitas-entitas ini.      Sebagian besar ERD telah berevolusi dari desain database fisik. Jangan khawatir tentang kompleksitasnya, Anda dapat dengan mudah mempelajari bidang ini dengan memeriksa tiga elemen ERD dasar berikut: Entitas      Entitas biasanya dibagi menjadi lima kategori: konsep, lokasi, peran, acara, dan hal-hal (orang, tempat, acara, penjualan, pelanggan, departemen perusahaan, siswa, atau produk, dll.). Entitas ditampilkan dalam tabel database dalam sistem data, dan setiap baris tabel mewakili instans entitas. Misalnya, entitas Nama dalam tabel di bawah ini bisa berupa Jack, Alice, dan sebagainya. Atribut   ...

Apa itu Conseptual Database

  secara konsep basis data atau database merupakan kumpulan dari data-data yang membentuk suatu file yang saling berhubungan (relation) dengan metode tertentu untuk membentuk data baru atau informasi. Dapat dikatakan pula bahwa basis data merupakan kumpulan dari data yang saling berhubungan antara satu dengan lainnya yang diorgansasikan berdasarkan skema atau struktur tertentu. Relasi data biasanya diberikan kunci (key) dari tiap file yang ada.