Langsung ke konten utama

PERTEMUAN 1 : Data Mining dan prosesnya




gambar data mining
(Sumber gambar Simplilearn)

    

    Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting dari suatu kumpulan data yang besar. Proses ini dapat melibatkan perangkat lunak dengan bantuan perhitungan statistika, matematika, dan teknologi Artificial Intelligence (AI). 

            Proses data mining meliput enam tahap utama yang perlu diikuti :

  1. Menetapkan dengan jelas tujuan dari kegiatan data mining untuk memastikan kesesuaian dengan kebutuhan bisnis atau penelitian yang diinginkan
  2. Melibatkan pengumpulan data yang relevan dan diperlukan sesuai dengan tujuan yang telah ditetapkan sebelumnya.
  3. Melibatkan proses pembersihan dan penataan data untuk menghindari duplikasi, kehilangan data, atau data berkualitas buruk. Data dirapikan dan disusun dalam format yang dibutuhkan untuk memastikan kualitas dan keakuratan analisis.
  4. Pembuatan dan pengujian berbagai model data menggunakan algoritma yang telah dipilih.
  5. Melibatkan penelitian hasil dari berbagai model untuk menentukan model mana yang paling sesuai dengan mencapai tujuan data mining.
  6. Penerapan Hasil, Hasil terpilih dari proses penambangan data digunakan untuk mencapai tujuan awal yang telah ditetapkan.

 

Berikut beberapa hal yang perlu dipahami tentang data mining:

 

1. Tujuan Data Mining :

  • Explanatory: Menggali informasi untuk memahami hubungan antara variabel.
  • Confirmatory: Mengonfirmasi hipotesis yang telah ada.
  • Exploratory : Menemukan pola atau hubungan baru dalam data.

 

2. Karakteristik Data Mining :

  • Membutuhkan banyak data.
  • Data tidak selalu akurat.
  • Dilakukan dengan cara manual dan bantuan tools.

 

3. Manfaat Data Mining :

  •     Meningkatkan kualitas layanan.
  •     Mendorong penjualan.
  •     Melakukan analisis risiko.
  •     Mengoptimalkan pengeluaran.
  •     Memahami konsumen lebih baik.
  •     Memastikan produksi berjalan baik.
  •     Mengelola pasokan bahan baku lebih baik. 

4. Metode dalam Data Mining :

  •      Association Rule: Menemukan hubungan antara item dalam data.
  •      Anomaly Detection: Mendeteksi data yang tidak biasa atau anomali.
  •      Clustering atau Cluster Analysis: Mengelompokkan data berdasarkan kesamaan.
  •      Classification: Mengklasifikasikan data ke dalam kategori tertentu.
  •      Regression: Memprediksi nilai berdasarkan variabel lain.
  •      Decision Tree: Membuat pohon keputusan berdasarkan data.

 

5. Contoh Data Mining :

  • Pemasaran.  Produk finansial.
  • Pendidikan.Layanan kesehatan
  • .Retail dan manufaktur.
  • Layanan streaming media. 

KDD, singkatan dari Knowledge Discovery in Databases, merupakan proses sistematis dan otomatis untuk mengeksplorasi pengetahuan dari kumpulan data yang besar. Pendekatan ini mencakup langkah-langkah dari pemilihan data hingga interpretasi hasil, dengan setiap tahapan memungkinkan iterasi dan penyesuaian sesuai dengan pemahaman yang berkembang.

Penting untuk diingat bahwa tahapan-tahapan ini seringkali tidak linier, dan proses KDD dapat melibatkan iterasi atau penyesuaian pada tahapan tertentu seiring dengan pemahaman yang berkembang dari data.


  1. Data Cleaning:

  2. Identifikasi dan perbaiki ketidakakuratan, kekurangan, atau inkonsistensi dalam data.
  3. Deteksi dan penanganan nilai-nilai yang hilang, outlier, atau kesalahan lainnya.
  4. Memastikan kualitas data sebelum lanjut ke tahap berikutnya.
  5. Data Selection & Transformation:

  6. Pemilihan atribut-atribut yang relevan untuk analisis lebih lanjut.
  7. Transformasi data seperti penggabungan, normalisasi, atau konversi atribut.
  8. Persiapan data agar sesuai dengan metode analisis yang akan digunakan.
  9. Data Mining:
  10. Penerapan teknik-teknik data mining seperti clustering, klasifikasi, regresi, atau asosiasi.
  11. Eksekusi algoritma pada data yang telah disiapkan pada tahap sebelumnya.
  12. Eksplorasi data untuk mengekstraksi pola atau informasi yang tersembunyi.
  13. Evaluation:
  14. Pengukuran keefektifan model atau pola yang diidentifikasi selama tahap data mining.
  15. Penggunaan metrik-metrik seperti akurasi, presisi, recall, atau metrik lainnya yang sesuai dengan konteks masalah.
  16. Evaluasi hasil untuk memastikan relevansi dan kualitasnya.
  17. Pattern and Knowledge Representation:
  18. Representasi pola atau pengetahuan yang telah diidentifikasi dalam bentuk yang dapat dimengerti dan berguna.
  19. Format representasi dapat berupa aturan-aturan, model matematis, grafik, atau bentuk lainnya sesuai dengan jenis pengetahuan yang ditemukan.
  20. Utilization of Discovered Knowledge:
  21. Pemanfaatan pengetahuan yang ditemukan dalam konteks bisnis atau ilmiah.
  22. Dukungan untuk pengambilan keputusan, pembuatan prediksi, atau penyediaan wawasan berharga dalam berbagai bidang aplikasi.
  23. Mendorong tindakan atau keputusan berdasarkan penemuan yang didapat dari proses KDD.

 

Komentar

Postingan populer dari blog ini

PERTEMUAN 2 : Data visualization

          Data visualization     adalah proses mengubah informasi dan data menjadi format visual seperti grafik, peta, dan diagram, untuk memudahkan pemahaman, analisis, dan pengambilan keputusan. Tujuannya adalah untuk menyajikan data kompleks secara intuitif, memungkinkan penonton untuk melihat tren, pola, dan korelasi yang mungkin tidak langsung terlihat dalam format data mentah. Dengan menggunakan elemen visual seperti warna, ukuran, dan bentuk, data visualization membantu dalam menyampaikan cerita di balik data, menjadikannya alat yang sangat berharga dalam berbagai bidang seperti bisnis, sains, pendidikan, dan teknologi.      Visualisasi data berperan penting dalam era informasi saat ini, sebagai alat untuk menginterpretasi dan memahami volume data besar dan kompleks dengan cepat dan efektif. Dalam dunia pengolahan data besar dan kompleks, kemampuan untuk menyajikan data tersebut dalam format yang mudah dicerna merupakan sebuah kebutuhan. Dengan visualisasi data, perusahaan dapat