Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting dari suatu kumpulan data yang besar. Proses ini dapat melibatkan perangkat lunak dengan bantuan perhitungan statistika, matematika, dan teknologi Artificial Intelligence (AI).
Proses data mining
meliput enam tahap utama yang perlu diikuti :
- Menetapkan dengan jelas tujuan dari kegiatan data mining untuk
memastikan kesesuaian dengan kebutuhan bisnis atau penelitian yang
diinginkan
- Melibatkan pengumpulan data yang relevan dan diperlukan sesuai
dengan tujuan yang telah ditetapkan sebelumnya.
- Melibatkan proses pembersihan dan penataan data untuk menghindari
duplikasi, kehilangan data, atau data berkualitas buruk. Data dirapikan
dan disusun dalam format yang dibutuhkan untuk memastikan kualitas dan
keakuratan analisis.
- Pembuatan dan pengujian berbagai model data menggunakan algoritma
yang telah dipilih.
- Melibatkan penelitian hasil dari berbagai model untuk menentukan
model mana yang paling sesuai dengan mencapai tujuan data mining.
- Penerapan Hasil, Hasil terpilih dari proses penambangan data
digunakan untuk mencapai tujuan awal yang telah ditetapkan.
Berikut beberapa hal yang perlu dipahami
tentang data mining:
1. Tujuan Data Mining :
- Explanatory: Menggali informasi untuk memahami hubungan antara variabel.
- Confirmatory: Mengonfirmasi hipotesis yang telah ada.
- Exploratory : Menemukan pola atau hubungan baru dalam data.
2. Karakteristik Data Mining :
- Membutuhkan banyak data.
- Data tidak selalu akurat.
- Dilakukan dengan cara manual dan bantuan tools.
3. Manfaat Data Mining :
- Meningkatkan kualitas layanan.
- Mendorong penjualan.
- Melakukan analisis risiko.
- Mengoptimalkan pengeluaran.
- Memahami konsumen lebih baik.
- Memastikan produksi berjalan baik.
- Mengelola pasokan bahan baku lebih baik.
4. Metode dalam Data Mining :
- Association Rule: Menemukan hubungan antara item dalam data.
- Anomaly Detection: Mendeteksi data yang tidak biasa atau anomali.
- Clustering atau Cluster Analysis: Mengelompokkan data berdasarkan kesamaan.
- Classification: Mengklasifikasikan data ke dalam kategori tertentu.
- Regression: Memprediksi nilai berdasarkan variabel lain.
- Decision Tree: Membuat pohon keputusan berdasarkan data.
5. Contoh Data Mining :
- Pemasaran. Produk finansial.
- Pendidikan.Layanan kesehatan
- .Retail dan manufaktur.
- Layanan streaming media.
KDD, singkatan dari Knowledge Discovery in Databases, merupakan proses sistematis dan otomatis untuk mengeksplorasi pengetahuan dari kumpulan data yang besar. Pendekatan ini mencakup langkah-langkah dari pemilihan data hingga interpretasi hasil, dengan setiap tahapan memungkinkan iterasi dan penyesuaian sesuai dengan pemahaman yang berkembang.
Penting untuk diingat bahwa tahapan-tahapan ini seringkali tidak linier, dan proses KDD dapat melibatkan iterasi atau penyesuaian pada tahapan tertentu seiring dengan pemahaman yang berkembang dari data.
Data Cleaning:
- Identifikasi dan perbaiki ketidakakuratan, kekurangan, atau inkonsistensi dalam data.
- Deteksi dan penanganan nilai-nilai yang hilang, outlier, atau kesalahan lainnya.
- Memastikan kualitas data sebelum lanjut ke tahap berikutnya.
Data Selection & Transformation:
- Pemilihan atribut-atribut yang relevan untuk analisis lebih lanjut.
- Transformasi data seperti penggabungan, normalisasi, atau konversi atribut.
- Persiapan data agar sesuai dengan metode analisis yang akan digunakan.
- Data Mining:
- Penerapan teknik-teknik data mining seperti clustering, klasifikasi, regresi, atau asosiasi.
- Eksekusi algoritma pada data yang telah disiapkan pada tahap sebelumnya.
- Eksplorasi data untuk mengekstraksi pola atau informasi yang tersembunyi.
- Evaluation:
- Pengukuran keefektifan model atau pola yang diidentifikasi selama tahap data mining.
- Penggunaan metrik-metrik seperti akurasi, presisi, recall, atau metrik lainnya yang sesuai dengan konteks masalah.
- Evaluasi hasil untuk memastikan relevansi dan kualitasnya.
- Pattern and Knowledge Representation:
- Representasi pola atau pengetahuan yang telah diidentifikasi dalam bentuk yang dapat dimengerti dan berguna.
- Format representasi dapat berupa aturan-aturan, model matematis, grafik, atau bentuk lainnya sesuai dengan jenis pengetahuan yang ditemukan.
- Utilization of Discovered Knowledge:
- Pemanfaatan pengetahuan yang ditemukan dalam konteks bisnis atau ilmiah.
- Dukungan untuk pengambilan keputusan, pembuatan prediksi, atau penyediaan wawasan berharga dalam berbagai bidang aplikasi.
- Mendorong tindakan atau keputusan berdasarkan penemuan yang didapat dari proses KDD.
- Berikut adalah link google colab saya : https://colab.research.google.com/drive/1T1Hnar3gTFNIms_dI7JONC8TG5M5TMoU?usp=sharing
- Berikut adalah link youtube saya : (289) SULIH NURSYA BANAFSA UBP - YouTube
Komentar
Posting Komentar