Penemuan Pengetahuan dalam Database (Knowledge Discovery in Databases atau KDD) adalah sebuah proses sistematis dan otomatis yang digunakan untuk mengekstraksi pengetahuan dari dataset yang besar. Pendekatan ini bersifat menyeluruh, mencakup langkah-langkah mulai dari pemilihan dan pemahaman data hingga interpretasi dan evaluasi hasilnya. KDD terdiri dari serangkaian tahapan yang seringkali bersifat iteratif dalam analisis data. Tahapan-tahapan ini tidak selalu linear dan proses KDD mungkin melibatkan pengulangan atau penyesuaian pada tahapan tertentu seiring dengan berkembangnya pemahaman dari data tersebut. 1. Data Cleaning: Tahap pertama adalah membersihkan data yang telah dikumpulkan dari sumbernya. Data yang tidak akurat, tidak lengkap, atau tidak konsisten harus diidentifikasi dan diperbaiki. Ini mencakup deteksi dan penanganan nilai yang hilang, outlier, atau kesalahan lain yang dapat mempengaruhi kualitas analisis. 2. Data Selection & Transformation: Setelah data dibersih