Langsung ke konten utama

Postingan

Menampilkan postingan dari Maret, 2024

PERTEMUAN 2 : Data visualization

          Data visualization     adalah proses mengubah informasi dan data menjadi format visual seperti grafik, peta, dan diagram, untuk memudahkan pemahaman, analisis, dan pengambilan keputusan. Tujuannya adalah untuk menyajikan data kompleks secara intuitif, memungkinkan penonton untuk melihat tren, pola, dan korelasi yang mungkin tidak langsung terlihat dalam format data mentah. Dengan menggunakan elemen visual seperti warna, ukuran, dan bentuk, data visualization membantu dalam menyampaikan cerita di balik data, menjadikannya alat yang sangat berharga dalam berbagai bidang seperti bisnis, sains, pendidikan, dan teknologi.      Visualisasi data berperan penting dalam era informasi saat ini, sebagai alat untuk menginterpretasi dan memahami volume data besar dan kompleks dengan cepat dan efektif. Dalam dunia pengolahan data besar dan kompleks, kemampuan untuk menyajikan data tersebut dalam format yang mudah dicerna merupakan sebuah kebutuhan. Dengan visualisasi data, perusahaan dapat

PERTEMUAN 2 : Data Preparation

       Data preparation adalah langkah awal seorang data scientist untuk mulai mengolah data dengan alat analitik dan laporan. Proses ini melibatkan mengambil data mentah dan mempersiapkannya agar dapat diserap dalam platform analitik. Beberapa istilah yang sering digunakan dalam data preparation antara lain: Data Cleansing : Proses menghapus atau memodifikasi data yang dianggap tidak lengkap, duplikat, tidak akurat, salah format, atau rusak dalam kumpulan data. Data cleansing penting untuk memastikan konsistensi dan keakuratan data mentah yang digunakan untuk pemrosesan dan analisis. Data Outlier : Data yang nilainya secara signifikan berbeda dari data lainnya. Outlier dapat berdampak negatif pada akurasi dan performa algoritma dan model statistik machine learning. Generalisasi Data : Proses menyamakan beberapa ciri/karakteristik yang dimiliki oleh dua kelas yang berbeda sehingga kelas tersebut berada dalam satu kelas yang lebih tinggi. Contohnya adalah mengelompokkan data penjual

PERTEMUAN 1: CCC (Computational, Cognitive, and Communication)

  CCC (Computational, Cognitive, and Communication) merujuk pada tiga aspek utama dalam konteks tertentu, seperti komputasi, kognisi, dan komunikasi. Setiap unsur CCC memiliki arti dan relevansi tersendiri:   1.       Computational (Komputasional) Merujuk pada pemrosesan data dan informasi menggunakan algoritma dan perangkat keras komputer. Melibatkan analisis, manipulasi, dan transformasi data untuk mendukung pengambilan keputusan atau pemecahan masalah. 2.       Cognitive (Kognitif) Terkait dengan aspek-aspek mental dan intelektual manusia, termasuk pemahaman, persepsi, memori, dan pemecahan masalah. Dalam konteks ini, fokusnya mungkin pada pengembangan sistem yang dapat meniru atau mendukung fungsi kognitif manusia, seperti kecerdasan buatan dan pemrosesan bahasa alami. 3.       Communication (Komunikasi) Menyoroti pertukaran informasi antara entitas atau individu. Berkaitan dengan pengembangan sistem dan teknologi yang mendukung komunikasi, baik itu melibatkan manusi

PERTEMUAN 1 : SEMMA (Sample, Explore, Modify, Model, Assess)

  Gambar SEMA SEMMA  adalah singkatan dari Sample, Explore, Modify, Model, dan Assess. Ini adalah model proses analisis data yang dikembangkan oleh SAS Institute dan diimplementasikan dalam produk perangkat lunak SAS Enterprise Miner. fase-fase SEMMA: Sample: Fase ini melibatkan pengambilan sampel data, di mana Anda memilih kumpulan data untuk pemodelan. Kumpulan data harus cukup besar untuk mengandung informasi yang memadai tetapi cukup kecil untuk digunakan secara efisien. Pembagian data juga merupakan bagian dari fase ini. Explore: Pada fase ini, Anda memahami data dengan menemukan hubungan yang diantisipasi dan tidak diantisipasi antara variabel. Visualisasi data memainkan peran penting di sini. Modify: Fase Modify berfokus pada pemilihan, pembuatan, dan transformasi variabel dalam persiapan untuk pemodelan data. Model: Pada fase Model, berbagai teknik pemodelan (data mining) diterapkan pada variabel yang telah disiapkan u

PERTEMUAN 1: CRISP-DM (Cross-Industry Standard Process for Data Mining)

  Gambar CRISP-DM (sumber gambar   Almir Gouvea )           CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah model proses terbuka yang digunakan oleh para ahli data mining. Model ini menggambarkan pendekatan umum yang sering digunakan dalam proyek data mining dan analisis. Berikut adalah enam fase dalam model CRISP-DM: Business Understanding: Memahami tujuan bisnis dan kebutuhan proyek. Menentukan kriteria kesuksesan dari perspektif bisnis. Membuat rencana proyek secara keseluruhan. Data Understanding: Mengumpulkan data awal. Menganalisis data dan menggali informasi tentang format, jumlah rekaman, dan hubungan antar variabel. Memeriksa kualitas data. Data Preparation: Persiapan data, termasuk pembersihan, transformasi, dan pemilihan fitur. Membuat dataset yang siap untuk pemodelan. Modeling: Memilih teknik pemodelan yang sesuai. Melatih model menggunakan data yang telah dip

PERTEMUAN 1 : Data Mining dan prosesnya

gambar data mining (Sumber gambar  Simplilearn)           Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting dari suatu  kumpulan data yang besar. Proses ini dapat melibatkan perangkat lunak dengan bantuan perhitungan statistika, matematika, dan  teknologi Artificial Intelligence (AI).              Proses data mining meliput enam tahap utama yang perlu diikuti : Menetapkan dengan jelas tujuan dari kegiatan data mining untuk memastikan kesesuaian dengan kebutuhan bisnis atau penelitian yang diinginkan Melibatkan pengumpulan data yang relevan dan diperlukan sesuai dengan tujuan yang telah ditetapkan sebelumnya. Melibatkan proses pembersihan dan penataan data untuk menghindari duplikasi, kehilangan data, atau data berkualitas buruk. Data dirapikan dan disusun dalam format yang dibutuhkan untuk memastikan kualitas dan keakuratan analisis. Pembuatan dan pengujian berbagai model data menggunak