Tugas Mata kuliah Konsep Data Mining (part me)
Data yang digunakan :
Type data :
Analisa yang dilakukan menggunakan Data Mining berdasarkan dari karakteristik data yang diperoleh seperti Pekerjaan, Pendidikan, Penghasilan dan atau Pengeluaran sehingga hasil yang didapat diharapkan lebih tepat sasaran. Data Mining (Penambangan data) merupakan bidang ilmu multidisplin, menggambarkan area-area kerja yang termasuk didalamnya adalah teknologi basis data, pembelajaran mesin, statistik, pengenalan pola, pengambilan informasi, jaringan saraf tiruan, sistem berbasis pengetahuan, kecerdasan buatan, komputasi kinerja-tinggi, dan visualisasi data
Atribut yang digunakan :
Atribut plus keterangan
Kategori
Didalamnya mencakup data yang terdiri dari : Rumah
Tangga tetap, Usaha Kecil Menengah (UKM), Rumah
Tangga Musiman
Kelurahan
Mencakup 17 macam Kelurahan yang ada pada
Kecamatan Kroya
Jenis Kelamin
Merupakan jenis kelamin penduduk yang bersangkutan
Pendidikan
Merupakan jenjang pendidikan akhir yang diselesaikan
oleh penduduk yang bersangkutan
Pekerjaan
Jenis pekerjaan yang dilakoni oleh setiap penduduknya
Pengeluaran
Seberapa banyak pengeluaran yang dikeluarkan oleh
setiap keluarga perbulannya
Jumlah keluarga
Banyaknya jumlah anggota setiap keluarga
Masak
Dengan menggunakan apa setiap penduduknya memasak
Liter
Jumlah liter yang dihabiskan oleh penduduknya jika
memasak dengan menggunakan kompor minyak
Rupiah
Jumlah pengeluaran untuk minyak tanah yang harus
dibeli oleh penduduk yang memasak dengan
menggunakan kompor minyak.
Preprocessing yang digunakan :
Preprocessing yang dilakukan yaitu proses pembersihan data mengalami tiga tahap pembersihan yaitu: Incomplete, Noisy dan Inconsisten. Berikut dibawah ini penjelasan dan prosesnya :
1. Incomplete => Pada tahap ini, penulis membersihkan data berdasarkan data yang tidak lengkap atau data yang tidak terisi. Kesimpulan dari tahap ini adalah pembersihan data, dalam artian Task mining yang dilakukan sama seperti pada langkah-langkah sebelumnya.
2. Noisy => berisi kesalahan atau nilai-nilai outlier yang menyimpang yang tidak sesuai dengan data yang lainnya
3. Inconsisten => ketidakcocokan dalam penggunaan kode atau nama. Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan data warehouse memerlukan integrasi kualitas data yang konsisten.
Hasil yang diperoleh :
Dapat disimpulkan bahwa dengan menggunakan decision tree prioritas kelurahan yang dapat diberi bantuan yaitu: Kelurahan Bajing Kulon, Kedawung, Pekuncen, dan Pesanggarahan.
Proses pada regresi berdasarkan perkelurahan dengan atribut untuk variabel x adalah pekerjaan atau pendidikan dan atribut untuk variabel y adalah penghasilan.Terlepas dari penjelasan pada paragraph di atas, Peneliti sadari masih banyak kekurangan dalam penelitian ini, hal ini dikarenakan karena variable data yang terlalu luas dan proses pembersihan data yang memakan waktu lama, sehingga pemilihan proses data mining dengan penggunaan algoritma yang diterapkan mungkin memiliki kelemahan dalam keakuratan hasil data yang ada, tetapi hasil yang didapatkan tidak mengurangi keakuratan algoritma atau rumus yang diterapkan.
Tools yang digunakan :
Pada tahap ini proses Pembersihan data menggunakan dua tools yaitu, Microsoft Excell dan Orange. Proses pembersihan data ini menggunakan suatu tools data mining yaitu Orange. Orange merupakan aplikasi yang dikembangkan oleh University of Ljubljana, dengan target menghadirkan sebuah aplikasi untuk mengolah data secahttps://studentsite.gunadarma.ac.id/index.php/tugas/indexra visual tanpa perlu pengalaman membuat program sebelumnya.
Source by :
https://www.neliti.com/publications/142785/penerapan-data-mining-dengan-metode-kalsifikasi-menggunakan-decision-tree-dan-re
https://studentsite.gunadarma.ac.id/index.php/tugas/index