KDD vs Perlombongan data
KDD (Pengetahuan Pengetahuan dalam Pangkalan Data) adalah bidang sains komputer, yang merangkumi alat dan teori untuk membantu manusia mengekstrak maklumat yang berguna dan sebelum ini tidak diketahui (iaitu pengetahuan) dari koleksi data digital yang besar. KDD terdiri daripada beberapa langkah, dan Data Mining adalah salah satu daripada mereka. Data Perlombongan adalah aplikasi algoritma khusus untuk mengekstrak pola dari data. Walau bagaimanapun, KDD dan Data Mining digunakan secara bergantian.
Apa itu KDD?
Seperti yang disebutkan di atas, KDD adalah bidang sains komputer, yang menangani pengekstrakan maklumat yang tidak diketahui dan menarik dari data mentah. KDD adalah proses keseluruhan cuba memahami data dengan membangunkan kaedah atau teknik yang sesuai. Proses ini menangani pemetaan data peringkat rendah ke dalam bentuk lain yang lebih kompak, abstrak dan berguna. Ini dicapai dengan membuat laporan pendek, memodelkan proses menjana data dan membangunkan model ramalan yang dapat meramalkan kes masa depan. Oleh kerana pertumbuhan data yang eksponen, khususnya dalam bidang seperti perniagaan, KDD telah menjadi proses yang sangat penting untuk menukar kekayaan data yang besar ini kepada kecerdasan perniagaan, kerana pengekalan pola manual telah menjadi mustahil dalam beberapa dekad yang lalu. Sebagai contoh, ia kini digunakan untuk pelbagai aplikasi seperti analisis rangkaian sosial, pengesanan penipuan, sains, pelaburan, pembuatan, telekomunikasi, pembersihan data, sukan, pengambilan maklumat dan sebahagian besarnya untuk pemasaran. KDD biasanya digunakan untuk menjawab soalan seperti apa produk utama yang mungkin membantu untuk mendapatkan keuntungan yang tinggi tahun depan di Wal-Mart ?. Proses ini mempunyai beberapa langkah. Ia bermula dengan membangunkan pemahaman domain aplikasi dan matlamat dan kemudian membuat dataset sasaran. Ini diikuti dengan pembersihan, pengprofilan, pengurangan dan unjuran data. Langkah seterusnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengenal pasti corak. Akhirnya, pengetahuan yang ditemui menyatukan dengan menggambarkan dan / atau menafsirkan.
Apakah Perlombongan Data?
Seperti yang disebutkan di atas, Data Mining hanyalah satu langkah dalam proses KDD keseluruhan. Terdapat dua matlamat Data Pertambangan utama seperti yang ditakrifkan oleh matlamat permohonan, dan mereka adalah pengesahan atau penemuan. Pengesahan mengesahkan hipotesis pengguna tentang data, sementara penemuan secara automatik mencari pola yang menarik. Terdapat empat tugas perlombongan data utama: clustering, klasifikasi, regresi, dan persatuan (ringkasan). Clustering adalah mengenal pasti kumpulan yang sama dari data tidak berstruktur. Klasifikasi adalah peraturan pembelajaran yang boleh digunakan untuk data baru. Regresi mencari fungsi dengan ralat minimum untuk model data. Dan persatuan mencari hubungan antara pembolehubah. Kemudian, algoritma perlombongan data khusus perlu dipilih. Bergantung kepada matlamat, algoritma yang berbeza seperti regresi linear, regresi logistik, pokok keputusan dan Naïve Bayes boleh dipilih. Kemudian corak kepentingan dalam satu atau lebih borang perwakilan dicari. Akhirnya, model dinilai sama ada dengan menggunakan ketepatan ramalan atau kefahaman.
Apakah perbezaan antara perlombongan KDD dan Data?
Walaupun, kedua-dua istilah KDD dan Data Mining banyak digunakan secara bergantian, mereka merujuk kepada dua konsep yang berkaitan namun sedikit berbeza. KDD adalah proses keseluruhan pengekstrakan pengetahuan dari data sementara Data Mining merupakan langkah di dalam proses KDD, yang berkaitan dengan mengenal pasti pola dalam data. Dalam erti kata lain, Data Mining hanya menggunakan algoritma tertentu berdasarkan matlamat keseluruhan proses KDD.