Teknik clustering dan klasifikasi digunakan dalam pembelajaran mesin, pengambilan maklumat, penyiasatan imej, dan tugas yang berkaitan.
Kedua-dua strategi ini adalah dua bahagian utama proses perlombongan data. Dalam dunia analisis data, ini penting dalam menguruskan algoritma. Secara khusus, kedua-dua proses ini membahagikan data ke dalam set. Tugas ini sangat relevan dalam usia maklumat hari ini kerana peningkatan data yang ditambah dengan perkembangan perlu difasilitasi dengan tepat.
Khususnya, clustering dan klasifikasi membantu menyelesaikan masalah global seperti jenayah, kemiskinan, dan penyakit melalui sains data.
Pada dasarnya, pengelompokan melibatkan pengelompokan data berkenaan dengan persamaan mereka. Ini terutama berkaitan dengan langkah-langkah jarak dan algoritma kluster yang mengira perbezaan antara data dan membahagikannya secara sistematik.
Sebagai contoh, pelajar dengan gaya pembelajaran yang sama dikelompokkan bersama dan diajar secara berasingan daripada mereka yang mempunyai pendekatan pembelajaran yang berbeza. Dalam perlombongan data, clustering paling sering dirujuk sebagai "teknik pembelajaran tanpa pengawasan" kerana pengelompokan adalah berdasarkan sifat semula jadi atau wujud.
Ia digunakan dalam beberapa bidang saintifik seperti teknologi maklumat, biologi, kriminologi, dan perubatan.
Clustering tidak mempunyai definisi yang tepat sebab itulah terdapat pelbagai algoritma kluster atau model cluster. Secara kasar, kedua-dua jenis clustering adalah keras dan lembut. Clustering keras berkenaan dengan pelabelan objek sebagai hanya kepunyaan cluster atau tidak. Sebaliknya, clustering lembut atau clustering fuzzy menentukan tahap bagaimana sesuatu dimiliki oleh kumpulan tertentu.
Pengesahan atau penilaian hasil daripada analisis kluster sering sukar ditentukan kerana ketidakmampuan yang wujudnya.
Oleh kerana ia adalah strategi pembelajaran yang tidak terjejas, analisis itu hanya berdasarkan ciri-ciri semasa; Oleh itu, tiada peraturan yang ketat diperlukan.
Pengelasan memerlukan menyerahkan label kepada keadaan atau kelas yang ada; Oleh itu, istilah "klasifikasi". Sebagai contoh, pelajar yang mempamerkan ciri pembelajaran tertentu diklasifikasikan sebagai pelajar visual.
Klasifikasi juga dikenali sebagai "teknik pembelajaran yang diselia" di mana mesin belajar dari data berlabel atau diklasifikasikan. Ia amat berguna dalam pengiktirafan corak, statistik, dan biometrik.
Untuk menganalisis data, pengelas adalah algoritma yang jelas yang secara konkrit memetakan maklumat kepada kelas tertentu. Sebagai contoh, algoritma klasifikasi akan melatih model untuk mengenal pasti sama ada sel tertentu adalah malignan atau jinak.
Kualiti analisis klasifikasi sering dinilai melalui ketepatan dan penarikan semula yang merupakan prosedur metrik yang popular. Pengelas dinilai berdasarkan ketepatan dan kepekaannya dalam mengenal pasti output.
Klasifikasi adalah teknik pembelajaran yang diawasi kerana ia memberikan identiti yang telah ditentukan sebelumnya berdasarkan ciri-ciri yang sebanding. Ia menyingkirkan fungsi dari set latihan berlabel.
Perbezaan utama ialah clustering tidak terjejas dan dianggap sebagai "pembelajaran kendiri" manakala klasifikasi diselia kerana ia bergantung pada label yang telah ditetapkan.
Clustering tidak menggalakkan menggunakan set latihan, yang merupakan kumpulan contoh yang digunakan untuk menghasilkan pengelompokan, sementara klasifikasi secara mendesak memerlukan set latihan untuk mengenal pasti ciri-ciri yang serupa.
Clustering berfungsi dengan data tanpa berlabel kerana ia tidak memerlukan latihan. Sebaliknya, klasifikasi berurusan dengan kedua-dua data tidak berlabel dan berlabel dalam prosesnya.
Kumpulan clustering objek dengan tujuan untuk menyempitkan hubungan serta mempelajari maklumat novel dari corak tersembunyi sementara klasifikasi bertujuan untuk menentukan kumpulan eksplisit objek tertentu milik.
Walaupun klasifikasi tidak menyatakan apa yang perlu dipelajari, clustering menentukan penambahbaikan yang diperlukan kerana ia menunjukkan perbezaan dengan mempertimbangkan persamaan antara data.
Umumnya, clustering hanya terdiri daripada fasa tunggal (pengelompokan) manakala klasifikasi mempunyai dua peringkat, latihan (model belajar dari set data latihan) dan ujian (kelas target diramalkan).
Menentukan keadaan sempadan sangat penting dalam proses klasifikasi berbanding dengan clustering. Contohnya, mengetahui peratusan pelbagai "rendah" berbanding dengan "sederhana" dan "tinggi" diperlukan dalam mewujudkan klasifikasi.
Berbanding dengan pengelompokan, klasifikasi lebih terlibat dengan ramalan kerana ia khususnya bertujuan untuk kelas sasaran identiti. Sebagai contoh, ini boleh digunakan dalam "pengesanan mata utama muka" kerana ia boleh digunakan dalam meramalkan sama ada saksi tertentu berbohong atau tidak.
Oleh kerana klasifikasi mengandungi lebih banyak peringkat, memperkatakan ramalan, dan melibatkan darjah atau peringkat, sifatnya lebih rumit dibandingkan dengan clustering yang terutama berkaitan dengan pengelompokan sifat-sifat serupa.
Algoritma pengelompokan terutamanya linear dan tidak linear manakala klasifikasi mengandungi lebih banyak alat algoritma seperti pengelas linear, rangkaian saraf, anggaran kernel, keputusan pokok, dan mesin vektor sokongan.
Clustering | Pengkelasan |
Data tak terkawal | Data yang diselia |
Tidak banyak nilai latihan | Adakah nilai latihan yang sangat bernilai |
Bekerja semata-mata dengan data tidak berlabel | Melibatkan kedua-dua data tidak berlabel dan berlabel |
Bermaksud untuk mengenal pasti persamaan antara data | Bermaksud untuk mengesahkan mana datum kepunyaan |
Menentukan perubahan yang diperlukan | Tidak menyatakan penambahbaikan yang diperlukan |
Mempunyai fasa tunggal | Mempunyai dua fasa |
Menentukan keadaan sempadan bukanlah yang paling penting | Mengenal pasti syarat sempadan adalah penting dalam melaksanakan fasa |
Tidak lazimnya menangani ramalan | Tawaran dengan ramalan |
Terutamanya menggunakan dua algoritma | Mempunyai beberapa kemungkinan algoritma untuk digunakan |
Proses kurang kompleks | Proses lebih kompleks |