Perbezaan Antara Bagging dan Hutan Rawak

Selama bertahun-tahun, beberapa sistem pengelas, juga dikenali sebagai sistem ensemble, telah menjadi topik penyelidikan yang popular dan menikmati perhatian yang semakin meningkat dalam komuniti pembelajaran intelek dan mesin pengkomputeran. Ia menarik minat saintis dari beberapa bidang termasuk Pembelajaran Mesin, Statistik, Pengiktirafan Corak, dan Pengetahuan Pengetahuan dalam Pangkalan Data. Dari masa ke masa, kaedah ensemble telah membuktikan diri mereka sangat berkesan dan serba boleh dalam spektrum luas domain masalah dan aplikasi dunia sebenar. Mula-mula dibangunkan untuk mengurangkan varians dalam sistem membuat keputusan automatik, kaedah ensemble telah digunakan untuk menangani pelbagai masalah pembelajaran mesin. Kami membentangkan gambaran keseluruhan dua algoritma ensemble yang paling menonjol - Bagging dan Random Forest - dan kemudian membincangkan perbezaan antara kedua.

Dalam banyak kes, pengambilan, yang menggunakan pensampelan bootstrap, pengkelasan klasifikasi telah ditunjukkan mempunyai ketepatan yang lebih tinggi daripada satu pokok klasifikasi. Bagging adalah salah satu algoritma berasaskan ensemble tertua dan paling mudah, yang boleh digunakan untuk algoritma berasaskan pokok untuk meningkatkan ketepatan ramalan. Terdapat satu lagi versi pengemasan yang dipanggil algoritma Random Forest, yang pada asasnya merupakan kumpulan pokok keputusan yang dilatih dengan mekanisme pembalakan. Mari kita lihat bagaimana algoritma hutan secara rawak berfungsi dan bagaimana ia berbeza daripada mengemas dalam model ensemble.

Bagging

Pengagregatan Bootstrap, juga dikenali sebagai pembalut, adalah salah satu algoritma berasaskan ensemble terawal dan paling mudah untuk membuat pokok keputusan lebih mantap dan mencapai prestasi yang lebih baik. Konsep di sebalik pembungkus adalah untuk menggabungkan ramalan beberapa pelajar asas untuk menghasilkan output yang lebih tepat. Leo Breiman memperkenalkan algoritma begging pada tahun 1994. Dia menunjukkan bahawa pengagregatan bootstrap boleh membawa hasil yang diinginkan dalam algoritma pembelajaran yang tidak stabil di mana perubahan kecil kepada data latihan dapat menyebabkan variasi besar dalam ramalan. Bootstrap adalah sampel dari dataset dengan penggantian dan setiap sampel dijana oleh persampelan seragam set latihan bersaiz m hingga satu set baru dengan contoh m diperoleh.

Hutan Rawak

Hutan secara rawak adalah algoritma pembelajaran mesin yang diawasi berdasarkan pembelajaran ensemble dan evolusi algoritma pembalakan asal Breiman. Ia adalah satu peningkatan yang baik ke atas pokok keputusan yang dibungkus untuk membina pelbagai pokok keputusan dan agregatnya untuk mendapatkan hasil yang tepat. Breiman menambah variasi rawak tambahan ke dalam prosedur pembalakan, mewujudkan kepelbagaian yang lebih besar di antara model yang dihasilkan. Hutan secara rawak berbeza dari pokok-pokok yang dibungkus dengan memaksa pokok untuk menggunakan hanya sebahagian daripada peramal yang sedia ada untuk berpecah dalam fasa yang semakin meningkat. Semua pokok keputusan yang membentuk hutan rawak adalah berbeza kerana setiap pokok dibina pada subset data rawak yang berbeza. Kerana ia meminimumkan overfitting, ia cenderung lebih tepat daripada satu pokok keputusan.

Perbezaan antara Bagging dan Hutan Rawak

Asas-asas

- Kedua-dua hutan rawak dan rawak adalah algoritma berasaskan ensemble yang bertujuan untuk mengurangkan kerumitan model yang memanfaatkan data latihan. Pengagregatan Bootstrap, juga dikenali sebagai pembungkusan, adalah salah satu kaedah ensemble tertua dan berkuasa untuk mencegah overfitting. Ini adalah teknik meta yang menggunakan beberapa pengelas untuk meningkatkan ketepatan ramalan. Bagging hanya bermakna lukisan sampel rawak daripada sampel latihan untuk penggantian untuk mendapatkan ensemble model yang berbeza. Hutan secara rawak adalah algoritma pembelajaran mesin yang diawasi berdasarkan pembelajaran ensemble dan evolusi algoritma pembalakan asal Breiman.

Konsep

- Konsep pensampelan bootstrap (bagging) adalah untuk melatih sekumpulan pokok keputusan yang tidak terlindung pada subset rawak yang berlainan dalam data latihan, sampling dengan penggantian, untuk mengurangkan variasi pokok keputusan. Idea ini adalah untuk menggabungkan ramalan beberapa pelajar asas untuk menghasilkan output yang lebih tepat. Dengan hutan rawak, variasi rawak tambahan dimasukkan ke dalam prosedur pembungkusan untuk mewujudkan kepelbagaian yang lebih besar di antara model yang dihasilkan. Idea di sebalik hutan rawak adalah untuk membina pelbagai pokok keputusan dan agregatnya untuk mendapatkan hasil yang tepat.

Tujuan

- Kedua-dua pokok pokok dan hutan rawak adalah instrumen pembelajaran ensemble yang paling biasa digunakan untuk menangani pelbagai masalah pembelajaran mesin. Pensampelan Bootstrap adalah algoritma meta-algoritma yang direka untuk meningkatkan ketepatan dan kestabilan model pembelajaran mesin menggunakan pembelajaran ensemble dan mengurangkan kerumitan model overfitting. Algoritma hutan secara rambang sangat teguh terhadap overfitting dan ia baik dengan data tidak seimbang dan hilang. Ia juga merupakan pilihan algoritma pilihan untuk membina model ramalan. Matlamatnya adalah untuk mengurangkan varians dengan menilai pelbagai pokok keputusan mendalam, dilatih pada sampel yang berlainan dalam data.

Bagasi vs Hutan Rawak: Carta Perbandingan

Ringkasan

Kedua-dua pokok pokok dan hutan rawak adalah instrumen pembelajaran ensemble yang paling biasa digunakan untuk menangani pelbagai masalah pembelajaran mesin. Bagging adalah salah satu algoritma berasaskan ensemble tertua dan paling mudah, yang boleh digunakan untuk algoritma berasaskan pokok untuk meningkatkan ketepatan ramalan. Hutan rawak pula adalah algoritma pembelajaran mesin yang diawasi dan versi pemampatan model bootstrap yang digunakan untuk masalah regresi dan klasifikasi. Idea di sebalik hutan secara rawak adalah untuk membina pelbagai pokok keputusan dan agregatnya untuk mendapatkan hasil yang tepat. Hutan rawak cenderung lebih tepat daripada pokok keputusan tunggal kerana ia mengurangkan minima.