Sisihan piawai dan varians adalah ukuran statistik penyebaran
Rumusan untuk sisihan dan variasi piawai sering dinyatakan menggunakan:
Varians satu set n nilai yang sama mungkin boleh ditulis sebagai:
Penyimpangan piawai adalah punca kuasa dua varians:
Formula dengan huruf Yunani mempunyai cara mencari yang menakutkan, tetapi ini kurang rumit daripada kelihatannya. Untuk meletakkannya dalam langkah mudah:
Itu memberikan varians. Ambil akar kuadrat bagi varians untuk mencari sisihan piawai.
Video cemerlang ini dari Khan Academy menerangkan konsep varians dan sisihan piawai:
Katakan set data termasuk ketinggian enam dandelions: 3 inci, 4 inci, 5 inci, 4 inci, 11 inci, dan 6 inci.
Pertama, tentukan purata titik data: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Jadi ketinggian min ialah 5.5 inci. Kini kita memerlukan penyimpangan, jadi kita dapati perbezaan setiap tumbuhan dari min: -2.5, -1.5, -5, -1.5, 5.5, 1.5
Sekarang persegi setiap sisihan dan dapatkan jumlahnya: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Sekarang bahagikan jumlah kuadrat dengan bilangan titik data, dalam kes ini tumbuhan: 43.5 / 6 = 7.25
Oleh itu, varians set data ini ialah 7.25, iaitu nombor yang agak sewenang-wenangnya. Untuk mengubahnya menjadi pengukuran dunia nyata, ambil akar kuadrat 7.25 untuk mencari sisihan piawai dalam inci.
Penyimpangan piawai adalah kira-kira 2.69 inci. Ini bermakna bahawa bagi sampel, mana-mana dandelion dalam 2.69 inci min (5.5 inci) adalah 'normal'.
Deviasi adalah kuasa dua untuk menghalang nilai-nilai negatif (penyimpangan di bawah min) daripada membatalkan nilai-nilai positif. Ini berfungsi kerana bilangan negatif yang berkadar menjadi nilai positif. Sekiranya anda mempunyai set data mudah dengan penyimpangan dari min +5, +2, -1, dan -6, jumlah penyimpangan akan keluar sebagai sifar jika nilai tidak dikecilkan (iaitu 5 + 2 - 1 - 6 = 0).
Varians dinyatakan sebagai penyebaran matematik. Memandangkan ia nombor sewenang-wenang berbanding dengan ukuran asal set data, sukar untuk digambarkan dan diguna pakai dalam erti dunia sebenar. Mencari varians biasanya hanya langkah akhir sebelum mencari sisihan piawai. Nilai varians kadang-kadang digunakan dalam formula kewangan dan statistik.
Penyimpangan piawai, yang dinyatakan dalam unit asal set data, jauh lebih intuitif dan lebih dekat dengan nilai-nilai set data asal. Ia paling kerap digunakan untuk menganalisis demografi atau sampel penduduk untuk mendapatkan gambaran tentang apa yang normal dalam populasi.
Dalam taburan normal, kira-kira 68% daripada populasi (atau nilai) berada dalam 1 sisihan piawai (1 σ) min dan kira-kira 94% jatuh dalam 2 σ. Nilai-nilai yang berbeza dari min sebanyak 1.76 atau lebih biasanya dianggap sebagai outlier.
Dalam praktiknya, sistem kualiti seperti Six Sigma cuba mengurangkan kadar ralat supaya kesilapan menjadi lebih jelas. Istilah "enam proses sigma" berasal dari tanggapan bahawa jika seseorang mempunyai enam sisihan piawai antara min proses dan had spesifikasi terdekat, hampir tidak ada item yang gagal untuk memenuhi spesifikasi.[1]
Dalam aplikasi dunia sebenar, set data yang digunakan biasanya mewakili sampel populasi, bukannya keseluruhan populasi. Formula yang sedikit diubahsuai digunakan jika kesimpulan keseluruhan penduduk akan diambil dari sampel separa.
Satu 'sisihan piawai sampel' digunakan jika semua yang anda miliki adalah sampel, tetapi anda ingin membuat pernyataan tentang sisihan piawai penduduk yang sampelnya ditarik
Satu-satunya cara sampel formula sisihan piawai berbeza daripada rumus sisihan piawai ialah "-1" dalam penyebut.
Dengan menggunakan contoh dandelion, formula ini diperlukan jika kita mengutip hanya 6 dandelions, tetapi mahu menggunakan contoh itu untuk menyatakan sisihan piawai untuk seluruh medan dengan beratus-ratus dandelions.
Jumlah kuadrat kini akan dibahagikan dengan 5 dan bukannya 6 (n - 1), yang memberikan varians 8.7 (bukan 7.25), dan sisihan piawai sampel 2.95 inci, bukan 2.69 inci untuk sisihan piawai asal. Perubahan ini digunakan untuk mencari margin ralat dalam sampel (9% dalam kes ini).