Kako pronaći standardnu ​​devijaciju. Standardna devijacija

Standardna devijacija(sinonimi: standardna devijacija, standardna devijacija, kvadratno odstupanje; povezani pojmovi: standardna devijacija, standardni namaz) - u teoriji vjerojatnosti i statistici, najčešći pokazatelj disperzije vrijednosti slučajne varijable u odnosu na njezino matematičko očekivanje. Kod ograničenih nizova uzoraka vrijednosti umjesto matematičkog očekivanja koristi se aritmetička sredina skupa uzoraka.

Enciklopedijski YouTube

  • 1 / 5

    Standardna devijacija se mjeri u samim mjernim jedinicama slučajna varijabla a koristi se pri izračunu standardne pogreške aritmetičke sredine, pri konstruiranju intervala pouzdanosti, pri statističkom testiranju hipoteza, pri mjerenju linearnog odnosa između slučajnih varijabli. Definira se kao kvadratni korijen varijance slučajne varijable.

    Standardna devijacija:

    s = n n − 1 σ 2 = 1 n − 1 ∑ i = 1 n (x i − x ¯) 2 ;
    • (\displaystyle s=(\sqrt ((\frac (n)(n-1))\sigma ^(2)))=(\sqrt ((\frac (1)(n-1))\sum _( i=1)^(n)\lijevo(x_(i)-(\bar (x))\desno)^(2)));)

    Napomena: Vrlo često postoje nepodudarnosti u nazivima MSD (srednje kvadratno odstupanje) i STD (standardno odstupanje) s njihovim formulama. Na primjer, u modulu numPy programskog jezika Python, funkcija std() opisana je kao "standardna devijacija", dok formula odražava standardnu ​​devijaciju (dijeljenje s korijenom uzorka). U Excelu je funkcija STANDARDEVAL() drugačija (dijeljenje korijenom od n-1). Standardna devijacija (procjena standardne devijacije slučajne varijable x u odnosu na svoje matematičko očekivanje temeljeno na nepristranoj procjeni njegove varijance):

    s (\displaystyle s)

    σ = 1 n ∑ i = 1 n (x i − x ¯) 2 . (\displaystyle \sigma =(\sqrt ((\frac (1)(n))\sum _(i=1)^(n)\lijevo(x_(i)-(\bar (x))\desno) ^(2))).) Gdje σ 2 (\displaystyle \sigma ^(2)) - - disperzija; x i (\displaystyle x_(i)) ja element selekcije;

    n (\displaystyle n)

    Treba napomenuti da su obje procjene pristrane. U općem slučaju nemoguće je konstruirati nepristranu procjenu. Međutim, procjena temeljena na nepristranoj procjeni varijance je dosljedna.

    U skladu s GOST R 8.736-2011, standardna devijacija izračunava se pomoću druge formule ovog odjeljka. Provjerite rezultate.

    Pravilo tri sigme

    Pravilo tri sigme (3 σ (\displaystyle 3\sigma )) - gotovo sve vrijednosti normalno distribuirane slučajne varijable leže u intervalu (x ¯ − 3 σ ; x ¯ + 3 σ) (\displaystyle \left((\bar (x))-3\sigma ;(\bar (x))+3\sigma \right)). Strože - s približnom vjerojatnošću 0,9973, vrijednost normalno distribuirane slučajne varijable leži u navedenom intervalu (pod uvjetom da vrijednost x ¯ (\displaystyle (\bar (x))) istinito, a ne dobiveno kao rezultat obrade uzorka).

    Ako je prava vrijednost x ¯ (\displaystyle (\bar (x))) je nepoznat, onda ne biste trebali koristiti σ (\displaystyle \sigma ), A s. Tako se pravilo tri sigme pretvara u pravilo tri s .

    Tumačenje vrijednosti standardne devijacije

    Veća vrijednost standardne devijacije pokazuje veće širenje vrijednosti u prikazanom skupu s prosječnom vrijednošću skupa; manja vrijednost, prema tome, pokazuje da su vrijednosti u skupu grupirane oko prosječne vrijednosti.

    Na primjer, imamo tri skupa brojeva: (0, 0, 14, 14), (0, 6, 8, 14) i (6, 6, 8, 8). Sva tri skupa imaju srednje vrijednosti jednake 7, odnosno standardne devijacije jednake 7, 5 i 1. Posljednji skup ima malu standardnu ​​devijaciju, budući da su vrijednosti u skupu grupirane oko srednje vrijednosti; prvi set ima najviše velika vrijednost standardna devijacija - vrijednosti unutar skupa uvelike odstupaju od prosječne vrijednosti.

    U općem smislu, standardna devijacija se može smatrati mjerom nesigurnosti. Na primjer, u fizici se standardna devijacija koristi za određivanje pogreške niza uzastopnih mjerenja neke veličine. Ova je vrijednost vrlo važna za određivanje vjerodostojnosti fenomena koji se proučava u usporedbi s vrijednošću koju predviđa teorija: ako se prosječna vrijednost mjerenja jako razlikuje od vrijednosti predviđenih teorijom (velika standardna devijacija), tada treba ponovno provjeriti dobivene vrijednosti ili način njihova dobivanja. poistovjećuje se s rizikom portfelja.

    Klima

    Pretpostavimo da postoje dva grada s istom prosječnom maksimalnom dnevnom temperaturom, ali se jedan nalazi na obali, a drugi u ravnici. Poznato je da gradovi koji se nalaze na obali imaju mnogo različitih maksimalnih dnevnih temperatura koje su niže od gradova u unutrašnjosti. Dakle, standardna devijacija maksimalnih dnevnih temperatura za obalni grad bit će manja nego za drugi grad, unatoč činjenici da je prosječna vrijednost te vrijednosti ista, što u praksi znači da je vjerojatnost da će maksimalna temperatura zraka na bilo koji dan u godini bit će veća razlika od prosječne vrijednosti, veća za grad koji se nalazi u unutrašnjosti.

    Sport

    Pretpostavimo da postoji nekoliko nogometnih momčadi koje se vrednuju prema nekom skupu parametara, na primjer, broju postignutih i primljenih golova, prilikama za postizanje pogotka itd. Najvjerojatnije je da će najbolja momčad u ovoj skupini imati najbolje vrijednosti prema više parametara. Što je manja standardna devijacija tima za svaki od prikazanih parametara, to je rezultat tima predvidljiviji; takvi timovi su uravnoteženiji. S druge strane, momčad s velikom standardnom devijacijom teško je predvidjeti rezultat, što se pak objašnjava neravnotežom, primjerice, jaka obrana, ali slab napad.

    Korištenje standardne devijacije parametara tima omogućuje, u jednom ili drugom stupnju, predviđanje rezultata utakmice između dva tima, procjenjujući snage i slabosti timova, a time i odabrane metode borbe.

    Očekivanje i varijanca

    Izmjerimo slučajnu varijablu N puta, na primjer, deset puta mjerimo brzinu vjetra i želimo pronaći prosječnu vrijednost. Kako je prosječna vrijednost povezana s funkcijom distribucije?

    Bacimo kockice veliki broj jednom. Broj bodova koji će se pojaviti na kocki sa svakim bacanjem je slučajna varijabla i može imati bilo koju prirodnu vrijednost od 1 do 6. Aritmetički prosjek ispuštenih bodova izračunat za sva bacanja kocke također je slučajna varijabla, ali za velike N teži vrlo određenom broju – matematičkom očekivanju M x. U ovom slučaju M x = 3,5.

    Kako ste dobili ovu vrijednost? Pusti unutra N testovi, jednom dobijete 1 bod, jednom dobijete 2 boda i tako dalje. Zatim Kada N→ ∞ broj ishoda u kojima je bačen jedan bod, Slično, dakle

    Model 4.5. Kocke

    Pretpostavimo sada da znamo zakon distribucije slučajne varijable (procjena standardne devijacije slučajne varijable, odnosno znamo da je slučajna varijabla (procjena standardne devijacije slučajne varijable može poprimiti vrijednosti (procjena standardne devijacije slučajne varijable 1 , (procjena standardne devijacije slučajne varijable 2 , ..., x k s vjerojatnostima str 1 , str 2 , ..., p k.

    Očekivanje M x slučajna varijabla (procjena standardne devijacije slučajne varijable jednako:

    Odgovor. 2,8.

    Matematičko očekivanje nije uvijek razumna procjena neke slučajne varijable. Dakle, za procjenu prosjeka plaće Smislenije je koristiti pojam medijana, odnosno takve vrijednosti da se broj ljudi koji primaju plaću nižu od medijana i veću poklapaju.

    Medijan slučajna varijabla naziva se broj (procjena standardne devijacije slučajne varijable 1/2 je takva da str ((procjena standardne devijacije slučajne varijable < (procjena standardne devijacije slučajne varijable 1/2) = 1/2.

    Drugim riječima, vjerojatnost str 1 da je slučajna varijabla (procjena standardne devijacije slučajne varijable bit će manji (procjena standardne devijacije slučajne varijable 1/2, i vjerojatnost str 2 da je slučajna varijabla (procjena standardne devijacije slučajne varijable bit će veći (procjena standardne devijacije slučajne varijable 1/2 su identične i jednake 1/2. Medijan nije određen jedinstveno za sve distribucije.

    Vratimo se na slučajnu varijablu (procjena standardne devijacije slučajne varijable, koji može poprimiti vrijednosti (procjena standardne devijacije slučajne varijable 1 , (procjena standardne devijacije slučajne varijable 2 , ..., x k s vjerojatnostima str 1 , str 2 , ..., p k.

    Varijanca slučajna varijabla (procjena standardne devijacije slučajne varijable Prosječna vrijednost kvadrata odstupanja slučajne varijable od njenog matematičkog očekivanja naziva se:

    Primjer 2

    Pod uvjetima iz prethodnog primjera izračunajte varijancu i standardnu ​​devijaciju slučajne varijable (procjena standardne devijacije slučajne varijable.

    Odgovor. 0,16, 0,4.

    Model 4.6. Gađanje u metu

    Primjer 3

    Odredite distribuciju vjerojatnosti broja bodova dobivenih pri prvom bacanju kocke, medijana, matematičkog očekivanja, varijance i standardne devijacije.

    Jednako je vjerojatno da će svaki rub ispasti, pa će distribucija izgledati ovako:

    Standardna devijacija Vidljivo je da je odstupanje vrijednosti od prosječne vrijednosti vrlo veliko.

    Svojstva matematičkog očekivanja:

    • Matematičko očekivanje zbroja nezavisnih slučajnih varijabli jednako je zbroju njihovih matematičkih očekivanja:

    Primjer 4

    Odredite matematičko očekivanje zbroja i umnoška bodova bačenih na dvije kocke.

    U primjeru 3 pronašli smo da za jednu kocku M ((procjena standardne devijacije slučajne varijable) = 3,5. Dakle za dvije kocke

    Disperzijska svojstva:

    • Varijanca zbroja nezavisnih slučajnih varijabli jednaka je zbroju varijanci:

    Dx + g = Dx + Dy.

    Neka za N rolls on the dice rolled g bodova. Zatim

    Ovaj rezultat ne vrijedi samo za bacanje kockica. U mnogim slučajevima empirijski određuje točnost matematičkog očekivanja. Vidi se da s povećanjem broja mjerenja N proporcionalno se smanjuje raspon vrijednosti oko prosjeka, odnosno standardne devijacije

    Varijanca slučajne varijable povezana je s matematičkim očekivanjem kvadrata te slučajne varijable sljedećom relacijom:

    Nađimo matematička očekivanja obje strane ove jednakosti. Po definiciji,

    Matematičko očekivanje desne strane jednakosti, prema svojstvu matematičkih očekivanja, jednako je

    Standardna devijacija

    Standardna devijacija jednako kvadratnom korijenu varijance:
    Pri određivanju standardne devijacije za dovoljno veliki obujam populacije koja se proučava (n > 30), koriste se sljedeće formule:

    Povezane informacije.


    Kvadratni korijen varijance naziva se standardna devijacija od srednje vrijednosti, koja se izračunava na sljedeći način:

    Elementarna algebarska transformacija formule standardne devijacije dovodi je do sljedećeg oblika:

    Ova se formula često pokazuje prikladnijom u praksi izračuna.

    Standardna devijacija, kao i prosječna linearna devijacija, pokazuje koliko u prosjeku određene vrijednosti neke karakteristike odstupaju od svoje prosječne vrijednosti. Standardna devijacija uvijek je veća od srednje linearne devijacije. Između njih postoji sljedeći odnos:

    Znajući ovaj omjer, možete koristiti poznate pokazatelje za određivanje nepoznatog, na primjer, ali (ja izračunaj a i obrnuto. Standardna devijacija mjeri apsolutnu veličinu varijabilnosti karakteristike i izražava se u istim mjernim jedinicama kao i vrijednosti karakteristike (rubalje, tone, godine itd.). To je apsolutna mjera varijacije.

    Za alternativni znakovi, na primjer prisutnost ili odsutnost visoko obrazovanje, formule osiguranja, disperzije i standardne devijacije su sljedeće:

    Prikažimo izračun standardne devijacije prema podacima diskretne serije koja karakterizira distribuciju studenata jednog od sveučilišnih fakulteta prema dobi (tablica 6.2).

    Tablica 6.2.

    Rezultati pomoćnih izračuna dani su u stupcima 2-5 tablice. 6.2.

    Prosječna dob učenika, godina, određena je formulom ponderirane aritmetičke sredine (stupac 2):

    Kvadratna odstupanja individualne dobi učenika od prosjeka nalaze se u stupcima 3-4, a umnošci kvadrata odstupanja i pripadajućih učestalosti sadržani su u stupcu 5.

    Varijancu dobi učenika, godine, nalazimo pomoću formule (6.2):

    Tada je o = l/3,43 1,85 *oda, t j . Svaka određena vrijednost dobi učenika odstupa od prosjeka za 1,85 godina.

    Koeficijent varijacije

    U svojoj apsolutnoj vrijednosti, standardna devijacija ne ovisi samo o stupnju varijacije karakteristike, već io apsolutnim razinama opcija i prosjeku. Stoga je nemoguće izravno usporediti standardne devijacije nizova varijacija s različitim prosječnim razinama. Da biste mogli napraviti takvu usporedbu, trebate pronaći udio prosječnog odstupanja (linearnog ili kvadratnog) u aritmetičkom prosjeku, izražen u postocima, tj. izračunati relativne mjere varijacije.

    Linearni koeficijent varijacije izračunati po formuli

    Koeficijent varijacije određuje se sljedećom formulom:

    U koeficijentima varijacije eliminira se ne samo neusporedivost povezana s različitim jedinicama mjerenja svojstva koje se proučava, već i neusporedivost koja nastaje zbog razlika u vrijednosti aritmetičkih sredina. Osim toga, pokazatelji varijacije karakteriziraju homogenost populacije. Populacija se smatra homogenom ako koeficijent varijacije ne prelazi 33%.

    Prema tablici. 6.2 i gore dobivenih rezultata izračuna, određujemo koeficijent varijacije, %, prema formuli (6.3):

    Ako koeficijent varijacije prelazi 33%, to ukazuje na heterogenost populacije koja se proučava. Dobivena vrijednost u našem slučaju ukazuje na to da je populacija učenika po dobi homogena po sastavu. dakle, važna funkcija generalizirajući pokazatelji varijacije – procjena pouzdanosti prosjeka. Što manje c1, a2 i V, što je rezultirajući skup pojava homogeniji i dobiveni prosjek pouzdaniji. Prema "pravilu tri sigme" koje razmatra matematička statistika, u normalno raspodijeljenim serijama ili njima bliskim serijama, odstupanja od aritmetičke sredine koja ne prelaze ±3 pojavljuju se u 997 slučajeva od 1000. Dakle, znajući X i a, možete dobiti opću početnu ideju o seriji varijacija. Ako je, na primjer, prosječna plaća zaposlenika u poduzeću 25 000 rubalja, a a je jednako 100 rubalja, tada s vjerojatnošću blizu sigurnosti možemo reći da plaće zaposlenika poduzeća variraju unutar raspona (25 000 ± ± 3 x 100 ) tj. od 24.700 do 25.300 rubalja.

    Jedan od glavnih alata statistička analiza je izračun prosjeka kvadratno odstupanje. Ovaj vam pokazatelj omogućuje procjenu standardne devijacije za uzorak ili za stanovništva. Naučimo kako koristiti formulu definicije standardna devijacija u Excelu.

    Odmah odredimo što je standardna devijacija i kako izgleda njegova formula. Ova vrijednost je kvadratni korijen prosjeka aritmetički broj kvadrata razlike između svih vrijednosti niza i njihove aritmetičke sredine. Postoji identičan naziv za ovaj indikator - standardna devijacija. Oba imena su potpuno jednaka.

    Ali, naravno, u Excelu korisnik to ne mora izračunati, jer program radi sve za njega. Naučimo kako izračunati standardnu ​​devijaciju u Excelu.

    Izračun u Excelu

    Navedenu vrijednost možete izračunati u Excelu pomoću dvije posebne funkcije STDEV.V(Po uzorak populacije) I STDEV.G(na temelju opće populacije). Načelo njihovog rada je apsolutno isto, ali se mogu nazvati na tri načina, o čemu ćemo raspravljati u nastavku.

    Metoda 1: Čarobnjak za funkcije


    Metoda 2: Kartica Formule


    Metoda 3: Ručni unos formule

    Također postoji način da se uopće izbjegne pozivanje prozora argumenata. Da biste to učinili, morate ručno unijeti formulu.


    Kao što možete vidjeti, mehanizam za izračunavanje standardne devijacije u Excelu je vrlo jednostavan. Korisnik samo treba unijeti brojeve iz populacije ili reference na ćelije koje ih sadrže. Sve izračune izvodi sam program. Mnogo je teže razumjeti što je izračunati pokazatelj i kako se rezultati izračuna mogu primijeniti u praksi. Ali razumijevanje ovoga već se više odnosi na područje statistike nego na učenje rada sa softverom.

    Definira se kao generalizirajuća karakteristika veličine varijacije svojstva u agregatu. Jednak je kvadratnom korijenu prosječnog kvadratnog odstupanja pojedinačnih vrijednosti atributa od aritmetičke sredine, tj. Korijen i može se pronaći ovako:

    1. Za primarni red:

    2. Za seriju varijacija:

    Transformacija formule standardne devijacije dovodi je u oblik pogodniji za praktične izračune:

    Standardna devijacija određuje koliko u prosjeku određene opcije odstupaju od svoje prosječne vrijednosti, a također je i apsolutna mjera varijabilnosti obilježja i izražava se u istim jedinicama kao i opcije, te se stoga dobro tumači.

    Primjeri pronalaženja standardne devijacije: ,

    Za alternativne karakteristike, formula standardne devijacije izgleda ovako:

    gdje je p udio jedinica u populaciji koje imaju određenu karakteristiku;

    q je udio jedinica koje nemaju ovo svojstvo.

    Pojam prosječnog linearnog odstupanja

    Prosječno linearno odstupanje definira se kao aritmetička sredina apsolutnih vrijednosti odstupanja pojedinih opcija od .

    1. Za primarni red:

    2. Za seriju varijacija:

    gdje je zbroj n zbroj učestalosti varijacijskih nizova.

    Primjer pronalaženja prosječnog linearnog odstupanja:

    Prednost srednjeg apsolutnog odstupanja kao mjere disperzije u rasponu varijacije je očita, jer se ova mjera temelji na uzimanju u obzir svih mogućih odstupanja. Ali ovaj pokazatelj ima značajne nedostatke. Proizvoljno odbacivanje algebarskih znakova odstupanja može dovesti do činjenice da su matematička svojstva ovog pokazatelja daleko od elementarnih. Zbog toga je vrlo teško koristiti srednju apsolutnu devijaciju pri rješavanju problema koji uključuju probabilističke izračune.

    Stoga se prosječno linearno odstupanje kao mjera varijacije obilježja rijetko koristi u statističkoj praksi, naime kada zbrajanje pokazatelja bez uzimanja u obzir predznaka ima ekonomskog smisla. Pomoću njega analizira se npr. promet vanjske trgovine, sastav radnika, ritam proizvodnje itd.

    Srednji kvadrat

    Primijenjen srednji kvadrat, na primjer, za izračunavanje prosječne veličine stranica n kvadratnih dijelova, prosječnih promjera debla, cijevi itd. Dijeli se na dvije vrste.

    Jednostavan srednji kvadrat. Ako, prilikom zamjene pojedinačnih vrijednosti karakteristike s prosječna vrijednost Ako je potrebno održati zbroj kvadrata izvornih vrijednosti konstantnim, tada će prosjek biti kvadratna prosječna vrijednost.

    Ona je kvadratni korijen iz kvocijenta dijeljenja zbroja kvadrata pojedinačnih vrijednosti obilježja njihovim brojem:

    Ponderirani srednji kvadrat izračunava se pomoću formule:

    gdje je f znak težine.

    Prosječna kubna

    Primjenjuje se prosječni kubni, na primjer, pri određivanju prosječne duljine stranice i kocke. Dijeli se na dvije vrste.
    Prosječna kubna jednostavna:

    Pri izračunavanju prosjeka i odstupanja u intervalni redovi distribucije, prave vrijednosti obilježja zamijenjene su središnjim vrijednostima intervala, koje se razlikuju od prosjeka aritmetičke vrijednosti uključeni u interval. To dovodi do sustavne pogreške pri izračunavanju varijance. V.F. Sheppard je to utvrdio greška u izračunu varijance, uzrokovan korištenjem grupiranih podataka, iznosi 1/12 kvadrata vrijednosti intervala, kako u smjeru povećanja tako iu smjeru smanjenja veličine disperzije.

    Sheppardov amandman treba koristiti ako je distribucija blizu normalne, odnosi se na karakteristiku s kontinuiranom prirodom varijacije i temelji se na značajnoj količini početnih podataka (n > 500). Međutim, na temelju činjenice da se u nekim slučajevima obje pogreške, djelujući u različitim smjerovima, kompenziraju jedna drugu, ponekad je moguće odbiti uvođenje ispravaka.

    Kako manje vrijednosti varijance i standardne devijacije, što će populacija biti homogenija i prosjek će biti tipičniji.
    U praksi statistike često postoji potreba za usporedbom varijacija različitih karakteristika. Na primjer, veliki interes prikazuje usporedbu varijacija u dobi radnika i njihovim kvalifikacijama, radnom stažu i plaćama, troškovima i dobiti, radnom stažu i produktivnosti rada itd. Za takve usporedbe pokazatelji apsolutne varijabilnosti karakteristika nisu prikladni: nemoguće je usporediti varijabilnost radnog iskustva, izraženu u godinama, s varijabilnošću plaća, izraženu u rubljima.

    Za provođenje takvih usporedbi, kao i usporedbi varijabilnosti istog svojstva u više populacija s različitim aritmetičkim prosjecima, koristi se relativni pokazatelj varijacije - koeficijent varijacije.

    Strukturni prosjeci

    Za karakterizaciju središnje tendencije u statističkim distribucijama često je racionalno koristiti, zajedno s aritmetičkom sredinom, određenu vrijednost karakteristike X, koja, zbog određenih značajki svog položaja u nizu distribucije, može karakterizirati njezinu razinu.

    Ovo je posebno važno kada u seriji distribucije ekstremne vrijednosti karakteristike imaju nejasne granice. S tim u vezi, točno određivanje aritmetičke sredine obično je nemoguće ili vrlo teško. U takvim slučajevima srednja razina može se odrediti uzimanjem, na primjer, vrijednosti značajke koja se nalazi u sredini frekvencijskog niza ili koja se najčešće pojavljuje u trenutnom nizu.

    Takve vrijednosti ovise samo o prirodi frekvencija, tj. o strukturi distribucije. Tipične su lokacije u nizu frekvencija, stoga se takve vrijednosti smatraju karakteristikama središta distribucije i stoga su dobile definiciju strukturnih prosjeka. Koriste se za učenje unutarnja struktura i struktura niza distribucije vrijednosti atributa. Takvi pokazatelji uključuju: