Pagrindinės statistinės sąvokos

Statistikos sąvokų pristatymas

Pradėkite ir kartu lygiagrečiai skaitykite su Vidurkis ir nuokrypis statistikoje;
Taip pat skaitykite Kada statistika gali meluoti?

Svarbu mokėti apibendrinti kokius nors surinktus duomenis. Tai „aprašomoji statistika“. Kai kurie aprašomosios statistikos duomenys yra kategorizuoti, t.y. išskaidyti į tam tikras grupes (kategorijas), pvz., pagal svorio, aukščio, amžiaus ir pan. rėžius. Individų (imties narių) kiekis grupėje yra vadinamas absoliučiuoju (statistiniu) dažniu, o jų procentinė išraiška – santykiniu dažniu (tačiau gali būti išreiškiamas ir ne procentu, o santykiu su visos imties dydžiu).

„Matavimų duomenys“ reiškia realius, konkrečius skaičius, pvz., kūno masės indeksą ar teksto rinkimo spartą. Juos galima matuoti įvairiai, pvz., paskaičiuojant (statistinį) vidurkį.

Taip pat paskaičiuojamas ir „imties plotis“, kuris yra skirtumas tarp didžiausios ir mažiausios reikšmių, kaip ir moda, mediana, vidutinis nuokrypis ar kvartilių plotis. Aprašomoji statistika, priklausomai nuo situacijos ir tikslo, gali labiau vertinti vienus paskaičiavimus nei kitus.

Kintamasis (dydis, reikšmė) yra yra bet koks požymis, kurį jūs norite suskaičiuoti užregistruoti, išmatuoti ar pan., pvz, ūgis, akių spalva, ėjimo greitis ir t.t. Skirstinys apibūdina imties reikšmių pasiskirstymą (išsibarstymą) – pvz., aukštesnių už 200 cm yra 2,7% .

Trys dažniausi skirstiniai yra:

1) Binominis skirstinys - „sėkmių“ pasiskirstymas n nepriklausymų bandymų, kai sėkmės tikimybė kiekviename bandyme yra pastovi (p).

2) Normalusis skirstinys – kai imties reikšmės pasiskirstę taip, kad sudaro „varpo formos“ kreivę.

3) Stjudento skirstinys (arba T-skirstinys) naudojamas tikintis vidurkio normaliai pasiskirsčiusiose populiacijoje, kai imties plotis yra mažas, o standartinis nuokrypis (deviacija) nežinomas. Pvz., nustatymui, kaip efektingai veikia vaistai.

Kiti skirstiniai yra: Puasono, eksponentinis, trikampio skirstiniai.

Apklausos tik surenka duomenis iš tam tikros, ribotos populiacijos. Aišku, kiekvienoje jos imtyje bus tam tikri nukrypimai. Eksperimento paklaida nusako imties rezultatų patikimumą. Atvirkščias dydis yra eksperimento tikslumas. Pvz., jei nustatoma, kad 40% pudelių (šunų) mėgsta tam tikrą šunų graphics in statistics maisto rūšį su 2% paklaida, tai reiškia, kad eksperimento tikslumas yra 38-42%.

Hipoteze vadinamas teiginys apie populiacijos skirstinį. Hipotezių tikrinimas yra bandymas patvirtinti arba paneigi tą teiginį. Pvz., hipotezė būtų, kad tam tikras procentas pudelių teikia pirmenybę kokiam nors vienam šunų maistui. Jos patikrinimas būtų tam tikros pudelių imties pomėgių patikrinimas.
Skaitykite Nulinė hipotezė

Kaip gerai žinoma, statistikas siekia nustatyti priežastinius ryšius tarp kintamųjų, pvz., kaip maitinimosi įpročiai veikia tokius kintamuosius, kaip Alzhaimerio liga ar vėžys ir t.t. Tokių priežastinių sąryšių nustatymas pragmatiškai padeda mums sukurti geresnį maistą, vaistus ir t.t. Koreliacija padeda nustatyti regresiją, kuri yra prognozė apie vieno kintamojo priklausomybę nuo kito.

Kitas rezultatų pateikimo būdas yra juos pateikti diagramų ar kitokia grafine forma. Bet jas irgi svarbu suprasti ir paaiškinti.

Kvartiliai ir procentiliai

Mediana imtį dalija į dvi dalis. O ketvirtoji imties dalis vadinama kvartiliu. Kvartilis q1 yra skaičius, už kurį mažesnės reikšmės sudaro 25%. Mediana yra antrojo kvartilio q2 riba (50%). Trečiasis kvartilis q3 yra skaičius, už kurį mažesnės stebimos reikšmės sudaro 75%. Procentiliai (kvantiliai) visus imties duomenis pagal jų dydį surikiuoja procentinėje skalėje. Pavyzdžiui, eilės 0,2 procentilis (arba 0.95) yra toks realusis skaičius, už kurį mažesnės stebimos reikšmės sudaro 20% (arba 95%). Kvartilių ir procentilių apskaičiavimui dažnai reikia interpoliuoti stebimų reikšmių padėtį.

Pvz. Matuojant 1 dienos amžiaus arba vyresnių žiurkių deguonies apytaką (ml/h), gauti tokie stebėjimo duomenys (n=16):
1.57 1.60 1.81 1.60 1.88 1.79 1.75 1.85
1.92 1.68 1.75 1.73 1.72 1.68 1.76 1.78

Tada kvartilio q3 padėtis duomenų sekoje tokia: 12,75 [ 3(n+1)/4 = 3(16+1)/4 = 51/4 = 12,75 ]

Tačiau sekoje nėra pozicijos 12,75. Todėl imame 12-ąjį stebėjimą (1.79) ir 13-ąjį stebėjimą (1.81). Šių dviejų stebėjimo duomenų interpoliaciją atliekame taip: 1.79+0.75(1.81-1.79)=1.805.

Analogiškai paskaičiavus gauname, kad pirmojo kvartilio reikšmė yra 1.68.

Kvartilių plotis - jo esmė panaši į standartinio nuokrypio. Kvartilių plotis apskaičiuojamas iš lygybės:
Qp=q3-q1.

Tad mūsų pavyzdžiui Qp=1.805-1.68=0.125

Pasikliautinas intervalas

Pasikliautinas intervalas (CI) – intervalas, kuriame su tam tikra tikimybe (vadinama reikšmingumo arba pasikliovimo lygmeniu, praktikoje dažnai naudojama 0,95 reikšmė) yra matuojamas dydis (pvz., aritmetinis vidurkis). Jų teoriją išvystė lenkų kilmės matematikas Jerzy Neyman’as (1894-1981).

Pasikliautinas intervalas dažnai skaičiuojamas pagal formulę:
Confidence interval

kur n - matavimų kiekis; - aritmetinis vidurkis, xi - i-ojo matavimo reikšmė. Tada didžiausia reikšmė, kuria gali skirtis nustatytas vidurkis nuo tikrojo (esant nustatytam reikšmingumo lygmeniui P) yra
Confidence interval

kur t(n, P) – Stjudento koeficientas n-1 laisvės laipsniams (jo reikšmė dažnai imama iš lentelių).

Varpo kreivė

Gauso kreive

Su viršūne centre ir palengva žemėjančiais šlaitais ši kreivė yra žinomiausia ir viena svarbiausių kreivių matematikoje ir aplamai moksle. Aiškinant supaprastintai, ji parodo reikšmių pasiskirstymą pagal kaupiamąjį atsitiktinumų poveikį – dažniausiai sutinkamos reikšmės centre, o retesnės - kuriame nors jos šlaitų. Jai nėra apribojimų – ji aproksimuoja tiek akcijų rinką, tiek žmonių ūgis ir IQ... Todėl dauguma matematikų kreivę vadino tiesiog „normaliuoju pasiskirstymu“.

Daugelyje vadovėlių ji vadinama Gauso kreive, pažymint tą faktą, kad K. Gausas išvedė kreivės formą tirdamas, kaip duomenys paveikiami atsitiktinių klaidų. Tačiau jau prieš kelis dešimtmečius ją buvo gavęs matematikos mokytojas prancūzas Abraham de Moivre*), kai nagrinėjo metų metus matematikams rūpėjusį klausimą: kokiu dažniu pasirodo skaičiai ir herbai išmetant daugelį monetų.
Taigi, jos vadinimas Gauso kreive yra ir Stiglerio eponimijos dėsnio iliustracija – kai moksliniai atradimai nevadinami jų tikrojo atradėjo vardu.


*) Abraomas de Muavras (Abraham de Moivre, 1667-1754) - prancūzų kilmės anglų matematikas, I. Niutono mokinys ir pagalbininkas, žinomas Muavro formule, sujungiančia kompleksinius skaičius ir trigonometriją, bei darbais, susijusiais su tikimybių teorija bei normaliuoju pasiskirstymu. Parašė knygą "Atsitiktinumų doktrina" apie tikimybių teoriją, sakoma, labai vertintą žaidėjų. Pirmasis atrado Bineto formulę, susijusią su Fibonačio skaičiais ir siejančią n-tąjį aukso pjūvio laipsnį su n-tuoju Fibonačio skaičiumi. Jis taip pat pirmasis suformulavo centrinę ribinę teoremą, svarbiausią tikimybių teorijoje.

Monte-Karlo metodas
Zenono paradoksai
Matematiniai anekdotai
Santykis ir proporcija
Kada statistika gali meluoti?
Scenoje - paprastos grupės
Skaičiai – apžvalga/ pradmenys
Parabolės lenktas likimas
Iniciatyva: Matematikos keliu
Kombinatorika, polinomai, tikimybės
Vidurkis ir nuokrypis statistikoje
VU Matematikos fakultetas pokariu
Austrų ekonominė ir plokščios žemės teorija
Ar nepabandysite išpręsti uždavinį?
Pagrindinės algebrinės struktūros
Gausas – iškirstas langas į 19 a.
Mokslininkui nereikia matematikos!
Omaras Chajamas: ne vien Rubijatai
Simpsonų trauka ir žaidimas skaičiais
Geriausios alternatyvos parinkimas
Matematika - tai žavesys ir tiesa
Vištų matematiniai pokalbiai
Kas tie romėniški skaitmenys?
Naujasis Černo medalis
Ar įrodytas abc teiginys?
Laplasas. Dėl tikimybių
Loterijų matematika
Vartiklis