Pagrindinės statistinės sąvokos

Statistikos sąvokų pristatymas

Pradėkite ir kartu lygiagrečiai skaitykite su Vidurkis ir nuokrypis statistikoje;
Taip pat skaitykite Kada statistika gali meluoti?

Svarbu mokėti apibendrinti kokius nors surinktus duomenis. Tai „aprašomoji statistika“. Kai kurie aprašomosios statistikos duomenys yra kategorizuoti, t.y. išskaidyti į tam tikras grupes (kategorijas), pvz., pagal svorio, aukščio, amžiaus ir pan. rėžius. Individų (imties narių) kiekis grupėje yra vadinamas absoliučiuoju (statistiniu) dažniu, o jų procentinė išraiška – santykiniu dažniu (tačiau gali būti išreiškiamas ir ne procentu, o santykiu su visos imties dydžiu).

„Matavimų duomenys“ reiškia realius, konkrečius skaičius, pvz., kūno masės indeksą ar teksto rinkimo spartą. Juos galima matuoti įvairiai, pvz., paskaičiuojant (statistinį) vidurkį.

Taip pat paskaičiuojamas ir „imties plotis“, kuris yra skirtumas tarp didžiausios ir mažiausios reikšmių, kaip ir moda, mediana, vidutinis nuokrypis ar kvartilių plotis. Aprašomoji statistika, priklausomai nuo situacijos ir tikslo, gali labiau vertinti vienus paskaičiavimus nei kitus.

Kintamasis (dydis, reikšmė) yra yra bet koks požymis, kurį jūs norite suskaičiuoti užregistruoti, išmatuoti ar pan., pvz, ūgis, akių spalva, ėjimo greitis ir t.t. Skirstinys apibūdina imties reikšmių pasiskirstymą (išsibarstymą) – pvz., aukštesnių už 200 cm yra 2,7% .

Trys dažniausi skirstiniai yra:

1) Binominis skirstinys - „sėkmių“ pasiskirstymas n nepriklausymų bandymų, kai sėkmės tikimybė kiekviename bandyme yra pastovi (p).

2) Normalusis skirstinys – kai imties reikšmės pasiskirstę taip, kad sudaro „varpo formos“ kreivę.

3) Stjudento skirstinys (arba T-skirstinys) naudojamas tikintis vidurkio normaliai pasiskirsčiusiose populiacijoje, kai imties plotis yra mažas, o standartinis nuokrypis (deviacija) nežinomas. Pvz., nustatymui, kaip efektingai veikia vaistai.

Kiti skirstiniai yra: Puasono, eksponentinis, trikampio skirstiniai.

Apklausos tik surenka duomenis iš tam tikros, ribotos populiacijos. Aišku, kiekvienoje jos imtyje bus tam tikri nukrypimai. Eksperimento paklaida nusako imties rezultatų patikimumą. Atvirkščias dydis yra eksperimento tikslumas. Pvz., jei nustatoma, kad 40% pudelių (šunų) mėgsta tam tikrą šunų graphics in statistics maisto rūšį su 2% paklaida, tai reiškia, kad eksperimento tikslumas yra 38-42%.

Hipoteze vadinamas teiginys apie populiacijos skirstinį. Hipotezių tikrinimas yra bandymas patvirtinti arba paneigi tą teiginį. Pvz., hipotezė būtų, kad tam tikras procentas pudelių teikia pirmenybę kokiam nors vienam šunų maistui. Jos patikrinimas būtų tam tikros pudelių imties pomėgių patikrinimas.
Skaitykite Nulinė hipotezė

Kaip gerai žinoma, statistikas siekia nustatyti priežastinius ryšius tarp kintamųjų, pvz., kaip maitinimosi įpročiai veikia tokius kintamuosius, kaip Alzhaimerio liga ar vėžys ir t.t. Tokių priežastinių sąryšių nustatymas pragmatiškai padeda mums sukurti geresnį maistą, vaistus ir t.t. Koreliacija padeda nustatyti regresiją, kuri yra prognozė apie vieno kintamojo priklausomybę nuo kito.

Kitas rezultatų pateikimo būdas yra juos pateikti diagramų ar kitokia grafine forma. Bet jas irgi svarbu suprasti ir paaiškinti.

Kvartiliai ir procentiliai

Mediana imtį dalija į dvi dalis. O ketvirtoji imties dalis vadinama kvartiliu. Kvartilis q1 yra skaičius, už kurį mažesnės reikšmės sudaro 25%. Mediana yra antrojo kvartilio q2 riba (50%). Trečiasis kvartilis q3 yra skaičius, už kurį mažesnės stebimos reikšmės sudaro 75%. Procentiliai (kvantiliai) visus imties duomenis pagal jų dydį surikiuoja procentinėje skalėje. Pavyzdžiui, eilės 0,2 procentilis (arba 0.95) yra toks realusis skaičius, už kurį mažesnės stebimos reikšmės sudaro 20% (arba 95%). Kvartilių ir procentilių apskaičiavimui dažnai reikia interpoliuoti stebimų reikšmių padėtį.

Pvz. Matuojant 1 dienos amžiaus arba vyresnių žiurkių deguonies apytaką (ml/h), gauti tokie stebėjimo duomenys (n=16):
1.57 1.60 1.81 1.60 1.88 1.79 1.75 1.85
1.92 1.68 1.75 1.73 1.72 1.68 1.76 1.78

Tada kvartilio q3 padėtis duomenų sekoje tokia: 12,75 [ 3(n+1)/4 = 3(16+1)/4 = 51/4 = 12,75 ]

Tačiau sekoje nėra pozicijos 12,75. Todėl imame 12-ąjį stebėjimą (1.79) ir 13-ąjį stebėjimą (1.81). Šių dviejų stebėjimo duomenų interpoliaciją atliekame taip: 1.79+0.75(1.81-1.79)=1.805.

Analogiškai paskaičiavus gauname, kad pirmojo kvartilio reikšmė yra 1.68.

Kvartilių plotis - jo esmė panaši į standartinio nuokrypio. Kvartilių plotis apskaičiuojamas iš lygybės:
Qp=q3-q1.

Tad mūsų pavyzdžiui Qp=1.805-1.68=0.125

Pasikliautinas intervalas

Pasikliautinas intervalas (CI) – intervalas, kuriame su tam tikra tikimybe (vadinama reikšmingumo arba pasikliovimo lygmeniu, praktikoje dažnai naudojama 0,95 reikšmė) yra matuojamas dydis (pvz., aritmetinis vidurkis). Jų teoriją išvystė lenkų kilmės matematikas Jerzy Neyman’as (1894-1981).

Pasikliautinas intervalas dažnai skaičiuojamas pagal formulę:
Confidence interval

kur n - matavimų kiekis; - aritmetinis vidurkis, xi - i-ojo matavimo reikšmė. Tada didžiausia reikšmė, kuria gali skirtis nustatytas vidurkis nuo tikrojo (esant nustatytam reikšmingumo lygmeniui P) yra
Confidence interval

kur t(n, P) – Stjudento koeficientas n-1 laisvės laipsniams (jo reikšmė dažnai imama iš lentelių).

Monte-Karlo metodas
Zenono paradoksai
Matematiniai anekdotai
Santykis ir proporcija
Kada statistika gali meluoti?
Scenoje - paprastos grupės
Skaičiai – apžvalga/ pradmenys
Parabolės lenktas likimas
Iniciatyva: Matematikos keliu
Kombinatorika, polinomai, tikimybės
Vidurkis ir nuokrypis statistikoje
VU Matematikos fakultetas pokariu
Austrų ekonominė ir plokščios žemės teorija
Ar nepabandysite išpręsti uždavinį? Pagrindinės algebrinės struktūros
Gausas – iškirstas langas į 19 a.
Mokslininkui nereikia matematikos!
Omaras Chajamas: ne vien Rubijatai
Simpsonų trauka ir žaidimas skaičiais
Geriausios alternatyvos parinkimas
Matematika - tai žavesys ir tiesa
Kas tie romėniški skaitmenys?
Naujasis Černo medalis
Ar įrodytas abc teiginys?
Laplasas. Dėl tikimybių
Loterijų matematika
Vartiklis