Matematická statistika je metodologie, která vám umožňuje činit informovaná rozhodnutí tváří v tvář nejistým podmínkám. Studium metod sběru a systematizace dat, zpracování konečných výsledků experimentů a experimentů s hromadnou náhodností a objevování jakýchkoliv vzorců je to, co toto odvětví matematiky dělá. Zvažte základní pojmy matematické statistiky.
Rozdíl s teorií pravděpodobnosti
Metody matematické statistiky se úzce prolínají s teorií pravděpodobnosti. Oba obory matematiky se zabývají studiem četných náhodných jevů. Tyto dvě disciplíny spojují limitní věty. Mezi těmito vědami je však velký rozdíl. Jestliže teorie pravděpodobnosti určuje charakteristiky procesu v reálném světě na základě matematického modelu, pak matematická statistika dělá opak – nastavuje vlastnosti modelu nana základě pozorovaných informací.
Kroky
Aplikaci matematické statistiky lze provádět pouze ve vztahu k náhodným událostem nebo procesům, respektive k datům získaným jejich pozorováním. A to se děje v několika fázích. Za prvé, data experimentů a experimentů procházejí určitým zpracováním. Jsou seřazeny kvůli přehlednosti a snadnosti analýzy. Poté se provede přesný nebo přibližný odhad požadovaných parametrů sledovaného náhodného procesu. Mohou to být:
- posouzení pravděpodobnosti události (její pravděpodobnost je zpočátku neznámá);
- studium chování neurčité distribuční funkce;
- odhad očekávání;
- odhad rozptylu
- etc.
Třetí fází je ověření případných hypotéz stanovených před analýzou, tedy získání odpovědi na otázku, jak výsledky experimentů odpovídají teoretickým výpočtům. Ve skutečnosti se jedná o hlavní fázi matematické statistiky. Příkladem by bylo zvážit, zda je chování pozorovaného náhodného procesu v rámci normálního rozdělení.
Populace
Základní pojmy matematické statistiky zahrnují obecné a výběrové populace. Tato disciplína se zabývá studiem množiny určitých objektů s ohledem na nějakou vlastnost. Příkladem je práce taxikáře. Zvažte tyto náhodné proměnné:
- zatížení nebo počet zákazníků: za den, před obědem, po obědě, …;
- průměrná doba cesty;
- počet došlých žádostí nebo jejich připojení k městským částem a mnoho dalšího.
Za zmínku také stojí, že je možné studovat soubor podobných náhodných procesů, které budou také náhodnou veličinou, kterou lze pozorovat.
V metodách matematické statistiky se tedy celý soubor zkoumaných objektů nebo výsledky různých pozorování, která jsou prováděna za stejných podmínek na daném objektu, nazývá obecná populace. Jinými slovy, matematicky přísněji, je to náhodná proměnná, která je definována v prostoru elementárních událostí, s třídou podmnožin, jejichž prvky mají známou pravděpodobnost.
Vzorová populace
Jsou případy, kdy je nemožné nebo nepraktické z nějakého důvodu (náklady, čas) provádět průběžné studium každého objektu. Například otevření každé sklenice uzavřeného džemu za účelem kontroly jeho kvality je pochybné rozhodnutí a pokusit se odhadnout trajektorii každé molekuly vzduchu v metru krychlovém je nemožné. V takových případech se používá metoda selektivního pozorování: z obecné populace se vybere (většinou náhodně) určitý počet objektů, které jsou podrobeny jejich analýze.
Tyto koncepty se mohou na první pohled zdát složité. Pro úplné pochopení tématu je tedy potřeba prostudovat učebnici V. E. Gmurmana „Teorie pravděpodobnosti a matematická statistika“. Vzorkovací sada nebo vzorek je tedy série objektů náhodně vybraných z obecné sady. V přísných matematických termínech se jedná o posloupnost nezávislých, rovnoměrně rozdělených náhodných proměnných, pro každou z nich se distribuce shoduje s distribucí uvedenou pro obecnou náhodnou proměnnou.
Základní pojmy
Pojďme se krátce zamyslet nad řadou dalších základních konceptů matematické statistiky. Počet objektů v obecné populaci nebo vzorku se nazývá objem. Hodnoty vzorku, které jsou získány během experimentu, se nazývají realizace vzorku. Aby byl odhad obecné populace na základě vzorku spolehlivý, je důležité mít tzv. reprezentativní nebo reprezentativní vzorek. To znamená, že vzorek musí plně reprezentovat populaci. Toho lze dosáhnout pouze v případě, že všechny prvky populace mají stejnou pravděpodobnost, že budou ve vzorku.
Vzorky rozlišují mezi vrácením a nevrácením. V prvním případě je v obsahu vzorku opakovaný prvek vrácen do obecné množiny, ve druhém případě tomu tak není. Obvykle se v praxi používá odběr bez náhrad. Je třeba si také uvědomit, že velikost běžné populace vždy výrazně převyšuje velikost vzorku. Existovatmnoho možností pro proces vzorkování:
- jednoduché – položky jsou náhodně vybírány po jednom;
- typed - obecná populace je rozdělena do typů a z každého se vybírá; příkladem je průzkum mezi obyvateli: muži a ženy zvlášť;
- mechanické – například vyberte každý 10. prvek;
- serial – výběr se provádí v řadě prvků.
Statistické rozdělení
Podle Gmurmana jsou teorie pravděpodobnosti a matematická statistika mimořádně důležité disciplíny ve vědeckém světě, zejména v jeho praktické části. Zvažte statistické rozložení vzorku.
Předpokládejme, že máme skupinu studentů, kteří byli testováni z matematiky. V důsledku toho máme sadu odhadů: 5, 3, 1, 4, 3, 4, 2, 5, 4, 4, 5 – to je náš primární statistický materiál.
Nejprve to musíme seřadit nebo provést operaci hodnocení: 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5 – a tak získat variační řadu. Počet opakování každého z hodnocení se nazývá frekvence hodnocení a jejich poměr k velikosti vzorku se nazývá relativní frekvence. Udělejme si tabulku statistického rozložení vzorku, nebo jen statistickou řadu:
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1 | 1 | 2 | 4 | 3 |
nebo
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1/11 | 1/11 | 2/11 | 4/11 | 3/11 |
Mějme náhodnou proměnnou, na které provedeme sérii experimentů a uvidíme, jakou hodnotu tato proměnná nabývá. Předpokládejme, že vzala hodnotu a1 - m1 krát; a2 - m2krát atd. Velikost tohoto vzorku bude m1 + … + mk=m. Množina ai, kde i kolísá od 1 do k, je statistická řada.
Intervalová distribuce
V knize VE Gmurmana "Teorie pravděpodobnosti a matematická statistika" je také uvedena intervalová statistická řada. Jeho kompilace je možná, když je hodnota studovaného prvku spojitá v určitém intervalu a počet hodnot je velký. Zvažte skupinu studentů, nebo spíše jejich výšku: 163, 180, 185, 172, 161, 171, 189, 157, 165, 174, 180, 181, 175, 182, 167, 159, 171, 173, 179, 160, 180, 166, 178, 156, 180, 189, 173, 174, 175 - celkem 30 studentů. Je zřejmé, že výška osoby je spojitá hodnota. Musíme definovat krok intervalu. K tomu se používá Sturgesův vzorec.
h= | max – min | = | 190–156 | = | 33 | = | 5, 59 |
1+log2m | 1+log230 | 5, 9 |
Za velikost intervalu lze tedy považovat hodnotu 6. Je třeba také říci, že hodnota 1+log2m je vzorec prourčení počtu intervalů (samozřejmě se zaokrouhlením). Podle vzorců se tedy získá 6 intervalů, z nichž každý má velikost 6. A první hodnotou počátečního intervalu bude číslo určené vzorcem: min - h / 2=156 - 6/2=153. Udělejme tabulku, která bude obsahovat intervaly a počet studentů, jejichž růst spadal do určitého intervalu.
H | [153; 159) | [159; 165) | [165; 171) | [171; 177) | [177; 183) | [183; 189) |
P | 2 | 5 | 3 | 9 | 8 | 3 |
P | 0, 06 | 0, 17 | 0, 1 | 0, 3 | 0, 27 | 0, 1 |
To samozřejmě není vše, protože v matematické statistice existuje mnohem více vzorců. Zvážili jsme pouze některé základní pojmy.
Rozvrh distribuce
Mezi základní pojmy matematické statistiky patří také grafické znázornění rozdělení, které se vyznačuje přehledností. Existují dva typy grafů: polygon a histogram. První se používá pro diskrétní statistické řady. A pro kontinuální distribuci druhý.