Předpoklady obsažené ve statistickém modelování popisují soubor rozdělení pravděpodobnosti, o některých se předpokládá, že distribuci adekvátně aproximují. Z definice se vybere konkrétní sada dat. Rozdělení pravděpodobnosti vlastní statistickému modelování jsou to, co odlišuje statistické modely od jiných, nestatistických, matematických modelů.
Spojení s matematikou
Tato vědecká metoda má kořeny především v matematice. Statistické modelování systémů je obvykle dáno matematickými rovnicemi, které se týkají jedné nebo více náhodných proměnných a případně dalších nenáhodných proměnných. Statistický model je tedy „formální reprezentace teorie“(Hermann Ader, cituje Kennetha Bollena).
Všechny testy statistických hypotéz a všechny statistické odhady jsou odvozeny ze statistických modelů. Obecněji jsou statistické modely součástí základu statistického vyvozování.
Metody statistikymodeling
Neformálně lze statistický model považovat za statistický předpoklad (nebo soubor statistických předpokladů) s určitou vlastností: tento předpoklad nám umožňuje vypočítat pravděpodobnost jakékoli události. Jako příklad uveďme pár obyčejných šestistěnných kostek. Budeme studovat dva různé statistické předpoklady o kosti.
První statistický předpoklad tvoří statistický model, protože pouze s jedním předpokladem můžeme vypočítat pravděpodobnost jakékoli události. Alternativní statistický předpoklad nepředstavuje statistický model, protože pouze s jedním předpokladem nemůžeme vypočítat pravděpodobnost každé události.
Ve výše uvedeném příkladu s prvním předpokladem je snadné vypočítat pravděpodobnost události. V některých jiných příkladech však může být výpočet složitý nebo dokonce nepraktický (například může vyžadovat miliony let výpočtu). Pro předpoklad, který tvoří statistický model, je tato obtíž přijatelná: provedení výpočtu nemusí být prakticky proveditelné, pouze teoreticky možné.
Příklady modelů
Předpokládejme, že máme populaci školáků s rovnoměrně rozdělenými dětmi. Výška dítěte bude stochasticky souviset s věkem: například, když víme, že dítěti je 7 let, ovlivňuje to pravděpodobnost, že dítě bude 5 stop vysoké (asi 152 cm). Tento vztah bychom mohli formalizovat v lineárním regresním modelu, například: růst=b0 + b1agei+ εi, kde b0 je průsečík, b1 je parametr, kterým se při získávání prognózy růstu násobí věk, εi je chybový člen. To znamená, že výšku předpovídá věk s určitou chybou.
Platný model musí odpovídat všem datovým bodům. Takže přímka (heighti=b0 + b1agei) nemůže být rovnicí pro datový model - pokud přesně nesedí všem datovým bodům, tj. všechny datové body leží dokonale na přímce. Aby model vyhovoval všem datovým bodům, musí být do rovnice zahrnut chybový člen εi.
Abychom mohli provést statistickou inferenci, musíme nejprve předpokládat určitá rozdělení pravděpodobnosti pro εi. Například můžeme předpokládat, že rozdělení εi jsou Gaussova s nulovým průměrem. V tomto případě bude mít model 3 parametry: b0, b1 a rozptyl Gaussova rozdělení.
Obecný popis
Statistický model je speciální třída matematického modelu. Co odlišuje statistický model od ostatních matematických modelů je to, že je nedeterministický. Používá se k modelování statistických dat. Ve statistickém modelu definovaném matematickými rovnicemi tedy některé proměnné nemají specifické hodnoty, ale místo toho mají rozdělení pravděpodobnosti; to znamená, že některé proměnné jsou stochastické. Ve výše uvedeném příkladu je ε stochastická proměnná; bez této proměnné byl modelby bylo deterministické.
Statistické modely se často používají ve statistické analýze a modelování, i když je modelovaný fyzický proces deterministický. Například házení mincí je v principu deterministický proces; přesto je obvykle modelován jako stochastický (přes Bernoulliho proces).
Parametrické modely
Parametrické modely jsou nejčastěji používané statistické modely. Pokud jde o semiparametrické a neparametrické modely, Sir David Cox řekl: "Obecně zahrnují méně předpokladů o struktuře a tvaru distribuce, ale obvykle obsahují silné předpoklady nezávislosti." Stejně jako všechny ostatní zmíněné modely jsou také často používány ve statistické metodě matematického modelování.
Víceúrovňové modely
Víceúrovňové modely (také známé jako hierarchické lineární modely, vnořené datové modely, smíšené modely, náhodné koeficienty, modely náhodných efektů, modely náhodných parametrů nebo dělené modely) jsou modely statistických parametrů, které se liší na více než jedné úrovni. Příkladem je model úspěchu studentů, který obsahuje metriky pro jednotlivé studenty i metriky pro učebny, ve kterých jsou studenti seskupeni. Tyto modely lze považovat za zobecnění lineárních modelů (zejména lineární regrese), i když je lze rozšířit i na nelineární modely. Tyto modely se stalymnohem populárnější, jakmile bude k dispozici dostatečný výpočetní výkon a software.
Víceúrovňové modely jsou zvláště vhodné pro výzkumné projekty, kde jsou data pro účastníky organizována na více než jedné úrovni (tj. vnořená data). Analytické jednotky jsou obvykle jednotlivci (na nižší úrovni), kteří jsou vnořeni do kontextových/agregátních jednotek (na vyšší úrovni). Zatímco nejnižší úroveň dat ve víceúrovňových modelech je typicky individuální, lze zvážit i opakovaná měření jednotlivců. Víceúrovňové modely tedy poskytují alternativní typ analýzy pro jednorozměrnou nebo vícerozměrnou analýzu opakovaných měření. Lze uvažovat o individuálních rozdílech v růstových křivkách. Kromě toho lze jako alternativu k ANCOVA použít víceúrovňové modely, kde se skóre závislých proměnných upraví pro kovariáty (např. individuální rozdíly) před testováním rozdílů v léčbě. Víceúrovňové modely jsou schopny analyzovat tyto experimenty bez předpokladu jednotných regresních sklonů požadovaných ANCOVA.
Víceúrovňové modely lze použít pro data s mnoha úrovněmi, ačkoli dvouúrovňové modely jsou nejběžnější a na ně se zaměřuje zbytek tohoto článku. Závislá proměnná by měla být zkoumána na nejnižší úrovni analýzy.
Výběr modelu
Výběr modeluje úkolem vybrat ze souboru kandidátských modelů na základě dat, prováděných v rámci statistického modelování. V nejjednodušších případech se uvažuje již existující soubor dat. Úkol však může také zahrnovat navrhování experimentů tak, aby shromážděná data dobře vyhovovala úloze výběru modelu. Vzhledem k tomu, že kandidátské modely mají podobnou prediktivní nebo vysvětlovací schopnost, bude pravděpodobně nejlepší volbou nejjednodušší model (Occamova břitva).
Konishi & Kitagawa říkají: "Většinu problémů statistického vyvozování lze považovat za problémy související se statistickým modelováním." Podobně Cox řekl: „To, jak se provádí převod předmětu do statistického modelu, je často nejdůležitější součástí analýzy.“
Výběr modelu může také odkazovat na problém výběru několika reprezentativních modelů z velké sady výpočtových modelů pro účely rozhodování nebo optimalizace za nejistoty.
Grafické vzory
Grafický model neboli pravděpodobnostní grafický model (PGM) neboli strukturovaný pravděpodobnostní model je pravděpodobnostní model, pro který graf vyjadřuje strukturu podmíněného vztahu mezi náhodnými veličinami. Běžně se používají v teorii pravděpodobnosti, statistice (zejména Bayesovské statistiky) a strojovém učení.
Ekonometrické modely
Ekonometrické modely jsou statistické modely používané vekonometrie. Ekonometrický model definuje statistické vztahy, o kterých se předpokládá, že existují mezi různými ekonomickými veličinami souvisejícími s konkrétním ekonomickým jevem. Ekonometrický model lze odvodit z deterministického ekonomického modelu, který bere v úvahu nejistotu, nebo z ekonomického modelu, který je sám o sobě stochastický. Je však také možné použít ekonometrické modely, které nejsou vázány na žádnou konkrétní ekonomickou teorii.