Statistický model: podstata metody, konstrukce a analýzy

Obsah:

Statistický model: podstata metody, konstrukce a analýzy
Statistický model: podstata metody, konstrukce a analýzy
Anonim

Statistický model je matematická projekce, která ztělesňuje soubor různých předpokladů o generování některých vzorových dat. Termín je často prezentován v hodně idealizované podobě.

Předpoklady vyjádřené ve statistickém modelu ukazují soubor rozdělení pravděpodobnosti. Mnohé z nich jsou určeny ke správné aproximaci distribuce, ze které je čerpána konkrétní sada informací. Distribuce pravděpodobnosti vlastní statistickým modelům jsou tím, co odlišuje projekci od jiných matematických modifikací.

Obecná projekce

statistické modely procesů
statistické modely procesů

Matematický model je popis systému pomocí určitých pojmů a jazyka. Týkají se přírodních věd (jako je fyzika, biologie, vědy o Zemi, chemie) a inženýrských oborů (jako je informatika, elektrotechnika), jakož i společenských věd (jako je ekonomie, psychologie, sociologie, politologie).

Model může pomoci vysvětlit systém astudujte vliv různých složek a provádějte předpovědi chování.

Matematické modely mohou mít mnoho podob, včetně dynamických systémů, statistických projekcí, diferenciálních rovnic nebo parametrů teorie her. Tyto a další typy se mohou překrývat a tento model zahrnuje mnoho abstraktních struktur. Obecně mohou matematické projekce obsahovat také logické složky. Kvalita vědního oboru v mnoha případech závisí na tom, jak dobře se teoreticky vypracované matematické modely shodují s výsledky opakovaných experimentů. Nedostatek shody mezi teoretickými procesy a experimentálními měřeními často vede k důležitým pokrokům, protože se vyvíjejí lepší teorie.

Ve fyzikálních vědách obsahuje tradiční matematický model velké množství následujících prvků:

  • Řídicí rovnice.
  • Další podmodely.
  • Definujte rovnice.
  • Rovnice prvků.
  • Předpoklady a omezení.
  • Počáteční a okrajové podmínky.
  • Klasická omezení a kinematické rovnice.

Formule

Statistický model je zpravidla dán matematickými rovnicemi, které kombinují jednu nebo více náhodných proměnných a případně další přirozeně se vyskytující proměnné. Podobně je projekce považována za „formální koncept konceptu“.

Všechno testování statistických hypotéz a statistická vyhodnocení jsou získávána z matematických modelů.

Úvod

statistické matematické modely
statistické matematické modely

Neformálně lze na statistický model nahlížet jako na předpoklad (nebo soubor předpokladů) se specifickou vlastností: umožňuje vypočítat pravděpodobnost jakékoli události. Jako příklad uveďme pár obyčejných šestistěnných kostek. Je třeba prozkoumat dva různé statistické předpoklady o kosti.

První předpoklad je:

U každé kostky je pravděpodobnost získání jednoho z čísel (1, 2, 3, 4, 5 a 6): 1/6.

Z tohoto předpokladu můžeme vypočítat pravděpodobnost obou kostek: 1:1/6×1/6=1/36.

Obecněji řečeno, můžete vypočítat pravděpodobnost jakékoli události. Je však třeba si uvědomit, že je nemožné vypočítat pravděpodobnost jakékoli jiné netriviální události.

Pouze první názor shromažďuje statistický matematický model: kvůli skutečnosti, že pouze s jedním předpokladem je možné určit pravděpodobnost každé akce.

Ve výše uvedeném příkladu s počátečním povolením je snadné určit možnost události. U některých dalších příkladů může být výpočet obtížný nebo dokonce nerealistický (může například vyžadovat mnoho let výpočtů). Pro osobu, která navrhuje model statistické analýzy, je taková složitost považována za nepřijatelnou: implementace výpočtů by neměla být prakticky nemožná a teoreticky nemožná.

Formální definice

Z matematického hlediska je statistický model systému obvykle považován za pár (S, P), kde S jemnožina možných pozorování, tj. prostor vzorku, a P je množina rozdělení pravděpodobnosti na S.

Intuice této definice je následující. Předpokládá se, že existuje „skutečné“rozdělení pravděpodobnosti způsobené procesem, který generuje určitá data.

Sada

Je to on, kdo určuje parametry modelu. Parametrizace obecně vyžaduje různé hodnoty, aby výsledkem bylo různé rozdělení, tj.

Důsledek modelu
Důsledek modelu

musí držet (jinými slovy, musí být injektivní). Parametrizace, která splňuje požadavek, je údajně identifikovatelná.

Příklad

Statistický graf
Statistický graf

Předpokládejme, že existuje určitý počet studentů různého věku. Výška dítěte bude stochasticky souviset s rokem narození: například když je školákovi 7 let, ovlivňuje to pravděpodobnost růstu, pouze tak, že osoba bude vyšší než 3 centimetry.

Tento přístup můžete formalizovat do přímkového regresního modelu, například takto: výška i=b 0 + b 1agei + εi, kde b 0 je průsečík, b 1 je parametr, o který věk se násobí při získávání sledování nadmořské výšky. Toto je chybový termín. To znamená, že předpokládá, že výška je předpovězena věkem s určitou chybou.

Platný formulář musí odpovídat všem informačním bodům. Přímý směr (úroveň i=b 0 + b 1agei) tedy nemůže být rovnicí pro datový model - pokud jasně neodpovídá absolutně všem bodům. Tjbez výjimky všechny informace leží bezchybně na lince. Mezní hodnotu chyby εi je nutné zadat do rovnice tak, aby formulář odpovídal absolutně všem informacím.

Abychom mohli provést statistickou inferenci, musíme nejprve předpokládat určitá rozdělení pravděpodobnosti pro ε i. Například lze předpokládat, že distribuce ε i mají Gaussův tvar s nulovým průměrem. V tomto případě bude mít model 3 parametry: b 0, b 1 a rozptyl Gaussova rozdělení.

Formálně můžete specifikovat model jako (S, P).

V tomto příkladu je model definován specifikací S, takže lze o P učinit určité předpoklady. Existují dvě možnosti:

Tento růst lze aproximovat lineární funkcí věku;

Že chyby v aproximaci jsou distribuovány jako uvnitř Gaussova.

Obecné poznámky

Statistické parametry modelů jsou speciální třídou matematické projekce. Čím se jeden druh liší od druhého? Statistický model je tedy nedeterministický. V něm tedy na rozdíl od matematických rovnic určité proměnné nemají určité hodnoty, ale místo toho mají rozložení možností. To znamená, že jednotlivé proměnné jsou považovány za stochastické. Ve výše uvedeném příkladu je ε stochastická proměnná. Bez něj by byla projekce deterministická.

Často se používá sestavení statistického modelu, i když je materiálový proces považován za deterministický. Například házení mincí je v principu předurčující akce. To je však stále ve většině případů modelováno jako stochastické (prostřednictvím Bernoulliho procesu).

Podle Konishi a Kitagawy existují tři cíle pro statistický model:

  • Předpovědi.
  • Těžba informací.
  • Popis stochastických struktur.

Velikost promítání

Předpokládejme, že existuje statistický predikční model, Model se nazývá parametrický, pokud má O konečný rozměr. V řešení musíte napsat, že

Rozdíl modelu
Rozdíl modelu

kde k je kladné celé číslo (R znamená jakákoli reálná čísla). Zde se k nazývá rozměr modelu.

Jako příklad můžeme předpokládat, že všechna data pocházejí z jednorozměrné Gaussovy distribuce:

Vzorec statistiky
Vzorec statistiky

V tomto příkladu je rozměr k 2.

A jako další příklad lze předpokládat, že data se skládají z (x, y) bodů, o kterých se předpokládá, že jsou distribuovány v přímce s Gaussovými rezidui (s nulovým průměrem). Pak je dimenze statistického ekonomického modelu rovna 3: průsečík přímky, její sklon a rozptyl distribuce reziduí. Je třeba poznamenat, že v geometrii má přímka rozměr 1.

Přestože výše uvedená hodnota je technicky jediným parametrem, který má rozměr k, někdy se má za to, že obsahuje k odlišných hodnot. Například u jednorozměrného Gaussova rozdělení je O jediný parametr o velikosti 2, ale někdy se má za to, že obsahuje dvaindividuální parametr – střední hodnota a směrodatná odchylka.

Statistický procesní model je neparametrický, pokud je sada hodnot O nekonečně-rozměrná. Je také semiparametrický, pokud má jak konečnorozměrné, tak nekonečněrozměrné parametry. Formálně, pokud k je rozměr O a n je počet vzorků, semiparametrické a neparametrické modely mají

Modelová formule
Modelová formule

pak je model semiparametrický. Jinak je projekce neparametrická.

Parametrické modely jsou nejčastěji používané statistiky. Pokud jde o semiparametrické a neparametrické projekce, Sir David Cox uvedl:

"Obvykle zahrnují nejmenší počet hypotéz o struktuře a tvaru distribuce, ale zahrnují silné teorie o soběstačnosti."

Vnořené modely

Nepleťte si je s víceúrovňovými projekcemi.

Dva statistické modely jsou vnořeny, pokud lze první převést na druhý uložením omezení na parametry prvního. Například množina všech Gaussových distribucí má vnořenou množinu nulových středních distribucí:

To znamená, že musíte omezit průměr v množině všech Gaussových rozdělení, abyste získali rozdělení s nulovým průměrem. Jako druhý příklad má kvadratický model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) vložený lineární model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) – tj. parametr b2 je roven 0.

V obou těchto příkladech má první model větší rozměr než druhý model. To je často, ale ne vždy. Dalším příkladem je množina Gaussových rozdělení s kladným průměrem, která má rozměr 2.

Porovnání modelů

statistický model
statistický model

Předpokládá se, že v pozadí pozorovaných dat existuje „skutečné“rozdělení pravděpodobnosti vyvolané procesem, který je vygeneroval.

A také modely lze vzájemně porovnávat pomocí průzkumné analýzy nebo konfirmace. V průzkumné analýze jsou formulovány různé modely a je hodnoceno, jak dobře každý z nich popisuje data. V konfirmační analýze je dříve formulovaná hypotéza porovnána s původní. Mezi běžná kritéria patří P 2, Bayesovský faktor a relativní pravděpodobnost.

Konishi a Kitagawa's Thought

„Většinu problémů ve statistickém matematickém modelu lze považovat za prediktivní otázky. Obvykle jsou formulovány jako srovnání několika faktorů.“

Sir David Cox dále řekl: „Jako překlad z tématu je problém ve statistickém modelu často nejdůležitější součástí analýzy.“

Doporučuje: