Statistické informace: sběr, zpracování, analýza

Obsah:

Statistické informace: sběr, zpracování, analýza
Statistické informace: sběr, zpracování, analýza
Anonim

V průběhu historie statistik byly učiněny různé pokusy vytvořit taxonomii úrovní měření. Psychofyzik Stanley Smith Stevens definoval nominální, ordinální, intervalové a proporcionální stupnice.

Nominální měření nemají žádné významné pořadí mezi hodnotami a umožňují jakýkoli převod jedna ku jedné.

Běžné dimenze mají nepřesné rozdíly mezi po sobě jdoucími hodnotami, ale mají specifické pořadí těchto hodnot a umožňují jakoukoli transformaci zachovávající pořadí.

Intervalová měření mají smysluplné vzdálenosti mezi body, ale nulová hodnota je libovolná (jako v případě měření zeměpisné délky a teploty ve stupních Celsia nebo Fahrenheita) a umožňuje jakoukoli lineární transformaci.

Poměrové rozměry mají jak smysluplnou nulovou hodnotu, tak vzdálenosti mezi různými rozměry a umožňují jakoukoli transformaci měřítka.

Image
Image

Proměnné a klasifikace informací

Protože proměnnéodpovídající pouze nominálním nebo ordinálním měřením nelze rozumně měřit numericky a někdy jsou seskupeny jako kategorické proměnné. Poměrová a intervalová měření jsou seskupena jako kvantitativní proměnné, které mohou být buď diskrétní, nebo spojité kvůli své číselné povaze. Takové rozdíly se často volně vztahují k datovému typu v informatice, protože dichotomické kategorické proměnné mohou být reprezentovány booleovskými hodnotami, polytomické kategorické proměnné s libovolnými celými čísly v integrálním datovém typu a spojité proměnné s reálnými komponentami, které zahrnují výpočty s plovoucí desetinnou čárkou. Zobrazení datových typů statistických informací však závisí na použité klasifikaci.

Statistické informace o pracovnících
Statistické informace o pracovnících

Další klasifikace

Byly vytvořeny i další klasifikace statistických dat (informací). Například Mosteller a Tukey rozlišovali mezi stupni, hodnostmi, počítanými akciemi, počty, částkami a zůstatky. Nelder svého času popsal kontinuální počty, spojité poměry, korelaci počtů a kategorické způsoby sdělování dat. Všechny tyto klasifikační metody se používají při sběru statistických informací.

Problémy

Otázku, zda je vhodné aplikovat různé druhy statistických metod na data získaná různými postupy měření (sběru), komplikují problémy související s převodem proměnných a přesnou interpretací otázekvýzkum. „Vztah mezi daty a tím, co popisují, jednoduše odráží skutečnost, že určité druhy statistických tvrzení mohou mít pravdivé hodnoty, které nejsou při určitých transformacích neměnné. Zda transformace stojí za zvážení, závisí na otázce, na kterou se snažíte odpovědět.

Příklad statistických informací
Příklad statistických informací

Co je to datový typ

Datový typ je základní složkou sémantického obsahu proměnné a řídí, jaké druhy rozdělení pravděpodobnosti lze logicky použít k popisu proměnné, operací s ní povolených, typu regresní analýzy použité k její predikci, atd. Koncept datového typu je podobný na konceptu úrovně měření, ale specifičtější - například počty dat vyžadují jiné rozdělení (Poissonovo nebo binomické) než pro nezáporné reálné hodnoty, ale obě spadají pod stejné úroveň měření (škála koeficientů).

Statistické informace o soudcích
Statistické informace o soudcích

Váhy

Byly učiněny různé pokusy vytvořit taxonomii úrovní měření pro zpracování statistických informací. Psychofyzik Stanley Smith Stevens definoval nominální, ordinální, intervalové a proporcionální stupnice. Nominální měření nemají významné pořadí mezi hodnotami a umožňují jakýkoli převod jedna ku jedné. Běžná měření mají nepřesné rozdíly mezi po sobě jdoucími hodnotami, ale liší se ve významném pořadí těchto hodnot a umožňujíjakákoli transformace zachovávající řád. Intervalová měření mají smysluplné vzdálenosti mezi měřeními, ale nulová hodnota je libovolná (jako v případě měření zeměpisné délky a teploty ve stupních Celsia nebo Fahrenheita) a umožňuje jakoukoli lineární transformaci. Poměrové rozměry mají jak smysluplnou nulovou hodnotu, tak i vzdálenosti mezi různými definovanými rozměry a umožňují jakoukoli transformaci měřítka.

Diagramový model
Diagramový model

Data, která nelze popsat pomocí jediného čísla, jsou často zahrnuta do náhodných vektorů skutečných náhodných proměnných, i když existuje rostoucí trend zpracovávat je sami. Takové příklady budou diskutovány níže.

Náhodné vektory

Jednotlivé prvky mohou, ale nemusí být ve vzájemném vztahu. Příklady distribucí používaných k popisu korelovaných náhodných vektorů jsou vícerozměrné normální rozdělení a vícerozměrné t-rozdělení. Obecně platí, že mezi jakýmikoli prvky mohou existovat libovolné korelace, které se však od určité velikosti často stávají neovladatelné, což vyžaduje další omezení na korelované komponenty.

statistické atributy
statistické atributy

Náhodné matice

Náhodné matice lze uspořádat lineárně a zacházet s nimi jako s náhodnými vektory, nemusí to však být účinný způsob, jak reprezentovat korelace mezi různými prvky. Některá rozdělení pravděpodobnosti jsou specificky navržena pro náhodné matice, jako je normální maticedistribuce a distribuce Wishart.

Náhodné sekvence

Někdy jsou považovány za stejné jako náhodné vektory, ale v jiných případech je tento termín aplikován specificky na případy, kdy každá náhodná proměnná koreluje pouze s blízkými proměnnými (jako v Markovově modelu). Toto je speciální případ Bayesovské sítě a používá se pro velmi dlouhé sekvence, jako jsou genové řetězce nebo dlouhé textové dokumenty. Řada modelů je speciálně navržena pro takové sekvence, jako jsou skryté Markovovy sekvence.

Typický graf
Typický graf

Náhodné procesy

Podobají se náhodným sekvencím, ale pouze v případě, že délka sekvence je neurčitá nebo nekonečná a prvky v sekvenci jsou zpracovávány jeden po druhém. To se často používá pro data, která lze popsat jako časové řady. To platí, pokud jde například o cenu akcií následující den.

Závěr

Analýza statistických informací zcela závisí na kvalitě jejich sběru. To druhé zase silně souvisí s možnostmi jeho klasifikace. Samozřejmě existuje mnoho druhů klasifikace statistických informací, o čemž se čtenář mohl přesvědčit při čtení tohoto článku. Přesto přítomnost účinných nástrojů a dobrá znalost matematiky, stejně jako znalosti z oblasti sociologie, udělá své a umožní vám provádět jakýkoli průzkum nebo studii bez výrazných oprav chyb. Zdroje statistických informací ve formulářilidé, organizace a další subjekty sociologie jsou naštěstí zastoupeny velmi hojně. A žádné potíže nemohou stát v cestě skutečnému průzkumníkovi.

Doporučuje: