Testování hypotéz je nezbytný postup ve statistice. Test hypotézy vyhodnocuje dva vzájemně se vylučující výroky, aby určil, který výrok je nejlépe podpořen ukázkovými daty. Když je nález považován za statisticky významný, je to způsobeno testem hypotézy.
Metody ověření
Metody pro testování statistických hypotéz jsou metody statistické analýzy. Obvykle se porovnávají dvě sady statistik nebo se porovnává vzorkovaný soubor dat se souborem syntetických dat z idealizovaného modelu. Data musí být interpretována tak, aby přidala nové významy. Můžete je interpretovat tak, že předpokládáte určitou strukturu konečného výsledku a pomocí statistických metod daný předpoklad potvrdíte nebo zamítnete. Předpoklad se nazývá hypotéza a statistické testy používané pro tento účel se nazývají statistické hypotézy.
H0 a H1 hypotézy
Existují dvě hlavníkoncepty statistického testování hypotéz - tzv. "hlavní, neboli nulová hypotéza" a " alternativní hypotéza". Říká se jim také Neyman-Pearsonovy hypotézy. Statistický testovací předpoklad se nazývá nulová hypotéza, hlavní hypotéza nebo zkráceně H0. Často se označuje jako výchozí předpoklad nebo předpoklad, že se nic nezměnilo. Porušení testovacího předpokladu se často označuje jako první hypotéza, alternativní hypotéza nebo H1. H1 je zkratka pro nějakou jinou hypotézu, protože vše, co o ní víme, je, že data H0 lze zahodit.
Před zamítnutím nebo nezamítnutím nulové hypotézy je nutné interpretovat výsledek testu. Srovnání je považováno za statisticky významné, pokud je nepravděpodobné, že vztah mezi datovými soubory je implementací nulové hypotézy podle prahové pravděpodobnosti - hladiny významnosti. Existují také kritéria dobré shody pro testování statistických hypotéz. Toto je název kritéria testu hypotéz, které je spojeno s předpokládaným zákonem neznámého rozdělení. Toto je numerická míra nesouladu mezi empirickým a teoretickým rozdělením.
Postup a kritéria pro testování statistických hypotéz
Nejběžnější metody výběru hypotéz jsou založeny buď na informačním kritériu Akaike, nebo na Bayesově koeficientu. Testování statistických hypotéz je klíčovou technikou jak v inferenci, tak v Bayesovské inferenci, ačkoli tyto dva typy mají značné rozdíly. Testy statistických hypotézdefinovat postup, který řídí pravděpodobnost chybného rozhodnutí o nesprávné výchozí nebo nulové hypotéze. Postup je založen na pravděpodobnosti, že bude fungovat. Tato pravděpodobnost chybného rozhodnutí je nepravděpodobnost, že nulová hypotéza je pravdivá a že neexistuje žádná konkrétní alternativní hypotéza. Test nemůže ukázat, zda je pravdivý nebo nepravdivý.
Alternativní metody teorie rozhodování
Existují alternativní metody teorie rozhodování, ve kterých jsou nulová a první hypotéza považovány za rovnocennější. Jiné rozhodovací přístupy, jako je Bayesovská teorie, se spíše pokoušejí vyvážit důsledky špatných rozhodnutí napříč všemi možnostmi, než aby se zaměřovaly na jedinou nulovou hypotézu. Řada dalších přístupů k rozhodování, která z hypotéz je správná, je založena na datech, které z nich mají požadované vlastnosti. Testování hypotéz je však dominantním přístupem k analýze dat v mnoha oblastech vědy.
Testování statistické hypotézy
Kdykoli se jeden soubor výsledků liší od jiného souboru, je třeba se spolehnout na statistické testování hypotéz nebo testy statistických hypotéz. Jejich interpretace vyžaduje správné pochopení p-hodnot a kritických hodnot. Je také důležité pochopit, že bez ohledu na úroveň významnosti mohou testy stále obsahovat chyby. Závěr proto nemusí být správný.
Proces testování se skládá zvíce kroků:
- Vytváří se počáteční hypotéza pro výzkum.
- Jsou označeny relevantní nulové a alternativní hypotézy.
- Vysvětluje statistické předpoklady o vzorku v testu.
- Určení, který test je vhodný.
- Vyberte hladinu významnosti a práh pravděpodobnosti, pod kterým bude nulová hypotéza zamítnuta.
- Rozdělení statistiky testu nulové hypotézy ukazuje možné hodnoty, při kterých je nulová hypotéza zamítnuta.
- Probíhá výpočet.
- Je učiněno rozhodnutí zamítnout nebo přijmout nulovou hypotézu ve prospěch alternativy.
Existuje alternativa, která používá p-hodnotu.
Testy významnosti
Čistá data nemají bez interpretace praktické využití. Ve statistice, pokud jde o kladení otázek o datech a interpretaci výsledků, se statistické metody používají k zajištění přesnosti nebo pravděpodobnosti odpovědí. Při testování statistických hypotéz se tato třída metod nazývá statistické testování nebo testy významnosti. Termín „hypotéza“připomíná vědecké metody, kde se zkoumají hypotézy a teorie. Ve statistice je výsledkem testu hypotézy množství daného předpokladu. Umožňuje vám interpretovat, zda je předpoklad pravdivý nebo zda došlo k porušení.
Statistická interpretace testů
Testy hypotézse používají k určení, které výsledky výzkumu povedou k zamítnutí nulové hypotézy pro předem stanovenou hladinu významnosti. Výsledky testu statistických hypotéz je nutné interpretovat tak, aby se na něm mohlo pokračovat. Existují dvě běžné formy kritérií testování statistických hypotéz. Jedná se o p-hodnotu a kritické hodnoty. V závislosti na zvoleném kritériu musí být získané výsledky interpretovány odlišně.
Co je to p-hodnota
Výstup je popsán jako statisticky významný při interpretaci p-hodnoty. Ve skutečnosti tento indikátor znamená pravděpodobnost chyby v případě zamítnutí nulové hypotézy. Jinými slovy, lze jej použít k pojmenování hodnoty, kterou lze použít k interpretaci nebo kvantifikaci výsledku testu a ke stanovení pravděpodobnosti chyby při zamítnutí nulové hypotézy. Můžete například provést test normality na vzorku dat a zjistit, že existuje jen malá pravděpodobnost odlehlých hodnot. Nulová hypotéza však nemusí být zamítnuta. Test statistické hypotézy může vrátit p-hodnotu. To se provádí porovnáním hodnoty p s předem stanovenou prahovou hodnotou nazývanou hladina významnosti.
Úroveň významnosti
Hladina významnosti se často píše s řeckým malým písmenem „alfa“. Obecná hodnota použitá pro alfa je 5 % neboli 0,05. Menší hodnota alfa naznačuje spolehlivější interpretaci nulové hypotézy. P-hodnota je porovnána spředem zvolenou hodnotu alfa. Výsledek je statisticky významný, pokud je p-hodnota menší než alfa. Hladinu významnosti lze převrátit odečtením od jedné. To se provádí za účelem stanovení úrovně spolehlivosti hypotézy dané pozorovanými daty vzorku. Při použití této metody testování statistických hypotéz je P-hodnota pravděpodobnostní. To znamená, že v procesu interpretace výsledku statistického testu člověk neví, co je pravda nebo ne.
Teorie testování statistických hypotéz
Zamítnutí nulové hypotézy znamená, že existuje dostatek statistických důkazů, že to vypadá pravděpodobně. V opačném případě to znamená, že není dostatek statistik k jejímu zamítnutí. O statistických testech lze uvažovat ve smyslu dichotomie odmítnutí a přijetí nulové hypotézy. Nebezpečí statistického testování nulové hypotézy spočívá v tom, že pokud bude přijata, může se zdát, že je pravdivá. Místo toho by bylo správnější říci, že nulová hypotéza není zamítnuta, protože neexistuje dostatek statistických důkazů k jejímu zamítnutí.
Tento moment často mate nováčky navíc. V takovém případě je důležité si připomenout, že výsledek je pravděpodobnostní a že i přijetí nulové hypotézy má stále malou šanci na chybu.
Pravdivá nebo nepravdivá nulová hypotéza
Výklad hodnoty p neznamená nuluhypotéza je pravdivá nebo nepravdivá. To znamená, že byla učiněna volba zamítnout nebo nezamítnout nulovou hypotézu na určité hladině statistické významnosti na základě empirických dat a zvoleného statistického testu. Proto lze p-hodnotu chápat jako pravděpodobnost dat uvedených za předem stanoveného předpokladu začleněného do statistických testů. P-hodnota je mírou toho, s jakou pravděpodobností bude vzorek dat pozorován, pokud je nulová hypotéza pravdivá.
Výklad kritických hodnot
Některé testy nevracejí p. Místo toho mohou vrátit seznam kritických hodnot. Výsledky takové studie jsou interpretovány podobným způsobem. Namísto porovnávání jedné p-hodnoty s předem stanovenou hladinou významnosti se statistika testu porovnává s kritickou hodnotou. Pokud se ukáže, že je méně, znamená to, že nebylo možné zamítnout nulovou hypotézu. Pokud je větší nebo rovna, nulová hypotéza by měla být zamítnuta. Význam algoritmu testování statistických hypotéz a interpretace jeho výsledku je obdobný jako u p-hodnoty. Zvolená hladina významnosti je pravděpodobnostní rozhodnutí zamítnout nebo neodmítnout předpoklad základního testu na základě dat.
Chyby ve statistických testech
Interpretace testu statistické hypotézy je pravděpodobnostní. Úkolem testování statistických hypotéz není najít pravdivé nebo nepravdivé tvrzení. Testovací důkazy mohou být chybné. Pokud například hodnota alfa byla 5 %, znamená to, že většinou 1 z 20nulová hypotéza bude zamítnuta omylem. Nebo nebude kvůli statistickému šumu ve vzorku dat. Vzhledem k tomuto bodu může malá hodnota p, při které je nulová hypotéza zamítnuta, znamenat, že je nepravdivá nebo že došlo k chybě. Pokud dojde k tomuto typu chyby, výsledek se nazývá falešně pozitivní. A taková chyba je chybou prvního druhu při testování statistických hypotéz. Na druhou stranu, pokud je p-hodnota dostatečně velká, aby znamenala zamítnutí nulové hypotézy, může to znamenat, že je pravdivá. Nebo není správné a došlo k nějaké nepravděpodobné události, kvůli které došlo k chybě. Tento typ chyby se nazývá falešně negativní.
Pravděpodobnost chyb
Při testování statistických hypotéz stále existuje možnost, že se dopustíte některého z těchto typů chyb. Falešná data nebo mylné závěry jsou dost pravděpodobné. V ideálním případě by měla být zvolena hladina významnosti, která minimalizuje pravděpodobnost jedné z těchto chyb. Například statistické testování nulových hypotéz může mít velmi nízkou hladinu významnosti. Přestože hladiny významnosti jako 0,05 a 0,01 jsou běžné v mnoha oblastech vědy, nejběžněji používaná hladina významnosti je 310^-7 nebo 0,0000003. Často se označuje jako „5-sigma“. To znamená, že závěr byl náhodný s pravděpodobností 1 ku 3,5 milionu nezávislých opakování experimentů. Příklady testování statistických hypotéz takové chyby často obsahují. To je také důvod, proč je důležité mít nezávislé výsledky.ověření.
Příklady použití statistického ověřování
Existuje několik běžných příkladů testování hypotéz v praxi. Jeden z nejpopulárnějších je známý jako „Ochutnávka čaje“. Dr. Muriel Bristolová, kolegyně zakladatele biometrie Roberta Fishera, tvrdila, že dokáže s jistotou říci, zda byla přidána nejprve do šálku čaje nebo mléka. Fisher se nabídl, že jí dá náhodně osm šálků (čtyři od každé odrůdy). Statistika testu byla jednoduchá: počítání počtu úspěchů při výběru poháru. Kritická oblast byla jediným úspěchem ze 4, možná na základě obvyklého kritéria pravděpodobnosti (< 5 %; 1 ze 70 ≈ 1,4 %). Fisher tvrdil, že alternativní hypotéza není nutná. Paní správně identifikovala každý kalíšek, což bylo považováno za statisticky významný výsledek. Tato zkušenost vedla k Fisherově knize Statistical Methods for Researchers.
Příklad obžalovaného
Procedura statistického soudního řízení je srovnatelná s trestním soudem, kde je obžalovaný považován za nevinného, dokud není jeho vina prokázána. Státní zástupce se snaží prokázat vinu obžalovaného. Obžalovaný může být uznán vinným pouze v případě, že existuje dostatek důkazů pro obvinění. Na začátku řízení jsou dvě hypotézy: "Obžalovaný není vinen" a "Obžalovaný je vinen." Hypotézu neviny lze zamítnout pouze tehdy, když je omyl velmi nepravděpodobný, protože člověk nechce usvědčit nevinného obžalovaného. Taková chyba se nazývá chyba I. typu a její výskytzřídka ovládané. V důsledku tohoto asymetrického chování je častější chyba typu II, tj. zproštění viny pachatele.
Statistiky jsou užitečné při analýze velkého množství dat. Totéž platí pro testování hypotéz, které mohou zdůvodnit závěry, i když žádná vědecká teorie neexistuje. V příkladu s ochutnávkou čaje bylo „zřejmé“, že není žádný rozdíl mezi naléváním mléka do čaje nebo naléváním čaje do mléka.
Skutečná praktická aplikace testování hypotéz zahrnuje:
- testování, zda muži mají více nočních můr než ženy;
- uvedení dokumentu;
- Posouzení vlivu úplňku na chování;
- určení rozsahu, ve kterém může netopýr detekovat hmyz pomocí ozvěny;
- výběr nejlepších prostředků, jak přestat kouřit;
- Kontrola, zda nálepky na nárazníku odrážejí chování majitele vozu.
Testování statistických hypotéz hraje důležitou roli ve statistice obecně a ve statistickém vyvozování. Testování hodnot se používá jako náhrada za tradiční srovnání předpokládané hodnoty a experimentálního výsledku v jádru vědecké metody. Když je teorie schopna pouze předpovídat znaménko vztahu, řízené testy hypotéz mohou být nakonfigurovány tak, že teorii podporuje pouze statisticky významný výsledek. Tato forma teorie hodnocení je nejpřísnějšíkritika používání testování hypotéz.