Bayesovské sítě: definice, příklady a jak fungují

Obsah:

Bayesovské sítě: definice, příklady a jak fungují
Bayesovské sítě: definice, příklady a jak fungují
Anonim

Víra, rozhodovací síť, Bayesovský (ianovský) model nebo pravděpodobnostně řízený acyklický grafový model je variantní schéma (typ statistického modelu), které představuje soubor proměnných a jejich podmíněných závislostí prostřednictvím směrovaného acyklického grafu (DAG).

Bayesovská síť může například představovat pravděpodobnostní vztahy mezi nemocemi a symptomy. Vzhledem k tomu druhému lze síť použít k výpočtu možnosti mít různé nemoci. Ve videu níže můžete vidět příklad Bayesovské sítě přesvědčení s výpočty.

Image
Image

Efektivita

Efektivní algoritmy mohou provádět vyvozování a učení v bayesovských sítích. Sítě, které modelují proměnné (jako jsou řečové signály nebo proteinové sekvence), se nazývají dynamické sítě. Zobecnění bayesovských sítí, které mohou reprezentovat a řešit problémy za nejistoty, se nazývají diagramy vlivu.

Essence

FormálněBayesovské sítě jsou DAGy, jejichž uzly představují proměnné v Bayesovském smyslu: mohou to být pozorované hodnoty, skryté proměnné, neznámé parametry nebo hypotézy. Protože je to velmi zajímavé.

Příklad bayesovské sítě

Vlhkost trávy mohou způsobit dvě události: aktivní postřikovač nebo déšť. Déšť má přímý vliv na používání sprinkleru (a sice, že když prší, sprinkler je obvykle neaktivní). Tuto situaci lze modelovat pomocí Bayesovské sítě.

Typický vzorec
Typický vzorec

Simulace

Protože Bayesovská síť je kompletní model pro své proměnné a jejich vztahy, lze ji použít k zodpovězení pravděpodobnostních dotazů na ně. Může být například použit k aktualizaci znalostí o stavu podmnožiny proměnných, když jsou pozorována jiná data (evidenční proměnné). Tento zajímavý proces se nazývá pravděpodobnostní inference.

A posteriori poskytuje univerzálně dostatečnou statistiku pro vyhledávací aplikace při výběru hodnot pro podmnožinu proměnných. Tento algoritmus lze tedy považovat za mechanismus pro automatickou aplikaci Bayesova teorému na komplexní problémy. Na obrázcích v článku můžete vidět příklady bayesovských sítí víry.

Praktická bayesovská síť
Praktická bayesovská síť

Výstupní metody

Nejběžnější metody exaktní inference jsou: eliminace proměnné, která eliminuje (integrací nebo sumací) nepozorovatelnénedotazovací parametry jeden po druhém přidělením částky k produktu.

Šíření „stromu“kliknutím, který ukládá výpočty do mezipaměti, takže lze dotazovat mnoho proměnných najednou a rychle šířit nové důkazy; a rekurzivní párování a/nebo vyhledávání, které umožňují kompromisy mezi prostorem a časem a shodují se s účinností eliminace proměnných při použití dostatečného prostoru.

Všechny tyto metody mají zvláštní složitost, která exponenciálně závisí na délce sítě. Nejběžnějšími přibližnými inferenčními algoritmy jsou eliminace mini-segmentů, cyklické šíření přesvědčení, zobecněné šíření přesvědčení a variační metody.

Typy sítí
Typy sítí

Networking

Aby bylo možné plně specifikovat Bayesovskou síť a tedy plně reprezentovat společné rozdělení pravděpodobnosti, je nutné pro každý uzel X specifikovat rozdělení pravděpodobnosti pro X kvůli rodičům X.

Podmíněná distribuce X jeho rodiči může mít jakoukoli formu. Je běžné pracovat s diskrétními nebo Gaussovými rozděleními, protože to zjednodušuje výpočty. Někdy jsou známa pouze distribuční omezení. Poté můžete použít entropii k určení jediné distribuce, která má nejvyšší entropii vzhledem k omezením.

Podobně, ve specifickém kontextu dynamické Bayesovské sítě, podmíněná distribuce pro časovou evoluci latentníhostav je obvykle nastaven tak, aby maximalizoval rychlost entropie implikovaného náhodného procesu.

Bayesovská síť důvěry
Bayesovská síť důvěry

Přímá maximalizace pravděpodobnosti (nebo pozdější pravděpodobnosti) je často složitá vzhledem k přítomnosti nepozorovaných proměnných. To platí zejména pro Bayesovskou rozhodovací síť.

Klasický přístup

Klasickým přístupem k tomuto problému je algoritmus maximalizace očekávání, který střídá výpočet očekávaných hodnot nepozorovaných proměnných závislých na pozorovaných datech s maximalizací celkové pravděpodobnosti (nebo pozdější hodnoty), za předpokladu, že dříve vypočítaná očekávaná hodnoty jsou správné. Za podmínek mírné pravidelnosti tento proces konverguje v maximálních (nebo maximálních a posteriori) hodnotách parametrů.

Ucelenější bayesovský přístup k parametrům je zacházet s nimi jako s dalšími nepozorovanými proměnnými a vypočítat plnou zadní distribuci ve všech uzlech na základě pozorovaných dat a poté parametry integrovat. Tento přístup může být nákladný a jeho výsledkem jsou velké modely, díky nimž jsou klasické přístupy k ladění parametrů dostupnější.

V nejjednodušším případě je Bayesovská síť definována odborníkem a poté použita k provedení odvození. V jiných aplikacích je úloha určování pro člověka příliš obtížná. V tomto případě se mezi daty musí naučit struktura Bayesovské neuronové sítě a parametry lokálních distribucí.

Bayesovské sítě
Bayesovské sítě

Alternativní metoda

Alternativní metoda strukturovaného učení využívá optimalizační vyhledávání. To vyžaduje použití hodnotící funkce a vyhledávací strategie. Obvyklý skórovací algoritmus je zadní pravděpodobnost struktury dané trénovacími daty, jako je BIC nebo BDeu.

Čas potřebný pro vyčerpávající vyhledávání, které vrátí strukturu, která maximalizuje skóre, je superexponenciální v počtu proměnných. Strategie místního vyhledávání provádí postupné změny, aby se zlepšil odhad struktury. Friedman a jeho kolegové zvažovali použití vzájemné informace mezi proměnnými k nalezení požadované struktury. Omezují množinu nadřazených kandidátů na k uzlů a důkladně je prohledávají.

Zvlášť rychlou metodou pro přesné studium BN je představit si problém jako optimalizační problém a vyřešit jej pomocí celočíselného programování. Omezení acykličnosti se přidávají do celočíselného programu (IP) během řešení ve formě řezných rovin. Taková metoda zvládne problémy až se 100 proměnnými.

Grafy a sítě
Grafy a sítě

Řešení problémů

Pro řešení problémů s tisíci proměnnými je zapotřebí jiný přístup. Jedním z nich je nejprve vybrat jednu objednávku a poté najít optimální strukturu BN s ohledem na tuto objednávku. To znamená pracovat ve vyhledávacím prostoru možného řazení, což je výhodné, protože je menší než prostor síťových struktur. Poté se vybere a vyhodnotí několik zakázek. Tato metoda se ukázalanejlépe dostupné v literatuře, když je počet proměnných obrovský.

Další metodou je zaměřit se na podtřídu rozložitelných modelů, pro které jsou MLE uzavřeny. Pak můžete najít konzistentní strukturu pro stovky proměnných.

Studium bayesovských sítí s omezenou šířkou tří čar je nezbytné pro poskytnutí přesné a interpretovatelné inference, protože složitost nejhoršího případu je exponenciální v délce stromu k (podle hypotézy exponenciálního času). Jako globální vlastnost grafu však značně zvyšuje složitost procesu učení. V této souvislosti lze K-strom využít k efektivnímu učení.

Krátká síť
Krátká síť

Vývoj

Vývoj Bayesovské sítě důvěry často začíná vytvořením DAG G tak, že X splňuje místní Markovovu vlastnost s ohledem na G. Někdy je to kauzální DAG. Odhaduje se podmíněná rozdělení pravděpodobnosti každé proměnné nad jejími rodiči v G. V mnoha případech, zejména když jsou proměnné diskrétní, pokud je společné rozdělení X součinem těchto podmíněných rozdělení, pak se X stane Bayesovskou sítí vzhledem k G.

Markovova "uzelová přikrývka" je sada uzlů. Markovova přikrývka činí uzel nezávislým na zbytku polotovaru uzlu se stejným názvem a má dostatečné znalosti pro výpočet jeho rozložení. X je Bayesovská síť vzhledem k G, pokud je každý uzel podmíněně nezávislý na všech ostatních uzlech, daný jeho Markoviandeka.

Doporučuje: