Metoda shlukování je úkolem seskupovat množinu objektů takovým způsobem, aby se ve stejné skupině navzájem podobaly více než objektům v jiných odvětvích. Je to primární úkol dolování dat a obecná technika statistické analýzy používaná v mnoha oblastech, včetně strojového učení, rozpoznávání vzorů, rozpoznávání obrázků, získávání informací, komprese dat a počítačové grafiky.
Problém s optimalizací
Metoda shlukování sama o sobě není jeden konkrétní algoritmus, ale obecný úkol, který je třeba vyřešit. Toho lze dosáhnout pomocí různých algoritmů, které se výrazně liší v chápání toho, co tvoří skupinu a jak ji efektivně najít. Použití metody shlukování pro tvorbu metasubjektů zahrnuje použití skupiny smalé vzdálenosti mezi členy, husté oblasti prostoru, intervaly nebo určitá statistická rozdělení. Proto lze shlukování formulovat jako problém optimalizace s více cíli.
Vhodná metoda a nastavení parametrů (včetně položek, jako je funkce vzdálenosti, která se má použít, práh hustoty nebo počet očekávaných shluků) závisí na individuální sadě dat a zamýšleném použití výsledků. Analýza jako taková není automatickým úkolem, ale iterativním procesem objevování znalostí nebo interaktivní multi-cílovou optimalizací. Tato metoda shlukování zahrnuje pokusy a omyly. Často je nutné upravit předzpracování dat a parametry modelu, dokud výsledek nedosáhne požadovaných vlastností.
Kromě termínu „shlukování“existuje řada slov s podobným významem, včetně automatické klasifikace, numerické taxonomie, bothryologie a typologické analýzy. Jemné rozdíly často spočívají v použití metody shlukování k vytvoření metasubjektových vztahů. Zatímco při extrakci dat jsou výsledné skupiny zajímavé, při automatické klasifikaci je to již diskriminační síla, která tyto funkce vykonává.
Shluková analýza byla založena na četných pracích Kroebera v roce 1932. Do psychologie ji uvedl Zubin v roce 1938 a Robert Tryon v roce 1939. A tyto práce používá Cattell od roku 1943 k označení klasifikace metod shlukování v teorii.
Term
Pojem „shluk“nelze přesně definovat. To je jeden z důvodů, proč existuje tolik metod shlukování. Existuje společný jmenovatel: skupina datových objektů. Různí výzkumníci však používají různé modely. A každé z těchto použití metod shlukování zahrnuje jiná data. Koncept nalezený různými algoritmy se výrazně liší ve svých vlastnostech.
Použití metody shlukování je klíčem k pochopení rozdílů mezi instrukcemi. Mezi typické vzory shluků patří:
- Centroid s. To je například, když shlukování k-means představuje každý shluk s jedním středním vektorem.
- Model připojení s. Jedná se například o hierarchické shlukování, které vytváří modely založené na konektivitě na dálku.
- Distribuční model s. V tomto případě jsou shluky modelovány pomocí metody shlukování za účelem vytvoření metasubjektových statistických distribucí. Například multivariační normální separace, která je použitelná pro algoritmus maximalizace očekávání.
- Density model s. Jsou to například DBSCAN (Spatial Clustering Algorithm with Noise) a OPTICS (Order Points for Structure Detection), které definují shluky jako spojené husté oblasti v datovém prostoru.
- Model podprostoru c. V biklusterování (také známém jako společné seskupování nebo dva režimy) jsou skupiny modelovány s oběma prvky as příslušnými atributy.
- Model s. Některé algoritmy nevytříbený vztah pro jejich metodu shlukování, aby se generovaly meta-předmětové výsledky a jednoduše poskytovaly seskupování informací.
- Model založený na grafech s. Klika, tedy podmnožina uzlů, taková, že každé dvě spojení v okrajové části lze považovat za prototyp tvaru shluku. Oslabení celkové poptávky je známé jako kvazi-kliky. Přesně stejný název je uveden v shlukovacím algoritmu HCS.
- Neurální modely s. Nejznámější nekontrolovanou sítí je samoorganizující se mapa. A právě tyto modely lze obvykle charakterizovat jako podobné jedné nebo více výše uvedeným metodám shlukování pro tvorbu metasubjektových výsledků. Zahrnuje subprostorové systémy, kdy neuronové sítě implementují nezbytnou formu analýzy hlavních nebo nezávislých komponent.
Tento termín je ve skutečnosti souborem takových skupin, které obvykle obsahují všechny objekty v sadě metod shlukování dat. Kromě toho může indikovat vzájemný vztah shluků, jako je hierarchie systémů zabudovaných do sebe. Seskupení lze rozdělit do následujících aspektů:
- Metoda shlukování tvrdého těžiště. Zde každý objekt patří do skupiny nebo je mimo ni.
- Měkký nebo fuzzy systém. V tomto okamžiku již každý objekt patří do určité míry do libovolného shluku. Říká se jí také metoda fuzzy shlukování c-means.
A jsou možné i jemnější rozdíly. Například:
- Přísné dělení do clusterů. Tadykaždý objekt patří přesně do jedné skupiny.
- Přísné rozdělování do clusterů s odlehlými hodnotami. V tomto případě objekty také nemusí patřit do žádného shluku a být považovány za zbytečné.
- Překrývající se shlukování (také alternativní, s více pohledy). Zde mohou objekty patřit do více než jedné větve. Obvykle zahrnuje pevné shluky.
- Hierarchické metody shlukování. Objekty patřící do podřízené skupiny také patří do nadřazeného subsystému.
- Vytvoření podprostoru. Přestože jsou podobné překrývajícím se shlukům, v rámci jedinečně definovaného systému by se vzájemné skupiny neměly překrývat.
Pokyny
Jak je uvedeno výše, shlukovací algoritmy lze klasifikovat na základě jejich shlukového modelu. Následující přehled uvede pouze nejvýznamnější příklady těchto pokynů. Protože může existovat více než 100 publikovaných algoritmů, ne všechny poskytují modely pro své shluky, a proto je nelze snadno klasifikovat.
Neexistuje žádný objektivně správný shlukovací algoritmus. Ale, jak bylo uvedeno výše, instrukce je vždy v zorném poli pozorovatele. Nejvhodnější shlukovací algoritmus pro konkrétní problém musí být často vybrán experimentálně, pokud neexistuje matematický důvod pro preferování jednoho modelu před jiným. Je třeba poznamenat, že algoritmus navržený pro jeden typ obvykle nefungujedatový soubor, který obsahuje radikálně odlišný předmět. Například k-means nemůže najít nekonvexní skupiny.
Shlukování založené na připojení
Toto spojení je také známé pod svým názvem, hierarchický model. Vychází z typické myšlenky, že předměty jsou více propojeny se sousedními částmi než s těmi mnohem vzdálenějšími. Tyto algoritmy spojují objekty a vytvářejí různé shluky v závislosti na jejich vzdálenosti. Skupinu lze popsat hlavně maximální vzdáleností, která je potřeba k propojení různých částí shluku. Ve všech možných vzdálenostech se vytvoří další skupiny, které lze znázornit pomocí dendrogramu. To vysvětluje, odkud pochází obecný název „hierarchické shlukování“. To znamená, že tyto algoritmy neposkytují jediný oddíl datové sady, ale místo toho poskytují rozsáhlé pořadí pravomocí. Je to díky němu, že v určitých vzdálenostech existuje odtok mezi sebou. V dendrogramu osa y označuje vzdálenost, ve které se shluky spojují. A objekty jsou uspořádány podél linie X tak, aby se skupiny nemíchaly.
Shlukování založené na spojení je celá rodina metod, které se liší způsobem výpočtu vzdáleností. Kromě obvyklého výběru funkcí vzdálenosti musí uživatel rozhodnout také o kritériu připojení. Protože cluster se skládá z několika objektů, existuje mnoho možností pro jeho výpočet. Populární volba je známá jako seskupení s jednou pákou, toto je metodaúplný odkaz, který obsahuje UPGMA nebo WPGMA (nevážený nebo vážený soubor párů s aritmetickým průměrem, také známý jako shlukování středních odkazů). Kromě toho může být hierarchický systém aglomerativní (počínaje jednotlivými prvky a jejich spojováním do skupin) nebo dělící (začínaje úplným souborem dat a rozděluje jej do sekcí).
Distribuované shlukování
Tyto modely nejvíce souvisí se statistikami, které jsou založeny na rozděleních. Clustery lze snadno definovat jako objekty, které s největší pravděpodobností patří do stejné distribuce. Praktickou vlastností tohoto přístupu je, že je velmi podobný způsobu, jakým jsou vytvářeny umělé datové sady. Vzorkováním náhodných objektů z distribuce.
I když je teoretický základ těchto metod vynikající, trpí jedním klíčovým problémem, známým jako overfitting, pokud nejsou stanovena omezení na složitost modelu. Větší sdružení obvykle vysvětlí data lépe, takže je obtížné vybrat správnou metodu.
Gaussův model směsi
Tato metoda využívá všechny druhy algoritmů maximalizace očekávání. Zde je datová sada obvykle modelována s pevným (aby se zabránilo přepsání) počtem Gaussových distribucí, které jsou inicializovány náhodně a jejichž parametry jsou iterativně optimalizovány, aby lépe odpovídaly datové sadě. Tento systém bude konvergovat k lokálnímu optimu. To je důvod, proč několik běhů může dátrůzné výsledky. Aby se dosáhlo co nejtěsnějšího shlukování, jsou funkce často přiřazeny ke Gaussově distribuci, do které s největší pravděpodobností patří. A pro měkčí skupiny to není nutné.
Shlukování založené na distribuci vytváří složité modely, které v konečném důsledku dokážou zachytit korelaci a závislost mezi atributy. Tyto algoritmy však představují další zátěž pro uživatele. Pro mnoho souborů dat z reálného světa nemusí existovat výstižně definovaný matematický model (například předpoklad, že Gaussovo rozdělení je poměrně silný předpoklad).
Shlukování založené na hustotě
V tomto příkladu jsou skupiny v podstatě definovány jako oblasti s vyšší nepropustností než zbytek datové sady. Objekty v těchto vzácných částech, které jsou nezbytné k oddělení všech součástí, jsou obvykle považovány za šum a okrajové body.
Nejpopulárnější metodou shlukování na základě hustoty je DBSCAN (Spatial Noise Clustering Algorithm). Na rozdíl od mnoha novějších metod má dobře definovanou shlukovou komponentu zvanou „dosažitelnost hustoty“. Podobně jako shlukování založené na propojení je založeno na spojovacích bodech v rámci určitých prahových hodnot vzdálenosti. Tato metoda však shromažďuje pouze ty položky, které splňují kritérium hustoty. V původní verzi, definované jako minimální počet dalších objektů v tomto okruhu, se shluk skládá ze všechpoložky související s hustotou (které mohou tvořit skupinu volného tvaru, na rozdíl od mnoha jiných metod) a všechny objekty, které jsou v povoleném rozsahu.
Další zajímavou vlastností DBSCAN je, že jeho složitost je poměrně nízká – vyžaduje lineární počet dotazů na rozsah proti databázi. A neobvyklé je také to, že najde v podstatě stejné výsledky (to je deterministické pro jádro a šumové body, ale ne pro hraniční prvky) v každém běhu. Není tedy nutné jej spouštět vícekrát.
Hlavní nevýhodou DBSCAN a OPTICS je, že očekávají určitý pokles hustoty pro detekci hranic shluků. Například v souborech dat s překrývajícími se gaussovskými distribucemi – běžným případem použití pro umělé objekty – se hranice shluků generované těmito algoritmy často zdají být libovolné. To se děje proto, že hustota skupin neustále klesá. A v gaussovském souboru dat směsi tyto algoritmy téměř vždy překonávají metody, jako je EM shlukování, které jsou schopny přesně modelovat tyto typy systémů.
Mean displacement je shlukovací přístup, ve kterém se každý objekt přesune do nejhustší oblasti v okolí na základě odhadu celého jádra. Nakonec objekty konvergují k lokálním maximům neprostupnosti. Podobně jako u shlukování k-means mohou tyto „atraktory hustoty“sloužit jako zástupci pro datovou sadu. Ale ten průměrný posundokáže detekovat libovolně tvarované shluky podobné DBSCAN. Kvůli nákladnému iteračnímu postupu a odhadu hustoty je průměrný posun obvykle pomalejší než DBSCAN nebo k-Means. Kromě toho je použití typického algoritmu posunu na vysokorozměrná data obtížná kvůli nejednotnému chování odhadu hustoty jádra, což vede k nadměrné fragmentaci koncových částí klastru.
Hodnocení
Ověření výsledků shlukování je stejně obtížné jako samotné shlukování. Mezi oblíbené přístupy patří „interní“skórování (kde je systém redukován na jediné měřítko kvality) a samozřejmě „externí“skórování (kde se shlukování porovnává s existující klasifikací „základní pravdy“). A manuální skóre a nepřímé skóre lidského experta se zjistí zkoumáním užitečnosti shlukování v zamýšlené aplikaci.
Interní příznaková opatření trpí problémem, že představují prvky, které lze samy o sobě považovat za cíle shlukování. Například je možné seskupovat data daná koeficientem siluety, kromě toho, že pro to neexistuje žádný účinný algoritmus. Pomocí takového interního měřítka pro hodnocení je lepší porovnat podobnost optimalizačních problémů.
Vnější značka má podobné problémy. Pokud existují takové nálepky „přízemní pravdy“, není třeba se shlukovat. A v praktických aplikacích takové koncepty obvykle neexistují. Na druhou stranu štítky odrážejí pouze jeden možný oddíl datové sady, což neznamenáže neexistuje žádné jiné (možná ještě lepší) shlukování.
Žádný z těchto přístupů tedy nemůže nakonec posoudit skutečnou kvalitu. To ale vyžaduje lidské hodnocení, které je vysoce subjektivní. Nicméně taková statistika může být informativní při identifikaci špatných shluků. Člověk by však neměl podceňovat subjektivní hodnocení osoby.
Vnitřní značka
Když je výsledek shlukování vyhodnocen na základě dat, která byla sama shlukována, označuje se to jako tento termín. Tyto metody obecně přiřazují nejlepší výsledek algoritmu, který vytváří skupiny s vysokou podobností uvnitř skupin a nízkou mezi skupinami. Jednou z nevýhod používání interních kritérií při hodnocení klastrů je to, že vysoké skóre nemusí nutně vést k efektivním aplikacím pro vyhledávání informací. Toto skóre je také ovlivněno algoritmy, které používají stejný model. Například shlukování k-means přirozeně optimalizuje vzdálenosti prvků a interní kritérium založené na něm pravděpodobně nadhodnocuje výsledné shlukování.
Proto jsou tato vyhodnocovací opatření nejvhodnější pro získání představy o situacích, kdy jeden algoritmus funguje lépe než jiný. To však neznamená, že každá informace poskytuje spolehlivější výsledky než ostatní. Doba platnosti měřená takovým indexem závisí na tvrzení, že struktura v datové sadě existuje. Algoritmus vyvinutý pro některé typy nemá šanci, pokud množina obsahuje radikálnějiné složení nebo pokud hodnocení měří jiná kritéria. Například shlukování k-means může najít pouze konvexní shluky a mnoho indexů skóre předpokládá stejný formát. V souboru dat s nekonvexními modely je nevhodné používat k-means a typická hodnotící kritéria.
Externí hodnocení
U tohoto druhu seskupování jsou výsledky shlukování vyhodnocovány na základě dat, která nebyla použita pro seskupování. To znamená, jako jsou známé štítky tříd a externí testy. Takové otázky se skládají ze sady předem klasifikovaných položek a často je vytvářejí odborníci (lidé). Referenční kity jako takové lze považovat za zlatý standard pro hodnocení. Tyto typy skórovacích metod měří, jak blízko je shlukování daným referenčním třídám. Nedávno se však diskutovalo, zda je to adekvátní pro skutečná data nebo pouze pro syntetické soubory se skutečnou základní pravdou. Protože třídy mohou obsahovat vnitřní strukturu a existující atributy nemusí umožňovat oddělení klastrů. Také z hlediska objevování znalostí nemusí reprodukování známých fakt nutně přinést očekávaný výsledek. Ve speciálním scénáři omezeného shlukování, kde se metainformace (jako jsou štítky tříd) již používají v procesu seskupování, není triviální uchovávat všechny informace pro účely hodnocení.
Nyní je jasné, co neplatí pro metody shlukování a jaké modely se pro tyto účely používají.