Multidimenzionální škálování: definice, cíle, cíle a příklad

Obsah:

Multidimenzionální škálování: definice, cíle, cíle a příklad
Multidimenzionální škálování: definice, cíle, cíle a příklad
Anonim

Multivariační škálování (MDS) je nástroj pro vizualizaci úrovně podobnosti jednotlivých případů v sadě dat. Odkazuje na soubor souvisejících ordinačních metod používaných při vizualizaci informací, zejména k zobrazení informací obsažených v matici vzdálenosti. Jedná se o formu nelineární redukce rozměrů. Algoritmus MDS si klade za cíl umístit každý objekt do N-rozměrného prostoru takovým způsobem, aby vzdálenosti mezi objekty byly zachovány co nejlépe. Každému objektu jsou pak přiřazeny souřadnice v každém z N rozměrů.

Počet rozměrů grafu MDS může přesáhnout 2 a je specifikován a priori. Výběr N=2 optimalizuje umístění objektu pro 2D bodový graf. Příklady vícerozměrného škálování můžete vidět na obrázcích v článku. Příklady se symboly v ruštině jsou zvláště ilustrativní.

Vícerozměrné škálování
Vícerozměrné škálování

Essence

Metoda vícerozměrného škálování (MMS,MDS) je rozšířená sada klasických nástrojů, která zobecňuje postup optimalizace pro sadu ztrátových funkcí a vstupních matic známých vzdáleností s váhami a tak dále. V této souvislosti se užitečná ztrátová funkce nazývá stres, který je často minimalizován postupem zvaným majorizace stresu.

Manuál

Existuje několik možností pro vícerozměrné škálování. Programy MDS automaticky minimalizují zátěž, aby získaly řešení. Jádrem nemetrického algoritmu MDS je proces dvojí optimalizace. Nejprve je třeba najít optimální monotónní proximitní transformaci. Za druhé, konfigurační body musí být optimálně umístěny tak, aby jejich vzdálenosti co možná nejvíce odpovídaly škálovaným hodnotám blízkosti.

Příklad vícerozměrného škálování
Příklad vícerozměrného škálování

Rozšíření

Rozšíření metrického vícerozměrného škálování ve statistikách, kde cílový prostor je libovolný hladký neeuklidovský prostor. Kde rozdíly jsou vzdálenosti na povrchu a cílový prostor je jiný povrch. Tematické programy vám umožní najít přílohu s minimálním zkreslením jednoho povrchu do druhého.

Kroky

Provádění studie pomocí vícerozměrného škálování má několik kroků:

  1. Formulace problému. Jaké proměnné chcete porovnávat? Kolik proměnných chcete porovnat? K jakému účelu bude studie použita?
  2. Získávání vstupních dat. Respondentům je položena řada otázek. U každé dvojice produktů jsou požádáni, aby ohodnotili podobnost (obvykle na 7bodové Likertově škále od velmi podobných po velmi nepodobné). První otázka může být například na Coca-Colu/Pepsi, další na pivo, další na Dr. Peppera atd. Počet otázek závisí na počtu značek.
Měřítko vzdálenosti
Měřítko vzdálenosti

Alternativní přístupy

Existují dva další přístupy. Existuje technika zvaná „Perceptual Data: Derived Approach“, ve které se produkty rozkládají na atributy a hodnocení se provádí na stupnici sémantického diferenciálu. Další metodou je „přístup údajů o preferencích“, při kterém jsou respondenti dotazováni na preference spíše než na podobnosti.

Skládá se z následujících kroků:

  1. Spuštění statistického programu MDS. Software pro provádění postupu je dostupný v mnoha statistických softwarových balíčcích. Často je na výběr mezi metrickým MDS (který se zabývá intervalovými nebo poměrovými daty) a nemetrickým MDS (který se zabývá ordinálními daty).
  2. Určení počtu měření. Výzkumník si musí určit počet měření, která chce na počítači vytvořit. Čím více měření, tím lepší je statistická shoda, ale tím obtížnější je interpretovat výsledky.
  3. Zobrazte výsledky a definujte měření - statistický program (nebo související modul) zobrazí výsledky. Na mapě se zobrazí každý produkt (obvykle ve 2D).prostor). Vzájemná blízkost produktů ukazuje buď na jejich podobnost, nebo preferenci, podle toho, jaký přístup byl použit. Není však vždy jasné, jak měření skutečně odpovídají měřením chování systému. Zde lze provést subjektivní posouzení shody.
  4. Zkontrolujte spolehlivost a validitu výsledků – vypočítejte R-square, abyste určili podíl škálovaného rozptylu dat, který lze zohlednit postupem MDS. Za minimální přijatelnou úroveň se považuje čtverec R 0,6. R na druhou 0,8 je považováno za dobré pro metrické škálování, zatímco 0,9 je považováno za dobré pro nemetrické škálování.
Výsledky vícerozměrného škálování
Výsledky vícerozměrného škálování

Různé testy

Další možné testy jsou zátěžové testy Kruskalova typu, testy rozdělených dat, testy stability dat a testy spolehlivosti opakovaných testů. Napište podrobně o výsledcích v testu. Spolu s mapováním by měla být specifikována alespoň míra vzdálenosti (např. Sorensonův index, Jaccardův index) a spolehlivosti (např. hodnota stresu).

Je také velmi žádoucí zadat algoritmus (např. Kruskal, Mather), který je často určen použitým programem (někdy nahrazuje zprávu o algoritmu), pokud jste zadali počáteční konfiguraci nebo jste měli náhodný výběr, číslo běhů rozměrů, výsledky Monte Carlo, počet iterací, skóre stability a proporcionální rozptyl každé osy (r-čtverec).

Metoda analýzy vizuálních informací a datvícerozměrné škálování

Vizualizace informací je studium interaktivních (vizuálních) reprezentací abstraktních dat za účelem zlepšení lidského poznání. Abstraktní data zahrnují numerická i nenumerická data, jako jsou textové a geografické informace. Informační vizualizace se však liší od vědecké vizualizace: „je informační (vizualizace informací), když je zvolena prostorová reprezentace, a scivis (vědecká vizualizace), když je daná prostorová reprezentace.“

Pole vizualizace informací vzešla z výzkumu interakce člověk-počítač, aplikací počítačových věd, grafiky, vizuálního designu, psychologie a obchodních metod. Stále více se používá jako základní součást vědeckého výzkumu, digitálních knihoven, dolování dat, finančních dat, průzkumu trhu, řízení výroby atd.

Metody a principy

Vizualizace informací naznačuje, že metody vizualizace a interakce využívají bohatosti lidského vnímání a umožňují uživatelům současně vidět, zkoumat a chápat velké množství informací. Informační vizualizace má za cíl vytvořit přístupy pro sdělování abstraktních dat, informací intuitivním způsobem.

Barevné vícerozměrné škálování
Barevné vícerozměrné škálování

Analýza dat je nedílnou součástí veškerého aplikovaného výzkumu a řešení problémů v průmyslu. VětšinaZákladní přístupy k analýze dat jsou vizualizace (histogramy, bodové grafy, povrchové grafy, stromové mapy, paralelní souřadnicové grafy atd.), statistika (testování hypotéz, regrese, PCA atd.), analýza dat (párování atd.)..d.) a metody strojového učení (shlukování, klasifikace, rozhodovací stromy atd.).

Z těchto přístupů je vizualizace informací nebo vizuální analýza dat nejvíce závislá na kognitivních schopnostech analytického personálu a umožňuje objevování nestrukturovaných praktických poznatků, které jsou omezeny pouze lidskou představivostí a kreativitou. Analytik se nemusí učit žádné složité techniky, aby byl schopen interpretovat vizualizace dat. Informační vizualizace je také schéma generování hypotéz, které může a je obvykle doprovázeno více analytickou nebo formální analýzou, jako je statistické testování hypotéz.

Studie

Moderní studium vizualizace začalo počítačovou grafikou, která "od samého počátku sloužila ke studiu vědeckých problémů. V prvních letech však nedostatek grafického výkonu často omezoval její užitečnost. Priorita vizualizace začala vyvinout v roce 1987 vydáním speciálního softwaru pro počítačovou grafiku a vizualizaci ve vědeckých počítačích Od té doby proběhlo několik konferencí a workshopů, které společně organizovaly IEEE Computer Society a ACM SIGGRAPH."

Pokrývali obecná témata vizualizace dat, vizualizace informací a vědecké vizualizace,stejně jako specifičtější oblasti, jako je vykreslování objemu.

Vícerozměrné škálování značky
Vícerozměrné škálování značky

Shrnutí

Generalized Multidimensional Scaling (GMDS) je rozšířením metrického vícerozměrného škálování, ve kterém je cílový prostor neeuklidovský. Když jsou rozdíly ve vzdálenostech na povrchu a cílový prostor je jiný povrch, GMDS vám umožní najít vnoření jednoho povrchu do druhého s minimálním zkreslením.

GMDS je nový směr výzkumu. V současné době jsou hlavními aplikacemi rozpoznávání deformovatelných objektů (například pro rozpoznávání 3D obličeje) a mapování textur.

Účelem vícerozměrného škálování je reprezentovat vícerozměrná data. Multidimenzionální data, tedy data, která k reprezentaci vyžadují více než dva nebo tři rozměry, může být obtížné interpretovat. Jedním přístupem ke zjednodušení je předpokládat, že zájmová data leží na vložené nelineární manifoldu ve vysokorozměrném prostoru. Pokud má kolektor dostatečně nízkou dimenzi, lze data vizualizovat v nízkorozměrném prostoru.

Mnoho z nelineárních metod redukce rozměrů souvisí s lineárními metodami. Nelineární metody lze obecně rozdělit do dvou skupin: ty, které poskytují mapování (buď od vysokorozměrného prostoru k nízkorozměrnému vkládání, nebo naopak), a ty, které jednoduše poskytují vizualizaci. V kontextu strojového učení lze na metody mapování pohlížet jako napředběžná fáze extrakce rysů, po které jsou aplikovány algoritmy rozpoznávání vzorů. Obvykle ty, které poskytují pouze vizualizace, jsou založeny na údajích o přiblížení – tedy měření vzdálenosti. Vícerozměrné škálování je také docela běžné v psychologii a dalších humanitních oborech.

Diagonální vícerozměrné škálování
Diagonální vícerozměrné škálování

Pokud je počet atributů velký, pak je prostor jedinečných možných řetězců také exponenciálně velký. Čím větší je tedy rozměr, tím obtížnější je zobrazení prostoru. To způsobuje spoustu problémů. Algoritmy, které pracují s vysokorozměrnými daty, mívají velmi vysokou časovou složitost. Redukce dat na méně dimenzí často zefektivňuje analytické algoritmy a může pomoci algoritmům strojového učení vytvářet přesnější předpovědi. To je důvod, proč je multidimenzionální škálování dat tak populární.

Doporučuje: