Data mining je Koncept, analýza algoritmů, účel a aplikace

Obsah:

Data mining je Koncept, analýza algoritmů, účel a aplikace
Data mining je Koncept, analýza algoritmů, účel a aplikace
Anonim

Vývoj informačních technologií přináší praktické výsledky. Úkolům, jako je vyhledávání, analyzování a používání informací, se však dosud nedostal účinný vysoce kvalitní nástroj. Existují analytické a kvantitativní nástroje, opravdu fungují. Ale kvalitativní revoluce ve využívání informací zatím nenastala.

Dlouho před nástupem výpočetní techniky potřeboval člověk zpracovávat velké množství informací a vypořádal se s tím podle svých nejlepších zkušeností a dostupných technických možností.

Rozvoj znalostí a dovedností vždy odpovídal skutečným potřebám a odpovídal aktuálním úkolům. Data mining je souhrnný název používaný k označení souboru metod pro objevování dříve neznámých, netriviálních, prakticky užitečných a dostupných znalostí v datech, nezbytných pro rozhodování v různých oblastech lidské činnosti.

Člověk, inteligence, programování

Člověk vždy ví, jak jednat v jakékoli situaci. Neznalost nebo neznámá situace mu nebrání v rozhodování. O objektivitě a rozumnosti jakéhokoli lidského rozhodnutí lze pochybovat, ale bude přijato.

Inteligence je založena na: dědičném „mechanismu“, získaných, aktivních znalostech. Znalosti se používají k řešení problémů, které před člověkem vyvstanou.

  1. Inteligence je jedinečný soubor znalostí a dovedností: příležitosti a základ pro lidský život a práci.
  2. Inteligence se neustále vyvíjí a lidské činy mají dopad na ostatní lidi.

Programování je prvním pokusem o formalizaci reprezentace dat a procesu vytváření algoritmů.

Člověk, inteligence, programování
Člověk, inteligence, programování

Umělá inteligence (AI) je ztráta času a zdrojů, ale výsledky neúspěšných pokusů minulého století v oblasti AI zůstaly v paměti, byly použity v různých expertních (inteligentních) systémech a byly transformovány, zejména do algoritmů (pravidel) a matematické (logické) analýzy dat a dolování dat.

Informace a obvyklé hledání řešení

Obyčejná knihovna je úložištěm znalostí a tištěné slovo a grafika ještě nevydala dlaň počítačové technologii. Knihy o fyzice, chemii, teoretické mechanice, designu, přírodopisu, filozofii, přírodní vědě, botanice, učebnice, monografie, práce vědců, konferenční materiály, zprávy o vývoji atd. jsou vždy relevantní a spolehlivé.

Knihovna je mnoho různých zdrojů, které se lišíforma prezentace materiálu, původ, struktura, obsah, styl prezentace atd.

Knihovna: knihy, časopisy a další tiskoviny
Knihovna: knihy, časopisy a další tiskoviny

Navenek je vše viditelné (čitelné, přístupné) pro pochopení a použití. Dokážete vyřešit jakýkoli problém, správně zadat úkol, zdůvodnit řešení, napsat esej nebo semestrální práci, vybrat materiál pro diplomku, analyzovat zdroje k tématu disertační práce nebo vědecké a analytické zprávy.

Jakýkoli problém s informacemi lze vyřešit. S náležitou vytrvalostí a dovedností bude dosaženo přesného a spolehlivého výsledku. V tomto kontextu je Data Mining zcela odlišný přístup.

Kromě výsledku dostává člověk „aktivní odkazy“na vše, co bylo viděno v procesu dosahování cíle. Na zdroje, které použil při řešení problému, se lze odvolávat a nikdo nebude zpochybňovat existenci zdroje. To není záruka pravosti, ale je to jisté svědectví, komu je odpovědnost za pravost „odhlášena“. Z tohoto pohledu znamená Data Mining velké pochybnosti o spolehlivosti a žádné „aktivní“odkazy.

Řešením několika problémů člověk získá výsledky a rozšíří svůj intelektuální potenciál na mnoho „aktivních vazeb“. Pokud nový úkol „aktivuje“již existující odkaz, osoba bude vědět, jak to vyřešit: není třeba nic znovu hledat.

„Aktivní odkaz“je pevná asociace: jak a co dělat v konkrétním případě. Lidský mozek si automaticky pamatuje vše, co se mu zdá potenciálně zajímavé, užitečné.nebo pravděpodobně bude potřeba v budoucnu. V mnoha ohledech se to děje na podvědomé úrovni, ale jakmile se objeví úkol, který může být spojen s „aktivním odkazem“, okamžitě se objeví v mysli a řešení bude získáno bez dalšího hledání informací. Data Mining je vždy opakováním vyhledávacího algoritmu a tento algoritmus se nemění.

Pravidelné vyhledávání: „umělecké“problémy

Matematická knihovna a vyhledávání informací v ní je poměrně slabý úkol. Najít tak či onak řešení integrálu, sestavení matice nebo provedení operace sečtení dvou imaginárních čísel je pracné, ale jednoduché. Musíte protřídit řadu knih, z nichž mnohé jsou napsány v konkrétním jazyce, najít správný text, prostudovat jej a získat požadované řešení.

Postupem času se výčty seznámí a nasbírané zkušenosti vám umožní orientovat se v knihovních informacích a dalších matematických problémech. Jedná se o omezený informační prostor otázek a odpovědí. Charakteristický rys: takové vyhledávání informací shromažďuje znalosti pro řešení podobných problémů. Hledání informací v člověku zanechává v paměti stopy („aktivní odkazy“) o možných řešeních jiných problémů.

V beletrii najděte odpověď na otázku: "Jak žili lidé v lednu 1248?" velmi obtížné. Ještě obtížnější je odpovědět na otázku, co bylo na pultech obchodů a jak byl organizován obchod s potravinami. I kdyby o tom nějaký spisovatel jasně a přímo psal ve svém románu, pokud by se našlo jméno tohoto spisovatele, pak pochybnosti ospolehlivost přijatých dat zůstane zachována. Spolehlivost je kritickou charakteristikou jakéhokoli množství informací. Důležitý je zdroj, autor a důkazy, které vylučují nepravdivost výsledku.

Objektivní okolnosti konkrétní situace

Člověk vidí, slyší, cítí. Někteří specialisté plynule ovládají jedinečný pocit – intuici. Výrok problému vyžaduje informaci, proces řešení problému je nejčastěji doprovázen zpřesňováním výpovědi problému. Toto je menší problém, který přichází s přesunem informací do útrob počítačového systému.

Informace ve virtuálním prostoru
Informace ve virtuálním prostoru

Knihovna a kolegové z práce jsou nepřímými účastníky rozhodovacího procesu. Design knihy (zdroje), grafika v textu, vlastnosti rozdělení informací do nadpisů, poznámky pod čarou podle slovních spojení, věcný rejstřík, seznam primárních zdrojů - to vše v člověku vyvolává asociace, které nepřímo ovlivňují proces řešení problém.

Zásadní je čas a místo řešení problému. Člověk je tak uspořádán, že v procesu řešení problému nedobrovolně věnuje pozornost všemu, co ho obklopuje. Může to být rušivé, nebo to může být stimulující. Data Mining nikdy „nepochopí“.

Informace ve virtuálním prostoru

Člověk se vždy zajímal pouze o spolehlivé informace o události, jevu, předmětu, algoritmu pro řešení problému. Člověk si vždy přesně představoval, jak může dosáhnout vytouženého cíle.

Vzhled počítačů a informačních systémů měl člověku usnadnit život, ale vše se jen zkomplikovalo. Informace migrovaly do útrob počítačových systémů a zmizely z dohledu. Chcete-li vybrat potřebná data, musíte vytvořit správný algoritmus nebo formulovat dotaz do databáze.

Data uvnitř informačního systému
Data uvnitř informačního systému

Otázka musí být správná. Teprve pak můžete dostat odpověď. Pochybnosti o pravosti však přetrvávají. V tomto smyslu je Data Mining skutečně „výkopy“, je to „extrakce informací“. Takto je módní překládat toto slovní spojení. Ruská verze je technologie data miningu nebo data miningu.

V dílech autoritativních specialistů jsou úkoly dolování dat označeny následovně:

  • classification;
  • clustering;
  • association;
  • sequence;
  • forecasting.

Z pohledu praxe, která člověka vede při ručním zpracování informací, jsou všechny tyto polohy diskutabilní. V každém případě člověk zpracovává informace automaticky a nemyslí na klasifikaci dat, sestavování tematických skupin objektů (shlukování), hledání časových vzorců (sekvence) nebo předpovídání výsledku.

Všechny tyto pozice v lidské mysli jsou reprezentovány aktivními znalostmi, které pokrývají více pozic a dynamicky využívají logiku zpracování výchozích dat. Podvědomí člověka hraje důležitou roli, zvláště když je specialistou v určité oblasti znalostí.

Příklad: Velkoobchod s počítačovým vybavením

Úkol je jednoduchý. Je jich několikdesítky dodavatelů výpočetní techniky a periferií. Každý má ceník ve formátu xls (soubor Excel), který je ke stažení na oficiálních stránkách dodavatele. Je nutné vytvořit webový zdroj, který čte soubory Excel, převádí je do databázových tabulek a umožňuje zákazníkům vybrat si požadované produkty za nejnižší ceny.

Problémy nastanou okamžitě. Každý dodavatel nabízí vlastní verzi struktury a obsahu xls souboru. Soubor můžete získat stažením z webu dodavatele, objednáním e-mailem nebo získáním odkazu ke stažení prostřednictvím vašeho osobního účtu, tedy oficiální registrací u dodavatele.

Virtuální počítačový obchod
Virtuální počítačový obchod

Řešení problému (na úplném začátku) je technologicky jednoduché. Načítání souborů (počáteční data), algoritmus rozpoznávání souborů je napsán pro každého dodavatele a data jsou umístěna do jedné velké tabulky počátečních dat. Po obdržení všech dat, po zavedení mechanismu průběžné výměny (denně, týdně nebo při změně) čerstvých dat:

  • změnit sortiment;
  • změny cen;
  • upřesnění množství na skladě;
  • úprava záručních podmínek, specifikací atd.

Tady začínají skutečné problémy. Jde o to, že dodavatel může napsat:

  • notebook Acer;
  • notebook Asus;
  • Laptop Dell.

Hovoříme o stejném produktu, ale od různých výrobců. Jak sladit notebook=notebook nebo jak odstranit Acer, Asus a Dell z produktové řady?

Pročlověk není problém, ale jak algoritmus „pochopí“, že Acer, Asus, Dell, Samsung, LG, HP, Sony jsou ochranné známky nebo dodavatelé? Jak sladit „tiskárna“a tiskárna, „skener“a „MFP“, „kopírka“a „MFP“, „sluchátka“s „náhlavní soupravou“, „příslušenství“s „příslušenstvím“?

Vytvoření stromu kategorií na základě zdrojových dat (zdrojových souborů) je problém, když potřebujete vše nastavit na automatické.

Vzorkování dat: vykopávky „čerstvě nalitého“

Úkol vytvořit databázi dodavatelů výpočetní techniky byl vyřešen. Byl vytvořen strom kategorií, funguje společná tabulka s nabídkami všech dodavatelů.

Typické úlohy dolování dat v kontextu tohoto příkladu:

  • najděte produkt za nejnižší cenu;
  • vyberte položku s nejnižší cenou dopravy;
  • analýza produktu: vlastnosti a ceny podle kritérií.

Ve skutečné práci manažera využívajícího data od několika desítek dodavatelů bude mnoho variant těchto úkolů a ještě reálnějších situací.

Například existuje dodavatel „A“, který prodává ASUS VivoBook S15: platba předem, dodání 5 dní po skutečném obdržení peněz. Existuje dodavatel "B" stejného produktu stejného modelu: platba při převzetí, dodání po uzavření smlouvy do jednoho dne, cena je jedenapůlkrát vyšší.

Začíná dolování dat – „vykopávky“. Obrazné výrazy: „excavations“nebo „data mining“jsou synonyma. Jde o to, jak získat důvod k rozhodnutí.

Dodavatelé „A“a „B“mají historii dodávek. Školní známkaplatba předem v prvním případě proti platbě při převzetí ve druhém případě, přičemž je třeba vzít v úvahu, že selhání dodávky ve druhém případě je o 65 % vyšší. Riziko sankcí ze strany klienta je vyšší/nižší. Jak a co určit a jaké rozhodnutí učinit?

Na druhou stranu: databázi vytvořil programátor a manažer. Pokud se změnil programátor a manažer, jak zjistit aktuální stav databáze a naučit se ji správně používat? Budete také muset provést dolování dat. Data Mining nabízí řadu matematických a logických metod, které se nestarají o to, jaký druh dat se zkoumá. To poskytuje správné řešení v některých případech, ale ne ve všech.

Přechod do virtuality a hledání smyslu

Metody dolování dat získávají smysl, jakmile jsou informace zapsány do databáze a zmizí z „zorného pole“. Obchodování s počítačovým vybavením je zajímavý úkol, ale je to jen byznys. Jak dobře je ve společnosti organizován, závisí na jejím úspěchu.

Klimatické změny na planetě a počasí v konkrétním městě zajímají každého, nejen profesionální odborníky na klima. Tisíce senzorů snímají údaje o větru, vlhkosti, tlaku a datech z umělých družic Země a existuje historie dat po léta a staletí.

Údaje o počasí nejsou jen o rozhodování, zda si vzít do práce deštník. Technologie dolování dat představují bezpečný let dopravního letadla, stabilní provoz dálnice a spolehlivé dodávky ropných produktů po moři.

„Raw“data jsou odeslána do informacíSystém. Úkolem dolování dat je přeměnit je v systematizovaný systém tabulek, vytvořit propojení, zvýrazňovat skupiny homogenních dat a detekovat vzory.

Podnebí, počasí a nezpracovaná data
Podnebí, počasí a nezpracovaná data

Matematické a logické metody již od dob kvantitativní analýzy OLAP (On-line Analytical Processing) prokázaly svou praktičnost. Zde vám technologie umožňuje najít smysl a neztratit jej, jako v příkladu prodeje počítačového vybavení.

Navíc v globálních úkolech:

  • nadnárodní podnikání;
  • řízení letecké dopravy;
  • studium útrob Země nebo sociálních problémů (na státní úrovni);
  • studium účinku léků na živý organismus;
  • předvídání následků výstavby průmyslového podniku atd.

Technologie Data Mine a přeměna „nesmyslných“dat na skutečná data, která vám umožní činit objektivní rozhodnutí, jsou jedinou možností.

Lidské možnosti končí tam, kde je velké množství nezpracovaných informací. Systémy pro dolování dat ztrácejí svou užitečnost tam, kde je potřeba vidět, chápat a cítit informace.

Rozumné rozdělení funkcí a objektivita

Člověk a počítač by se měli doplňovat – to je axiom. Psaní diplomové práce je pro člověka prioritou a informační systém je pomocníkem. Zde jsou data, která má technologie Data Mining, heuristika, pravidla, algoritmy.

Příprava týdenní předpovědi počasí je prioritou informačního systému. Člověk spravuje data, ale svá rozhodnutí zakládá na výsledcích výpočtů systému. Kombinuje metody dolování dat, specializovanou klasifikaci dat, ruční ovládání aplikace algoritmů, automatické porovnávání minulých dat, matematické prognózování a spoustu znalostí a dovedností skutečných lidí zapojených do aplikace informačního systému.

Člověk a počítač
Člověk a počítač

Teorie pravděpodobnosti a matematická statistika nepatří mezi ty „nejoblíbenější“a nejsrozumitelnější oblasti znalostí. Mnoho specialistů je od nich velmi vzdáleno, ale metody vyvinuté v těchto oblastech dávají téměř 100% správné výsledky. Aplikací systémů založených na myšlenkách, metodách a algoritmech dolování dat lze objektivně a spolehlivě získat řešení. Jinak je prostě nemožné najít řešení.

Faraoni a záhady minulých století

Historie byla pravidelně přepisována:

  • státy – v zájmu svých strategických zájmů;
  • autoritativní vědci – kvůli jejich subjektivnímu přesvědčení.

Je těžké říct, co je pravda a co ne. Použití dolování dat nám umožňuje tento problém vyřešit. Například technologii stavby pyramid popsali kronikáři a vědci ji studovali v různých staletích. Ne všechny materiály se dostaly na internet, ne vše je zde jedinečné a mnoho údajů nemusí mít:

  • popsaný časový okamžik;
  • doba psaní popisu;
  • data, na kterých je popis založen;
  • autoři, názory (odkazy) zohledněny;
  • potvrzení objektivity.

Bknihovny, chrámy a „neočekávaná místa“najdete rukopisy z různých století a hmotné doklady minulosti.

Zajímavý cíl: dát vše dohromady a odhalit „pravdu“. Rys problému: informace lze získat od prvního popisu kronikářem za života faraonů až po současné století, ve kterém je tento problém řešen moderními metodami mnoha vědců.

Odůvodnění použití dolování dat: ruční práce není možná. Příliš mnoho množství:

  • zdroje informací;
  • jazyky reprezentace;
  • výzkumníci popisující stejnou věc různými způsoby;
  • data, události a podmínky;
  • problémy s termínovou korelací;
  • analýza statistik podle skupin dat se může v průběhu času lišit atd.

Koncem minulého století, kdy se další fiasko myšlenky umělé inteligence stalo zřejmým nejen laikům, ale i sofistikovaným specialistům, se objevila myšlenka: „obnovit osobnost“.

Například podle děl Puškina, Gogola, Čechova se utváří určitý systém pravidel, logiky chování a vytváří se informační systém, který dokáže odpovědět na určité otázky tak, jak by to odpovídal člověk: Puškin, Gogol popř. Čechov. Teoreticky je takový úkol zajímavý, ale v praxi je extrémně obtížně realizovatelný.

Myšlenka takového úkolu však naznačuje velmi praktický nápad: "jak vytvořit inteligentní vyhledávání informací." Internet je spousta rozvojových zdrojů, obrovská databáze a to je skvělá příležitost pro aplikaci Data Miningu v kombinaci s člověkemlogika ve formátu společného vývoje.

Stroj a člověk dohromady
Stroj a člověk dohromady

Spárovaný stroj a člověk je vynikající úkol a nepochybný úspěch na poli "informační archeologie", kvalitní vykopávky v datech a výsledcích, které sice leccos zpochybní, ale nepochybně umožní získávat nové znalosti a bude ve společnosti žádaný.

Doporučuje: