Co je korpusová lingvistika?

Obsah:

Co je korpusová lingvistika?
Co je korpusová lingvistika?
Anonim

Před několika desetiletími mohli vědci o automatizaci lingvistického výzkumu jen snít. Práce probíhala ručně, bylo do ní zapojeno velké množství studentů, byla zde značná pravděpodobnost chyby "nepozornosti" a hlavně to všechno zabralo hodně, hodně času.

S rozvojem počítačových technologií bylo možné provádět výzkum mnohem rychleji a dnes je jednou ze slibných oblastí studia jazyka korpusová lingvistika. Jeho hlavním rysem je použití velkého množství textových informací, konsolidovaných do jediné databáze, označených speciálním způsobem a nazývaných korpus.

Dnes existuje mnoho korpusů vytvořených pro různé účely, založených na různém jazykovém materiálu, které pokrývají miliony až desítky miliard lexikálních jednotek. Tento směr je uznáván jako slibný a vykazuje významný pokrok v dosahování aplikovaných a výzkumných cílů. Profesionálové, tak či onakpřirozený jazyk, doporučuje se seznámit se s textovými korpusy alespoň na základní úrovni.

Historie korpusové lingvistiky

Vznik tohoto směru souvisí se vznikem Brown Corps v USA na počátku 60. let minulého století. Sbírka textů se skládala pouze z 1 milionu slovních tvarů a dnes by byl korpus takového objemu zcela bezkonkurenční. Je to z velké části způsobeno tempem vývoje počítačových technologií a také rostoucí poptávkou po nových výzkumných zdrojích.

V 90. letech se korpusová lingvistika zformovala v plnohodnotnou a nezávislou disciplínu, byly sestaveny a označeny sbírky textů pro několik desítek jazyků. Během tohoto období byl například vytvořen British National Corpus pro 100 milionů slovních použití.

korpusová lingvistika
korpusová lingvistika

Jak se tento směr lingvistiky vyvíjí, objem textů se zvětšuje (a dosahuje miliard jednotek slovní zásoby) a značky jsou stále rozmanitější. Dnes v internetovém prostoru najdete korpusy psané i ústní řeči, vícejazyčné i vzdělávací, zaměřené na beletrii nebo akademickou literaturu, a také mnoho dalších druhů.

Jaké případy existují

Typy korpusů v korpusové lingvistice lze reprezentovat několika způsoby. Intuitivně je jasné, že základem pro klasifikaci může být jazyk textů (ruština, němčina), režim přístupu (open source, uzavřený zdroj, komerční), žánr zdrojového materiálu (fikceliteratura, dokument, akademika, žurnalistika).

metody korpusové lingvistiky
metody korpusové lingvistiky

Zajímavým způsobem se provádí generování materiálů představujících ústní projev. Vzhledem k tomu, že záměrné nahrávání takové řeči by pro respondenty vytvářelo umělé podmínky a výsledný materiál by se nedal nazvat „spontánním“, šla moderní korpusová lingvistika jinou cestou. Dobrovolník je vybaven mikrofonem a během dne jsou nahrávány všechny rozhovory, kterých se účastní. Okolní lidé samozřejmě nemohou vědět, že v průběhu každodenní konverzace přispívají k rozvoji vědy.

Později se přijaté zvukové záznamy ukládají do databanky a jsou doprovázeny tištěným textem jako přepis. Tímto způsobem je umožněno označení potřebné k vytvoření korpusu mluvené každodenní řeči.

Aplikace

Tam, kde je možné použít jazyk, je možné použít i textové korpusy. Účel použití korpusových metod v lingvistice může být:

  • Vytváření sentimentálních programů, které jsou široce používány v politice a podnikání ke sledování pozitivní a negativní zpětné vazby od voličů a zákazníků.
  • Připojení informačního systému ke slovníkům a překladatelům za účelem zlepšení jejich výkonu.
  • Různé výzkumné úkoly, které přispívají k pochopení struktury jazyka, historie jeho vývoje a předpovědí jeho změn v blízké budoucnosti.
  • Vývoj systémů pro extrakci informací založených na morfologických,syntaktické, sémantické a další funkce.
  • Optimalizace práce různých lingvistických systémů atd.

Používání skořápek

Rozhraní zdrojů je podobné typickému vyhledávači a vyzve uživatele, aby zadal nějaké slovo nebo kombinaci slov pro vyhledávání v informační databázi. Kromě přesného formuláře žádosti můžete použít rozšířenou verzi, která vám umožní najít textové informace podle téměř jakýchkoli jazykových kritérií.

počítačová a korpusová lingvistika
počítačová a korpusová lingvistika

Základem pro vyhledávání může být:

  • patřící do určité skupiny slovních druhů;
  • gramatické prvky;
  • sémantika;
  • stylové a emocionální zbarvení.

Můžete také kombinovat kritéria vyhledávání pro posloupnost slov: například najít všechny výskyty sloves v přítomném čase, první osobě, jednotném čísle, za kterým následuje předložka „v“a podstatné jméno v akuzativu. Řešení tak jednoduchého úkolu zabere uživateli několik sekund a vyžaduje pouze několik kliknutí myší v daných polích.

Proces tvorby

Samotné vyhledávání lze provádět jak ve všech podkorpusech, tak v jednom, konkrétně vybraném, v závislosti na potřebách při dosahování konkrétního cíle:

  1. Především je určeno, které texty budou tvořit základ korpusu. Pro praktické účely se často používají publicistické, novinové materiály, internetové komentáře. Ve výzkumných projektech nejvícerůzné typy korpusů, ale texty je třeba vybírat na nějakém společném základě.
  2. Výsledná sada textů je předzpracována, případné chyby jsou opraveny, je připraven bibliografický a extralingvistický popis textu.
  3. Všechny netextové informace jsou odfiltrovány: grafika, obrázky, tabulky jsou smazány.
  4. Tokeny, obvykle slova, jsou přiděleny pro další zpracování.
  5. Nakonec se provede morfologické, syntaktické a jiné značení výsledné sady prvků.

Výsledkem všech provedených operací je syntaktická struktura s rozmístěnou množinou prvků, pro každý z nich jsou definovány slovní druhy, gramatické a v některých případech i sémantické rysy.

Potíže s vytvářením případů

Je důležité pochopit, že k získání korpusu nestačí dát dohromady hodně slov nebo vět. Na jedné straně musí být soubor textů vyvážený, to znamená prezentovat různé typy textů v určitých poměrech. Na druhou stranu musí být obsah pouzdra označen zvláštním způsobem.

Zacharovova korpusová lingvistika
Zacharovova korpusová lingvistika

První problém je vyřešen dohodou: například sbírka obsahuje 60 % beletristických textů, 20 % dokumentárních filmů, určitý podíl je věnován písemnému přednesu ústního projevu, legislativních aktů, vědeckých prací atd. Ideální recept na vyvážený korpus dnes neexistuje.

Druhá otázka týkající se značení obsahu je obtížnější vyřešit. Pro automatické značkování textů se používají speciální programy a algoritmy, které však neposkytují 100% výsledek, mohou způsobit selhání a vyžadují ruční dolaďování. Příležitosti a problémy při řešení tohoto problému jsou podrobně popsány v práci V. P. Zakharova o korpusové lingvistice.

Textové značení se provádí na několika úrovních, které uvedeme níže.

Morfologické značení

Ze školní lavice si pamatujeme, že v ruském jazyce existují různé slovní druhy a každý z nich má své vlastní charakteristiky. Například sloveso má kategorie nálady a času, které podstatné jméno nemá. Rodilý mluvčí odmítá podstatná jména a spojuje slovesa bez váhání, ale ruční práce není vhodná pro označení korpusu o 100 milionech slovních použití. Všechny potřebné operace lze provádět pomocí počítače, k tomu je však třeba jej naučit.

Morfologické značení je nezbytné k tomu, aby počítač „porozuměl“každému slovu jako nějakému slovnímu druhu, který má určité gramatické rysy. Protože v ruštině (jako v jakémkoli jiném) jazyce funguje řada regulérních pravidel, je možné sestavit automatický postup pro morfologickou analýzu vložením řady algoritmů do stroje. Existují však výjimky potvrzující pravidlo a také různé komplikující faktory. Výsledkem je, že čistá počítačová analýza má dnes k ideálu daleko a dokonce i 4% chyby dávají hodnotu 4 milionů slov v korpusu 100 milionů jednotek, což vyžaduje ruční upřesnění.

Tento problém je podrobně popsán v knize V. P. Zacharova "Corpus Linguistics".

Syntaktické označení

Syntaktická analýza neboli parsování je postup, který určuje vztah slov ve větě. Pomocí sady algoritmů je možné v textu určit předmět, predikát, sčítání a různé obraty řeči. Když zjistíme, která slova v posloupnosti jsou hlavní a která jsou závislá, můžeme efektivně extrahovat informace z textu a vycvičit stroj tak, aby v reakci na vyhledávací dotaz vrátil pouze ty informace, které nás zajímají.

laboratoře korpusové lingvistiky na ruských univerzitách
laboratoře korpusové lingvistiky na ruských univerzitách

Mimochodem, moderní vyhledávače toho využívají k poskytování konkrétních čísel místo dlouhých textů v reakci na relevantní dotazy jako: „kolik kalorií obsahuje jablko“nebo „vzdálenost z Moskvy do Petrohradu“. Abyste však porozuměli i samotným základům popsaného procesu, budete se muset seznámit s „Úvodem do korpusové lingvistiky“nebo jinou základní učebnicí.

Sémantické označení

Sémantika slova je jednoduše řečeno jeho význam. Široce použitelným přístupem v sémantické analýze je přiřazování značek slovu, což odráží jeho příslušnost k souboru sémantických kategorií a podkategorií. Takové informace jsou cenné pro optimalizaci algoritmů analýzy sentimentu textu, automatické odkazování a provádění dalších úkolů pomocí metod korpusové lingvistiky.

Strom má několik „kořenů“, což jsou abstraktní slova, která majívelmi široká sémantika. Jak se tento strom větví, tvoří se uzly obsahující stále specifičtější lexikální prvky. Například slovo "stvoření" může být spojeno s pojmy jako "člověk" a "zvíře". První slovo se bude i nadále větvit na různé profese, termíny příbuzenství, národnosti a druhé - na třídy a druhy zvířat.

Použití systémů pro vyhledávání informací

Sféry použití korpusové lingvistiky pokrývají širokou škálu oblastí činnosti. Korpusy se používají pro sestavování a opravy slovníků, vytváření systémů automatického překladu, shrnutí, extrahování faktů, určování sentimentu a další zpracování textu.

korpusová lingvistika typy korpusů
korpusová lingvistika typy korpusů

Kromě toho jsou tyto zdroje aktivně využívány při studiu jazyků světa a mechanismů fungování jazyka jako celku. Přístup k velkým objemům předem připravených informací přispívá k rychlému a komplexnímu studiu trendů ve vývoji jazyků, utváření neologismů a ustálených řečových obratů, změn významů lexikálních jednotek atd.

Protože práce s tak velkým objemem dat vyžaduje automatizaci, dnes existuje úzká interakce mezi počítačovou a korpusovou lingvistikou.

Národní korpus ruského jazyka

Tento korpus (zkráceně NKRC) obsahuje řadu podkorpusů, které umožňují použití zdroje k řešení široké škály úkolů.

Materiály v databázi NCRA jsou rozděleny na:

  • o publikacích v médiích 90. a 21. stoletílet, domácích i zahraničních;
  • nahrávky ústního projevu;
  • akcentologicky označené texty (tj. s diakritikou);
  • dialektová řeč;
  • poetická díla;
  • materiály se syntaktickým označením atd.

Informační systém obsahuje také subkorpusy s paralelními překlady děl z ruštiny do angličtiny, němčiny, francouzštiny a mnoha dalších jazyků (a naopak).

Databáze také obsahuje část historických textů představujících psanou řeč v ruštině v různých obdobích jejího vývoje. Existuje také školicí korpus, který může být užitečný pro cizí občany při zvládnutí ruského jazyka.

Národní korpus ruského jazyka obsahuje 400 milionů lexikálních jednotek a v mnoha ohledech předčí významnou část korpusů evropských jazyků.

Vyhlídky

Faktem ve prospěch uznání této oblasti jako slibné je přítomnost korpusových lingvistických laboratoří na ruských univerzitách i na zahraničních. S využitím a výzkumem v rámci uvažovaných zdrojů pro vyhledávání informací je spojen rozvoj některých oblastí v oblasti špičkových technologií, systémů otázka-odpověď, ale to bylo diskutováno výše.

dějiny korpusové lingvistiky
dějiny korpusové lingvistiky

Další rozvoj korpusové lingvistiky se předpovídá na všech úrovních, od technické, ve smyslu zavádění nových algoritmů optimalizujících procesy vyhledávání a zpracování informací, rozšiřování možností počítačů, zvyšování operačnípaměti a konče domácími, protože uživatelé nalézají stále více způsobů, jak využít tento typ zdrojů v každodenním životě a v práci.

Na závěr

V polovině minulého století se rok 2017 zdál jako vzdálená budoucnost, ve které vesmírné lodě proplouvají vesmírem a roboti dělají veškerou práci za lidi. Ve skutečnosti je však věda plná „prázdných míst“a zoufale se pokouší odpovědět na otázky, které lidstvo trápí po staletí. Otázky fungování jazyka zde zaujímají čestné místo a korpusová a počítačová lingvistika nám na ně může pomoci odpovědět.

Zpracování velkého množství dat vám umožňuje odhalit vzorce, které byly dříve nedostupné, předvídat vývoj určitých jazykových rysů, sledovat tvorbu slov téměř v reálném čase.

Na praktické globální úrovni lze korpusy považovat např. za potenciální nástroj pro hodnocení sentimentu veřejnosti – internet je průběžně aktualizovaná databáze různých textů vytvářených skutečnými uživateli: jedná se o komentáře, recenze, články a mnoho dalších forem řeči.

Práce s korpusy navíc přispívá k vývoji stejných technických prostředků, které se podílejí na vyhledávání informací, které známe ze služeb Google nebo Yandex, strojového překladu, elektronických slovníků.

S jistotou lze říci, že korpusová lingvistika dělá teprve první kroky a v blízké budoucnosti se bude rychle rozvíjet.

Doporučuje: