Frekvenční textová analýza: vlastnosti a příklady

Obsah:

Frekvenční textová analýza: vlastnosti a příklady
Frekvenční textová analýza: vlastnosti a příklady
Anonim

S tímto pojmem jste se setkali více než jednou v životě, pokud jste museli pracovat s texty. Zejména byste se mohli obrátit na online kalkulačky, které provádějí přesně frekvenční analýzu textu. Tyto užitečné nástroje ukazují, kolikrát se určitý znak nebo písmeno vyskytuje v libovolné pasáži textu. Často je také zobrazeno procento. Proč je to potřeba? Jak frekvenční analýza textu přispívá k „luštění“jednoduchých šifer? Jaká je její podstata, kdo ji vymyslel? Na tyto a další důležité otázky k tématu odpovíme v průběhu článku.

Definice

Frekvenční analýza je jednou z odrůd kryptoanalýzy. Vychází z předpokladu vědců o existenci statistického netriviálního rozložení jednotlivých znaků a jejich pravidelných sekvencí v prostém i šifrovaném textu.

Předpokládá se, že taková distribuce, až do nahrazení jednotlivých znaků, bude zachována i v procesech šifrování/dešifrování.

frekvenční analýza systémů
frekvenční analýza systémů

Procesní charakteristika

Nyní se jednoduše podíváme na frekvenční analýzu. To znamená, že počet výskytů stejného abecedního znaku v textech dostatečné délky je stejný v různých textech napsaných ve stejném jazyce.

A co teď monoalfabetické šifrování? Předpokládá se, že pokud je v sekci se šifrovaným textem znak s podobnou pravděpodobností výskytu, pak je reálné předpokládat, že jde o ono zašifrované písmeno.

Následovníci frekvenční textové analýzy aplikují stejné uvažování na digramy (sekvence dvou písmen). Trigramy - to je pro případ již polyalfabetických šifer.

Historie metody

Frekvenční analýza slov není objevem modernosti. Vědeckému světu je znám již od 9. století. Jeho vytvoření je spojeno se jménem Al-Kindi.

Známé případy aplikace metody frekvenční analýzy však spadají do mnohem pozdější doby. Nejvýraznějším příkladem je zde rozluštění egyptských hieroglyfů, které v roce 1822 vytvořil J.-F. Champollion.

Pokud se podíváme na beletrii, můžeme najít mnoho zajímavých odkazů na tuto metodu dešifrování:

  • Conan Doyle – "The Dancing Men".
  • Jules Verne – „Děti kapitána Granta“.
  • Edgar Poe - "Gold Bug".

Od poloviny minulého století však byla většina algoritmů používaných v šifrování vyvinuta s ohledem na jejich odolnost vůči takovéto frekvenční kryptoanalýze. Proto todnes se nejčastěji používají pouze pro školení budoucích kryptografů.

frekvenční analýza textu
frekvenční analýza textu

Základní metoda

Pojďme si nyní podrobně představit analýzu frekvenční odezvy. Tento druh analýzy je přímo založen na skutečnosti, že test se skládá ze slov a ta zase z písmen. Počet písmen, která vyplňují národní abecedy, je omezený. Zde mohou být jednoduše uvedena písmena.

Nejdůležitějšími vlastnostmi takového textu bude jak opakování písmen, různých bigramů, trigramů a n-gramů, tak vzájemná kompatibilita různých písmen, střídání souhlásek / samohlásek a další různé druhy těchto symbolů.

Hlavní myšlenkou metod je spočítat výskyty možných n-gramů (označených nm) v otevřených textech dostatečně dlouhých pro analýzu (označeno T=t1t2…tl) složených z písmen národní abecedy (označené {a1, a2, …, an}). Vše výše uvedené způsobuje několik po sobě jdoucích m-gramů textu:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Pokud se jedná o počet výskytů m-gramu ai1ai2…aim v určitém textu T, a L je celkový počet m-gramů analyzovaných výzkumníkem, pak je možné empiricky stanovit, že pro dostatečně velké L, frekvence pro takový m-gram se od sebe budou trochu lišit.

frekvenční analýza
frekvenční analýza

Často se vyskytující písmena ruské abecedy

Ale časově-frekvenční analýza, navzdory podobnému názvu, nemá nic společného s tématem našeho rozhovoru. Tento druh analýzy se provádí prosignály z málo pozorovatelných radarových stanic pomocí speciální vlnkové transformace.

Nyní se vraťme k hlavnímu tématu. Při provádění frekvenční analýzy můžete zjistit, která písmena ruské abecedy se nejčastěji vyskytují v poměrně objemných textech (procento od 0,062 do 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Dokonce bylo zavedeno speciální mnemotechnické pravidlo, které pomáhá naučit se nejběžnější písmena ruské abecedy. K tomu si stačí zapamatovat jediné slovo - "seník".

V obecných případech se četnost použití písmen v procentech nastavuje jednoduše: specialista spočítá, kolikrát se písmeno v textu vyskytuje, a výslednou hodnotu pak vydělí celkovým počtem znaků v textu. A k vyjádření této hodnoty v procentech ji stačí vynásobit 100.

Je důležité vzít v úvahu, že frekvence bude záviset nejen na objemu textu, ale také na jeho povaze. Například v technických zdrojích se písmeno „F“objevuje mnohem častěji než v beletrii. Pro objektivní výsledky proto musí specialista napsat pro výzkum texty různé povahy a stylu.

programy pro analýzu frekvence textu
programy pro analýzu frekvence textu

Bi-, tri-, čtyřgramy

Ve smysluplných textech lze najít i ty nejčastější (resp.opakované) kombinace dvou nebo více písmen. Specialisté také sestavili několik tabulek, které ukazují frekvence podobných digramů různých abeced.

Pokud jde o ruštinu, frekvenční analýza systémů objemných smysluplných textů umožnila stanovit nejběžnější bigramy a trigramy:

  • EN.
  • ST.
  • ALE.
  • NOT.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NOVINKA
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Preferované vzájemné vztahy písmen

A to nejsou všechny možnosti, které může frekvenční analýza poskytnout výzkumníkům textu. Systematizací informací z podobných tabulek bigramů a trigramů je možné extrahovat data o nejběžnějších kombinacích písmen. Nebo jinými slovy jejich preferované vztahy mezi sebou.

Takto rozsáhlou studii již odborníci provedli. Výsledkem byla tabulka, kde spolu s každým písmenem abecedy byli uvedeni jeho sousedé. Navíc ty postavy, které se často nacházejí jak bezprostředně před ním, tak po něm. Písmena v tabulce nejsou napsána náhodou. Blíže k symbolu jsou uvedeni nejčastější sousedé, dále vzácnější.

Zvažte příklady:

  • Písmeno "A". Zde se rozlišují následující výhodná spojení: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Odtud vidíme, že nejčastěji před "A" v textech je "H" ("NA"). A po „A“se můžeme nejčastěji v textech v ruštině setkat s „L“("AL").
  • Písmeno "M". Odborníci identifikovali taková preferovaná spojení: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Písmeno "b". Preferovaná spojení jsou následující: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Písmeno "Sh". Preferovaná spojení: "e-b-a-i-u-Sch-e-i-a".
  • Písmeno "P". Preferovaná spojení s tímto symbolem ruské abecedy: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
časově-frekvenční analýza
časově-frekvenční analýza

Co definuje analýzu?

Moderní programy pro frekvenční analýzu textu pomáhají studovat velké objemy široké škály článků, esejů, pasáží a tak dále. Následující informace jsou standardně poskytovány výzkumníkovi:

  • Celkový počet znaků v textu.
  • Počet mezer použitých autorem.
  • Počet číslic.
  • Informace o použitých interpunkčních znaménech – tečky, čárky atd.
  • Počet písmen v každé z dostupných abeced – azbuka, latinka atd.
  • Informace o četnosti použití jednotlivých písmen a symbolů v textu – počet zmínek a procento v porovnání s celým textem.

Bojujte proti nadměrné optimalizaci a přesycení

Proč se provádí analýza frekvence textu? Je to jen pro zajímavost - zjistit, které znaky v psaném textu se ukázaly jako často používané? Ne, hlavní použití analýzy je praktické a leží jinde.

N-gramy zahrnují nejen stabilní bigramy a trigramy. Ke stejnémukategorie zahrnují klíčová slova (tagy), kolokace. Tedy stabilní kombinace sestávající ze dvou nebo více slov. Vyznačují se tím, že se takové kompozice vyskytují v textu společně a zároveň nesou určitou sémantickou zátěž.

To hraje do karet bezohledným SEO specialistům. Při své práci někdy zneužívají opakování tagů a klíčových slov v textu, aby uměle zvýšili relevanci konkrétní webové stránky. Snaží se oklamat systém takovým „trikem“: proměnit přirozenou kombinaci s obvyklou kombinací slov, tradiční pro ruský jazyk („kupte si norkový kožich“), v nekonzistentní. To znamená, že se získá přeskupením slov v takovém přirozeném N-gramu („koupit norkový kabát“).

Dnes se ale vyhledávací algoritmy naučily odhalovat přeoptimalizaci stejně efektivně jako overspam – přesycení textu klíčovými slovy, tagy, které ovlivňují hodnocení výsledků na stránce vyhledávání. Přeoptimalizované stránky se nyní naopak řadí níže podle dotazu uživatele. A lidé sami nemají tendenci číst nic neříkající, přesycený textem tagů a upřednostňovat užitečné informace z jiného zdroje.

metoda frekvenční analýzy
metoda frekvenční analýzy

Pomáháme při soukromé analýze pro SEO specialisty

Moderní textové filtry vyhledávačů tak dnes upřednostňují ty internetové stránky, na kterých jsou informace nejen snadno čitelné, ale také užitečné pro návštěvníky. Aby optimalizovali svou práci pro nové standardy, SEO specialistéa přejděte k frekvenční analýze textu. Dnes jej poskytuje mnoho oblíbených služeb.

Frekvenční analýza pomáhá kontrolovat informativnost textu připravovaného k publikaci. Odstraňte zbytečnou nadbytečnost značek a klíčových frází. Umožňuje také upozornit autora na nepřirozené kombinace slov, které v textových filtrech vyhledávačů vzbuzují podezření.

analýza frekvenční odezvy
analýza frekvenční odezvy

Frekvenční analýza textu tak pomáhá určit frekvenci zmínek o konkrétní postavě ve zdroji. Tato metoda se dnes používá k posouzení přetížení textu tagy, nepřirozených permutací slov.

Doporučuje: