Logistická regrese: model a metody

Obsah:

Logistická regrese: model a metody
Logistická regrese: model a metody
Anonim

Metody logistické regrese a diskriminační analýzy se používají tam, kde je potřeba jednoznačně odlišit respondenty podle cílových kategorií. V tomto případě jsou samotné skupiny reprezentovány úrovněmi jednoho jednovariantního parametru. Pojďme se blíže podívat na model logistické regrese a zjistit, proč je potřeba.

logistická regrese
logistická regrese

Obecné informace

Příkladem problému, ve kterém se používá logistická regrese, je zařazení respondentů do skupin, kteří kupují a nekupují hořčici. Diferenciace se provádí v souladu se sociodemografickými charakteristikami. Patří mezi ně zejména věk, pohlaví, počet příbuzných, příjem atd. V provozech jsou rozlišovací kritéria a proměnná. Ten kóduje cílové kategorie, do kterých by ve skutečnosti měli být respondenti rozděleni.

Nuance

Je třeba říci, že rozsah případů, kdy se logistická regrese uplatňuje, je mnohem užší než u diskriminační analýzy. V tomto ohledu se zvažuje použití posledně jmenovaného jako univerzální metody diferenciacepreferovanější. Odborníci navíc doporučují zahájit klasifikační studie diskriminační analýzou. A pouze v případě nejistoty ohledně výsledků můžete použít logistickou regresi. Tato potřeba je způsobena několika faktory. Logistická regrese se používá, když je jasné, jaký je typ nezávislých a závislých proměnných. Podle toho je vybrán jeden ze 3 možných postupů. Při diskriminační analýze se výzkumník zabývá vždy jednou statickou operací. Zahrnuje jednu závislou a několik nezávislých kategoriálních proměnných s jakýmkoliv typem stupnice.

Zobrazení

Úkolem statistické studie, která využívá logistickou regresi, je určit pravděpodobnost, že konkrétní respondent bude zařazen do určité skupiny. Diferenciace se provádí podle určitých parametrů. V praxi je možné podle hodnot jednoho nebo více nezávislých faktorů zařadit respondenty do dvou skupin. V tomto případě probíhá binární logistická regrese. Zadané parametry lze také použít při rozdělování do více než dvou skupin. V takové situaci dochází k multinomické logistické regresi. Výsledné skupiny jsou vyjádřeny v úrovních jedné proměnné.

logistická regrese
logistická regrese

Příklad

Řekněme, že existují odpovědi respondentů na otázku, zda mají zájem o nabídku koupě pozemku na předměstí Moskvy. Možnosti jsou "ne"a ano. Je třeba zjistit, které faktory mají převažující vliv na rozhodování potenciálních kupců. K tomu jsou respondentům položeny otázky týkající se infrastruktury území, vzdálenosti od hlavního města, oblasti lokality, přítomnosti / nepřítomnosti obytné budovy atd. Pomocí binární regrese je možné distribuovat respondenty do dvou skupin. Do první budou patřit zájemci o akvizici – potenciální kupci, do druhé pak ti, kteří o takovou nabídku nemají zájem. Pro každého respondenta bude navíc vypočítána pravděpodobnost zařazení do té či oné kategorie.

Srovnávací charakteristiky

Rozdíl od dvou výše uvedených možností je jiný počet skupin a typ závislých a nezávislých proměnných. V binární regresi se například studuje závislost dichotomického faktoru na jedné nebo více nezávislých podmínkách. Kromě toho může mít tento typ měřítka jakýkoli typ. Multinomická regrese je považována za variaci této možnosti klasifikace. V něm do závislé proměnné patří více než 2 skupiny. Nezávislé faktory musí mít buď ordinální nebo nominální stupnici.

Logistická regrese v spss

Ve statistickém balíčku 11-12 byla představena nová verze analýzy - ordinální. Tato metoda se používá, když závislý faktor patří do stejnojmenné (ordinální) stupnice. V tomto případě se vybírají nezávislé proměnné jednoho konkrétního typu. Musí být buď řadové, nebo jmenovité. Nejvíce se zvažuje zařazení do několika kategoriíuniverzální. Tuto metodu lze použít ve všech studiích, které využívají logistickou regresi. Jediný způsob, jak zlepšit kvalitu modelu, je použít všechny tři techniky.

kontrola přiměřenosti kvality a logistická regrese
kontrola přiměřenosti kvality a logistická regrese

Pořadové zařazení

Je třeba říci, že dříve ve statistickém balíčku neexistovala žádná typická možnost provádění specializované analýzy pro závislé faktory s ordinální škálou. Pro všechny proměnné s více než 2 skupinami byla použita multinominální varianta. Relativně nedávno zavedená ordinální analýza má řadu funkcí. Berou v úvahu specifika měřítka. Mezitím se v učebních pomůckách ordinální logistická regrese často nepovažuje za samostatnou techniku. Důvodem je následující: ordinální analýza nemá žádné významné výhody oproti multinomické. Výzkumník může použít druhé jmenované v přítomnosti jak ordinální, tak nominální závislé proměnné. Samotné klasifikační procesy se přitom od sebe téměř neliší. To znamená, že provádění ordinální analýzy nezpůsobí žádné potíže.

Možnost analýzy

Uvažujme jednoduchý případ – binární regresi. Předpokládejme, že v procesu marketingového výzkumu je posuzována poptávka po absolventech určité metropolitní univerzity. V dotazníku byly respondentům položeny otázky, včetně:

  1. Jste zaměstnaný? (ql).
  2. Zadejte rok promoce (q 21).
  3. Jaký je průměrskóre za promoce (průměr).
  4. Pohlaví (q22).

Logistická regrese vyhodnotí dopad nezávislých faktorů průměr, q 21 a q 22 na proměnnou ql. Jednoduše řečeno, účelem analýzy bude určit pravděpodobné uplatnění absolventů na základě informací o oboru, roku absolvování a GPA.

indikátor logistické esovité regrese
indikátor logistické esovité regrese

Logistická regrese

Pro nastavení parametrů pomocí binární regrese použijte nabídku Analyzovat►Regrese►Binární logistika. V okně Logistická regrese vyberte závislý faktor ze seznamu dostupných proměnných vlevo. Je to ql. Tato proměnná musí být umístěna v poli Závislá. Poté je nutné do grafu kovariancí zavést nezávislé faktory - q 21, q 22, prům. Poté se musíte rozhodnout, jak je zahrnout do analýzy. Pokud je počet nezávislých faktorů větší než 2, pak se použije metoda současného zavádění všech proměnných, která je nastavena standardně, ale postupně. Nejoblíbenější způsob je Backward:LR. Pomocí tlačítka Vybrat můžete do studie zahrnout ne všechny respondenty, ale pouze konkrétní cílovou kategorii.

Definovat kategorické proměnné

Tlačítko Categorical by se mělo použít, když je jedna z nezávislých proměnných nominální s více než 2 kategoriemi. V této situaci je v okně Define Categorical Variables právě takový parametr umístěn v sekci Categorical Covariates. V tomto příkladu žádná taková proměnná neexistuje. Poté následuje v rozevíracím seznamu Kontrastvyberte položku Odchylka a stiskněte tlačítko Změnit. V důsledku toho se z každého nominálního faktoru vytvoří několik závislých proměnných. Jejich počet odpovídá počtu kategorií výchozí podmínky.

Uložit nové proměnné

Pomocí tlačítka Uložit v hlavním dialogovém okně studie se nastavuje tvorba nových parametrů. Budou obsahovat ukazatele vypočítané v regresním procesu. Zejména můžete vytvořit proměnné, které definují:

  1. Patří do konkrétní klasifikační kategorie (členství ve skupině).
  2. Pravděpodobnost přiřazení respondenta do každé studijní skupiny (Pravděpodobnosti).

Při použití tlačítka Možnosti výzkumník nezíská žádné významné možnosti. Podle toho ji lze ignorovat. Po kliknutí na tlačítko "OK" se výsledky analýzy zobrazí v hlavním okně.

koeficient logistické regrese
koeficient logistické regrese

Kontrola kvality pro přiměřenost a logistickou regresi

Zvažte tabulku Omnibus Testsof Model Coefficients. Zobrazuje výsledky analýzy kvality aproximace modelu. Vzhledem k tomu, že byla nastavena možnost krok za krokem, musíte se podívat na výsledky poslední fáze (Krok 2). Pozitivní výsledek bude považován, pokud bude zjištěno zvýšení indikátoru chí-kvadrát při přechodu do další fáze s vysokým stupněm významnosti (Sig. < 0,05). Kvalita modelu se hodnotí v řadě Model. Pokud je získána záporná hodnota, ale není považována za významnou s celkově vysokou významností modelu, poslednílze považovat za prakticky vhodné.

Tabulky

Model Summary umožňuje odhadnout celkový index rozptylu, který je popsán vytvořeným modelem (R Square index). Doporučuje se použít hodnotu Nagelker. Parametr Nagelkerke R Square lze považovat za pozitivní ukazatel, pokud je nad 0,50. Poté jsou vyhodnoceny výsledky klasifikace, ve které jsou skutečné ukazatele příslušnosti do té či oné sledované kategorie porovnány s těmi, které byly předpovězeny na základě regresního modelu. K tomu slouží klasifikační tabulka. Umožňuje nám také vyvodit závěry o správnosti diferenciace pro každou zvažovanou skupinu.

logistický regresní model
logistický regresní model

Následující tabulka poskytuje příležitost zjistit statistickou významnost nezávislých faktorů zadaných do analýzy a také každého nestandardizovaného koeficientu logistické regrese. Na základě těchto ukazatelů je možné predikovat příslušnost každého respondenta ve vzorku k určité skupině. Pomocí tlačítka Uložit můžete zadat nové proměnné. Budou obsahovat informace o příslušnosti k určité klasifikační kategorii (Predictedcategory) a pravděpodobnosti zařazení do těchto skupin (Predicted probabilities členství). Po kliknutí na "OK" se výsledky výpočtu objeví v hlavním okně Multinomial Logistic Regression.

První tabulka, která obsahuje ukazatele důležité pro výzkumníka, je Informace o přizpůsobení modelu. Vysoká úroveň statistické významnosti by indikovala vysokou kvalitu avhodnost použití modelu při řešení praktických problémů. Další významnou tabulkou je Pseudo R-Square. Umožňuje odhadnout podíl celkového rozptylu v závislém faktoru, který je určen nezávislými proměnnými vybranými pro analýzu. Podle tabulky Pravděpodobnostních testů můžeme vyvodit závěry o statistické významnosti těchto testů. Odhady parametrů odrážejí nestandardizované koeficienty. Používají se při konstrukci rovnice. Pro každou kombinaci proměnných byla navíc stanovena statistická významnost jejich dopadu na závislý faktor. Mezitím se v marketingovém výzkumu často stává nutností rozlišovat respondenty podle kategorií nikoli individuálně, ale jako součást cílové skupiny. K tomu se používá tabulka Observedand Predicted Frequencies.

Praktická aplikace

Uvažovaná metoda analýzy je široce používána v práci obchodníků. V roce 1991 byl vyvinut indikátor logistické sigmoidní regrese. Jde o snadno použitelný a efektivní nástroj pro předpovídání pravděpodobných cen dříve, než se „přehřejí“. Indikátor je na grafu zobrazen jako kanál tvořený dvěma rovnoběžnými čarami. Jsou ve stejné vzdálenosti od trendu. Šířka koridoru bude záviset pouze na časovém rámci. Indikátor se používá při práci s téměř všemi aktivy - od měnových párů po drahé kovy.

logistická regrese v spss
logistická regrese v spss

V praxi byly vyvinuty 2 klíčové strategie pro používání nástroje: pro únik ana zatáčku. V druhém případě se obchodník zaměří na dynamiku cenových změn v rámci kanálu. Jakmile se hodnota přiblíží k linii podpory nebo odporu, sází se na pravděpodobnost, že pohyb začne v opačném směru. Pokud se cena přiblíží horní hranici, můžete se aktiva zbavit. Pokud je na spodní hranici, měli byste o nákupu přemýšlet. Strategie útěku zahrnuje použití příkazů. Jsou instalovány mimo limity v relativně malé vzdálenosti. Vzhledem k tomu, že je cena v některých případech krátkodobě poruší, měli byste hrát na jistotu a nastavit stop lossy. Zároveň samozřejmě bez ohledu na zvolenou strategii musí obchodník co nejklidněji vnímat a vyhodnocovat situaci, která na trhu nastala.

Závěr

Využití logistické regrese tedy umožňuje rychle a jednoduše zařadit respondenty do kategorií podle daných parametrů. Při analýze můžete použít jakoukoli konkrétní metodu. Zejména multinomiální regrese je univerzální. Odborníci však doporučují používat všechny výše popsané metody v kombinaci. To je způsobeno tím, že v tomto případě bude kvalita modelu výrazně vyšší. To zase rozšíří rozsah jeho použití.

Doporučuje: