Vad är Variance Inflation Factor (VIF)?

Variansinflationsfaktorn (VIF) mäter svårighetsgraden för multikollinearitet i regressionsanalys Regressionsanalys Regressionsanalys är en uppsättning statistiska metoder som används för att uppskatta sambandet mellan en beroende variabel och en eller flera oberoende variabler. Den kan användas för att bedöma styrkan i sambandet mellan variabler och för att modellera det framtida förhållandet mellan dem. . Det är ett statistiskt koncept som indikerar ökningen i variansen för en regressionskoefficient som ett resultat av kollinearitet.

Variansinflationsfaktor

Sammanfattning

  • Variationsinflationsfaktor (VIF) används för att detektera svårighetsgraden av multikollinearitet i den vanliga minst kvadratiska (OLS) regressionsanalysen.
  • Multikollinearitet blåser upp varians- och typ II-felet. Det gör koefficienten för en variabel konsekvent men opålitlig.
  • VIF mäter antalet uppblåsta avvikelser orsakade av multikollinearitet.

Variansinflationsfaktor och multikollinearitet

I vanlig minst kvadratisk (OLS) regressionsanalys finns multikollinearitet när två eller flera av de oberoende variablerna Oberoende variabel En oberoende variabel är en ingång, antagande eller drivkraft som ändras för att bedöma dess inverkan på en beroende variabel (resultatet) . visa ett linjärt förhållande mellan dem. Till exempel, för att analysera förhållandet mellan företagsstorlekar och intäkter till aktiekurser i en regressionsmodell är marknadsvärden och intäkter de oberoende variablerna.

Ett företags börsvärde Börsvärde Börsvärde (marknadsvärde) är det senaste marknadsvärdet av ett företags utestående aktier. Marknadsvärde är lika med det aktuella aktiekursen multiplicerat med antalet utestående aktier. Investeringsgemenskapen använder ofta marknadsvärdet för att rangordna företag och dess totala intäkter är starkt korrelerade. Eftersom ett företag tjänar ökande intäkter växer det också i storlek. Det leder till ett multikollearitetsproblem i OLS-regressionsanalysen. Om de oberoende variablerna i en regressionsmodell visar ett perfekt förutsägbart linjärt förhållande, är det känt som perfekt multikollinearitet.

Med multikollinearitet är regressionskoefficienterna fortfarande konsekventa men är inte längre tillförlitliga eftersom standardfelen är uppblåsta. Det betyder att modellens prediktiva effekt inte minskas, men koefficienterna kanske inte är statistiskt signifikanta med ett typ II-fel. är falskt. I andra .

Om koefficienterna för variabler inte är individuellt signifikanta - kan därför inte avvisas i t-testet - men kan tillsammans förklara varianten av den beroende variabeln med avslag i F-testet och en hög bestämningskoefficient (R2), multikollinearitet kan finnas. Det är en av metoderna för att upptäcka multikollinearitet.

VIF är ett annat vanligt verktyg för att upptäcka om multikollinearitet finns i en regressionsmodell. Den mäter hur mycket variansen (eller standardfelet) för den uppskattade regressionskoefficienten blåses upp på grund av kollinearitet.

Användning av variansinflationsfaktor

VIF kan beräknas med formeln nedan:

Variansinflationsfaktor - formel

Där R i 2 representerar den ojusterade graden för regression den i: te oberoende variabeln på de återstående. Det ömsesidiga av VIF är känt som tolerans . Antingen VIF eller tolerans kan användas för att upptäcka multikollinearitet, beroende på personliga preferenser.

Om R i två är lika med 0, kan variansen av de återstående oberoende variabler inte förutsägas från den i: te oberoende variabeln. Därför, när VIF eller tolerans är lika med 1, är inte den oberoende variabeln korrelerad med de återstående, vilket innebär att multikollinearitet inte finns i denna regressionsmodell. I det här fallet blåses inte variansen upp av regressionskoefficienten.

I allmänhet indikerar en VIF över 4 eller tolerans under 0,25 att multikollinearitet kan finnas, och ytterligare undersökning krävs. När VIF är högre än 10 eller toleransen är lägre än 0,1, finns det betydande multikollearitet som behöver korrigeras.

Det finns dock också situationer där höga VFI säkert kan ignoreras utan att drabbas av multikollinearitet. Följande är tre sådana situationer:

1. Höga VIF finns bara i kontrollvariabler, men inte i variabler av intresse. I det här fallet är inte variablerna intressanta med varandra eller kontrollvariablerna. Regressionskoefficienterna påverkas inte.

2. När höga VIF-värden orsakas som en följd av att produkter eller krafter ingår i andra variabler, orsakar multikollearitet inte negativa effekter. Till exempel inkluderar en regressionsmodell både x och x2 som dess oberoende variabler.

3. När en dummyvariabel som representerar mer än två kategorier har hög VIF, finns det inte nödvändigtvis multikollinearitet. Variablerna har alltid höga VIF om det finns en liten del av fallen i kategorin, oavsett om de kategoriska variablerna är korrelerade med andra variabler.

Korrigering av multikollinearitet

Eftersom multikollinearitet blåser upp variationen i koefficienter och orsakar typ II-fel är det viktigt att detektera och korrigera det. Det finns två enkla och ofta använda sätt att korrigera multikollinearitet, som listas nedan:

1. Den första är att ta bort en (eller flera) av de starkt korrelerade variablerna. Eftersom informationen som tillhandahålls av variablerna är överflödig, kommer bestämningskoefficienten inte att försämras avsevärt av borttagningen.

2. Den andra metoden är att använda huvudkomponentanalys (PCA) eller partiell minst kvadratisk regression (PLS) istället för OLS-regression. PLS-regression kan reducera variablerna till en mindre uppsättning utan någon korrelation mellan dem. I PCA skapas nya okorrelerade variabler. Det minimerar informationsförlust och förbättrar förutsägbarheten för en modell.

Fler resurser

Finance är den officiella leverantören av den globala Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification Certified Banking & Credit Analyst (CBCA) ™ ackreditering är en global standard för kreditanalytiker som täcker finans, redovisning, kreditanalys, kassaflödesanalys , förbundsmodellering, återbetalning av lån och mer. certifieringsprogram, utformat för att hjälpa vem som helst att bli en ekonomisk analytiker i världsklass. För att fortsätta din karriär kommer de ytterligare resurserna nedan att vara användbara:

  • Grundläggande statistikbegrepp inom ekonomi Grundläggande statistikbegrepp för ekonomi En solid förståelse för statistik är avgörande för att hjälpa oss att bättre förstå ekonomi. Dessutom kan statistikbegrepp hjälpa investerare att övervaka
  • Prognosmetoder Prognosmetoder Toppprognosmetoder. I den här artikeln kommer vi att förklara fyra typer av intäktsprognosmetoder som finansanalytiker använder för att förutsäga framtida intäkter.
  • Multipel linjär regression Multipel linjär regression Multipel linjär regression avser en statistisk teknik som används för att förutsäga resultatet av en beroende variabel baserat på värdet av oberoende variabler
  • Slumpmässig variabel Slumpmässig variabel En slumpmässig variabel (stokastisk variabel) är en typ av variabel i statistik vars möjliga värden beror på resultatet av ett visst slumpmässigt fenomen

Rekommenderas

Stängdes Crackstreams ner?
2022
Är MC ledningscentral säker?
2022
Lämnar Taliesin en kritisk roll?
2022