Finansguider

Vad är multipel linjär regression?

Multipel linjär regression avser en statistisk teknik som används för att förutsäga resultatet av en variabel baserat på värdet av två eller flera variabler. Det kallas ibland helt enkelt som multipel regression, och det är en förlängning av linjär regression. Variabeln som vi vill förutsäga kallas den beroende variabeln, medan de variabler som vi använder för att förutsäga värdet på den beroende variabeln Beroende variabel En beroende variabel är en som kommer att ändras beroende på värdet på en annan variabel, kallad den oberoende variabeln. är kända som oberoende eller förklarande variabler.

Figur 1: Flera linjära regressionsmodellförutsägelser för enskilda observationer (Källa)

Sammanfattning

Multipel linjär regression avser en statistisk teknik som använder två eller flera oberoende variabler för att förutsäga resultatet av en beroende variabel.
Tekniken gör det möjligt för analytiker att bestämma variationen i modellen och det relativa bidraget för varje oberoende variabel i den totala variansen.
Multipel regression kan ha två former, dvs. linjär regression och icke-linjär regression.

Multipel linjär regressionsformel

Var:

yi är den beroende eller förutsagda variabeln
β0 är y-skärningen, dvs värdet på y när både xi och x2 är 0.
β1 och β2 är regressionskoefficienterna som representerar förändringen i y i förhållande till en enhetsförändring i xi1 respektive xi2 .
βp är lutningskoefficienten för varje oberoende variabel
ϵ är modellens slumpmässiga fel (återstående) term.

Förstå multipel linjär regression

Enkel linjär regression gör det möjligt för statistiker att förutsäga värdet på en variabel med hjälp av tillgänglig information om en annan variabel. Linjär regression försöker etablera förhållandet mellan de två variablerna längs en rak linje.

Multipel regression är en typ av regression där den beroende variabeln visar en linjär relation med två eller flera oberoende variabler. Det kan också vara icke-linjärt , där de beroende och oberoende variablerna Oberoende variabel En oberoende variabel är en ingång, antagande eller drivkraft som ändras för att bedöma dess inverkan på en beroende variabel (resultatet). följ inte en rak linje.

Både linjär och icke-linjär regression spårar ett visst svar med hjälp av två eller flera variabler grafiskt. Icke-linjär regression är dock vanligtvis svår att genomföra, eftersom den är skapad från antaganden härledda från försök och fel.

Antaganden om multipel linjär regression

Multipel linjär regression baseras på följande antaganden:

1. En linjär relation mellan de beroende och oberoende variablerna

Det första antagandet av multipel linjär regression är att det finns ett linjärt samband mellan den beroende variabeln och var och en av de oberoende variablerna. Det bästa sättet att kontrollera de linjära förhållandena är att skapa spridningsdiagram och sedan visuellt inspektera spridningsdiagrammen för linjäritet. Om förhållandet som visas i spridningsdiagrammet inte är linjärt måste analytikern köra en icke-linjär regression eller transformera data med hjälp av statistisk programvara, till exempel SPSS.

2. De oberoende variablerna är inte starkt korrelerade med varandra

Uppgifterna ska inte visa multikollinearitet, vilket inträffar när de oberoende variablerna (förklarande variabler) är starkt korrelerade till varandra. När oberoende variabler visar multikollearitet, kommer det att finnas problem med att räkna ut den specifika variabeln som bidrar till variansen i den beroende variabeln. Den bästa metoden för att testa antagandet är Variance Inflation Factor-metoden.

3. Varianterna av resterna är konstant

Multipel linjär regression antar att mängden fel i resterna är lika vid varje punkt i den linjära modellen. Detta scenario är känt som homoscedasticity. Vid analys av data bör analytikern plotta de standardiserade restprodukterna mot de förutspådda värdena för att avgöra om punkterna fördelas rättvist över alla värdena för oberoende variabler. För att testa antagandet kan data plottas på en scatterplot eller med hjälp av statistisk programvara för att producera en scatterplot som inkluderar hela modellen.

4. Oberoende av observation

Modellen antar att observationerna ska vara oberoende av varandra. Enkelt uttryckt antar modellen att värdena på restprodukter är oberoende. För att testa för detta antagande använder vi statistiken Durbin Watson.

Testet visar värden från 0 till 4, där ett värde från 0 till 2 visar positiv autokorrelation och värden från 2 till 4 visar negativ autokorrelation. Mittpunkten, dvs. värdet 2, visar att det inte finns någon autokorrelation.

5. Multivariat normalitet

Multivariat normalitet uppstår när rester normalt distribueras. För att testa detta antagande, titta på hur värdena på restprodukter fördelas. Det kan också testas med två huvudmetoder, dvs. ett histogram med en överlagrad normalkurva eller metoden Normal sannolikhetsdiagram.

Fler resurser

Finance erbjuder Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification Certified Banking & Credit Analyst (CBCA) ™ ackreditering är en global standard för kreditanalytiker som täcker ekonomi, redovisning, kreditanalys, kassaflödesanalys, covenant modellering, lån återbetalningar och mer. certifieringsprogram för dem som vill ta sin karriär till nästa nivå. För att fortsätta lära dig och utveckla din kunskapsbas, vänligen utforska de ytterligare relevanta finansresurserna nedan:

Prognosmetoder Prognosmetoder Toppprognosmetoder. I den här artikeln kommer vi att förklara fyra typer av intäktsprognosmetoder som finansanalytiker använder för att förutsäga framtida intäkter.
Poisson-distribution Poisson-distribution Poisson-fördelningen är ett verktyg som används i statistik för sannolikhetsteori för att förutsäga mängden variation från en känd genomsnittlig förekomsthastighet, inom
Slumpmässig variabel Slumpmässig variabel En slumpmässig variabel (stokastisk variabel) är en typ av variabel i statistik vars möjliga värden beror på resultatet av ett visst slumpmässigt fenomen
Regressionsanalys Regressionsanalys Regressionsanalys är en uppsättning statistiska metoder som används för att uppskatta sambandet mellan en beroende variabel och en eller flera oberoende variabler. Den kan användas för att bedöma styrkan i sambandet mellan variabler och för att modellera det framtida förhållandet mellan dem.