Multivariat analyse

Se også: Forskningsmetoder

Vores sider Enkel statistisk analyse , Udvikling og test af hypoteser og Betydning og tillidsintervaller forklare nogle af de enklere teknikker, der anvendes til statistisk analyse. Denne side diskuterer nogle af de mere avancerede teknikker, der involverer flere variabler og ikke kun en eller to.

I det virkelige liv, i modsætning til laboratorieforskning, vil du sandsynligvis finde ud af, at dine data påvirkes af mange andre ting end den variabel, du ønsker at teste. Der er sammenhænge mellem ting, som du aldrig har overvejet, og verden er kompleks.

Formålet med avanceret statistisk analyse er at forenkle nogle af forholdene, samtidig med at der laves en mere effektiv model for det, du ser.




Der er fire måder at forenkle analysen på

  • Design
  • Brug af underprøver
  • Brug af statistiske kontroller
  • Multivariat analyse

1. Design

Du kan designe din forskning, så årsagsfaktorer gøres uafhængige af hinanden. For eksempel, hvis du mener, at der kan være en sammenhæng mellem alder og løn, vil en tilfældig stikprøve af medarbejdere risikere at kombinere virkningerne af begge. Hvis du dog opdeler befolkningen i grupper efter alder og derefter tilfældigt prøver lige antal fra hver gruppe, har du gjort alder og løn uafhængig.

2. Brug af underprøver

Her vælger du din prøve for at være lige på alle potentielt forvirrende faktorer. For eksempel kan jobtype påvirke lønnen, så hvis du vil undersøge virkningerne af en anden faktor på løn, kan du kun vælge personer, der udfører det samme job.

3. Brug af statistiske kontroller

Hvis du har mistanke om, at tre variabler kan være forbundet, kan du styring for en at teste for sammenhænge mellem de to andre. Effektivt justerer du den statistiske værdi af kontrollen til at være konstant og tester, om der stadig er et forhold mellem de to andre variabler. Du kan finde ud af, at det observerede forhold forbliver højt (det er ægte) eller reducerer betydeligt (der er sandsynligvis ikke noget reelt forhold). Der er et tredje tilfælde: hvor der ikke er noget forhold, før du kontrollerer den tredje variabel, hvilket betyder, at kontrolvariablen maskerer forholdet mellem de to andre.

4. Multivariat analyse

Multivariat analyse inkluderer mange statistiske metoder, der er designet til at give dig mulighed for at inkludere flere variabler og undersøge hver enkelt bidrag.

De faktorer, du inkluderer i din multivariate analyse, afhænger stadig af, hvad du vil studere. Nogle undersøgelser vil gerne se på bidrag fra visse faktorer, og andre undersøgelser for at kontrollere for disse faktorer som (mere eller mindre) en gener.

To typer variabler

I multivariat analyse er den første ting, der skal afgøres, variablenes rolle.

Der er to muligheder:

hvilken type diagram der skal bruges
  • Variablen årsager en effekt: forudsigelig variabel
  • Variablen er påvirket : afhængig variabel

Dette er en funktion af din model, ikke af selve variablerne, og den samme variabel kan enten være i forskellige undersøgelser.

Forholdet mellem variabler er normalt repræsenteret af et billede med pile:

Diagram for at vise forholdet mellem variabler.

Du kan også observere variabler direkte eller udlede dem af, hvad der sker. Disse er kendt som latente variabler .

hvordan man forbedrer lavt selvværd

Eksempel: Succes i skolen


Det er svært at måle ' succes i skolen ': det er en latent variabel .

Du beslutter måske, at ' succes i skolen 'består af akademisk succes sammen med en vis grad af social succes (måske gennemsnitlig varighed af venskaber eller størrelsen af' venskabsgruppe ') plus en indsats (som du kan måle som opfattelse af enten studerende eller lærere). Dette er dine observerede variabler.

Det målemodel undersøger forholdet mellem de observerede og latente variabler.


Subjektive og objektive variabler


Når du forsker, er der sandsynligvis forskellige typer data involveret. For eksempel er der både objektive data (akademisk succes, gennemsnitlig varighed af venskab) og subjektive data (opfattet indsats). Den type data, du vælger, vil påvirke kvaliteten af ​​din forskning og også på de konklusioner, du kan drage.

Der er mere om dette på vores side på Typer af data .

Ideen bag sådanne modeller er, at der er sammenhænge mellem de observerede og latente variabler (for at forstå mere, kan du måske læse vores side på Korrelationer ).

Disse sammenhænge antages at være forårsaget af fælles faktorer . Jo større indflydelse fra de fælles faktorer ( faktorindlæsning ) jo højere korrelationer mellem de latente og observerede variabler. Du skal derfor måle disse sammenhænge for at vurdere pålidelighed, hvilket du kan gøre på flere måder. En af de mest almindelige er at bruge en konstruktion kaldet Cronbachs alfa (som de fleste statistiske softwarepakker beregner for dig). Dette vurderer, om din observerede variabel rent faktisk måler den latente variabel af interesse, dvs. om den observerede variabel er en pålidelig test for den latente variabel. En værdi på 0,70 eller mere giver modellen et pålideligt niveau.

Cronbachs alfa bruges til at måle sammenhængen mellem variabler. En værdi på 0,70 eller mere giver modellen et pålideligt niveau.


Analyse af målemodeller i multivariabel analyse

Der findes en række analysemetoder til målemodeller som denne. De omfatter Bekræftende faktoranalyse og Forklarende faktoranalyse , og udføres normalt af computeren.

Detaljerne om, hvordan man udfører hver enkelt, ligger uden for denne sides anvendelsesområde, men den grundlæggende idé er, at de måler, hvor meget af variationen, der ses i den samlede konstruktion, er forårsaget af hver faktor.

Årsagsmodeller

Årsagsmodeller ser på den måde, hvorpå variabler forholder sig til hinanden. Selvom det ikke er muligt at bevise årsagssammenhæng uden tvivl, giver kausalmodeller dig mulighed for at sige, om det foreslåede forhold passer til dataene, og hvor godt.

Styrken eller svagheden ved enhver årsagsmodel er valget af variabler. Hvis du går glip af en vigtig årsagsfaktor, vil dine konklusioner enten være begrænsede eller ukorrekte. Det er derfor værd at tage tid på at definere din model så nøje som muligt.

Der er en balance mellem enkelhed og inkludering af flere variabler for at opnå en bedre pasform. Det er klart, at du ikke vil gå glip af en større årsagsvariabel, og inkludering af flere variabler vil altid give en bedre pasform. Men du skal overveje, om den ekstra kompleksitet er det værd for gevinsten i kvaliteten af ​​modellen.


Egnede analysemetoder til årsagsmodeller har tendens til at være det, der kaldes generaliserede lineære modeller, som inkluderer logistisk regressionsanalyse , multipel regressionsanalyse , multivariat analyse af kovarians (MANCOVA) og multivariat variansanalyse (MANOVA) .

Alle disse metoder giver dig et mål for, hvor meget af variationen i de afhængige variabler, der er forårsaget af forudsigerne, og dermed om din model er god.

hvordan du forbedrer dine kritiske tænkningskompetencer

Igen er der computerpakker, der kan udføre disse analyser for dig, men sørg for at du forstår, hvad du laver, og fortolker resultaterne korrekt.

Modellering af strukturel ligning samler målemodeller og årsagsmodeller. Det er en computermodelleringsteknik, der passer til en strukturel ligning til modellen. Denne teknik er kompliceret, men sammenligner i det væsentlige mulige modeller og identificerer den, der passer bedst til dataene.

Et komplekst område

Verden er et komplekst sted, og nogle gange er den eneste måde at forstå, hvad der foregår, at bruge avancerede statistiske teknikker til modellering.

Men også disse er komplekse, og du bør ikke gå i gang med dem uden at forstå det grundlæggende. Hvis du ikke gør det, er det en god ide at konsultere nogen, der gør det, normalt en statistiker. Selvom du har brugt teknikken før, er det stadig en god ide at få en statistiker til at se på, hvad du planlægger at gøre, og kontrollere dine resultater bagefter i tilfælde af blændende fejl.

Dårlig analyse vil undergrave god forskning meget hurtigt.

Forsæt med:
Prøveudtagning og prøveudformning
Forståelse af sammenhænge