Enkel statistisk analyse

Se også: Design af forskning

Når du har samlet kvantitative data, vil du have mange tal. Det er nu tid til at udføre nogle statistiske analyser for at give mening og trække nogle slutninger fra dine data.

Der er en bred vifte af mulige teknikker, som du kan bruge.

kan du lære at være karismatisk

Denne side giver et kort resume af nogle af de mest almindelige teknikker til opsummering af dine data og forklarer, hvornår du vil bruge hver enkelt.



Sammenfatning af data: Gruppering og visualisering

Den første ting at gøre med data er at opsummere det, hvilket betyder at præsentere det på en måde, der bedst fortæller historien.

Udgangspunktet er normalt at gruppere rådataene i kategorier og / eller visualisere dem. For eksempel, hvis du tror, ​​du kan være interesseret i forskelle efter alder, er den første ting at gøre sandsynligvis at gruppere dine data i alderskategorier, måske ti- eller fem-årige klumper.

En af de mest almindelige teknikker, der bruges til at opsummere, er at bruge grafer , især søjlediagrammer, der viser hvert datapunkt i rækkefølge eller histogrammer, som er søjlediagrammer grupperet i bredere kategorier.

Et eksempel er vist nedenfor, der bruger tre sæt data, grupperet efter fire kategorier. Dette kan for eksempel være 'mænd', 'kvinder' og 'andet / intet køn specificeret', grupperet efter alderskategorier 20-29, 30-39, 40-49 og 50-59.

Eksempel histogram

Et alternativ til et histogram er en linjediagram , der plotter hvert datapunkt og forbinder dem med en linje. De samme data som i søjlediagrammet vises i en linjediagram nedenfor.

Eksempel på linjediagram

Det er ikke svært at tegne et histogram eller en linjediagram manuelt, som du måske husker fra skolen, men regneark tegner et hurtigt og nemt, når du har indtastet dataene i en tabel, hvilket sparer dig for problemer. De vil endda lede dig gennem processen.

Visualiser dine data


Det vigtige ved at tegne en graf er, at det giver dig et øjeblikkeligt 'billede' af dataene. Dette er vigtigt, fordi det straks viser dig, om dine data er samlet, spredt omkring, tendens til høje eller lave værdier eller grupperet omkring et centralt punkt. Det viser dig også, om du har nogen 'outliers', det vil sige meget høje eller meget lave dataværdier, som du måske vil udelukke fra analysen, eller i det mindste besøge igen for at kontrollere, om de er korrekte.

Det er altid værd at tegne en graf, inden du starter en yderligere analyse, bare for at se på dine data.


Du kan også vise grupperede data i en lagkagediagram , som denne.

Eksempel på cirkeldiagram

Lagkagediagrammer bruges bedst, når du er interesseret i den relative størrelse af hver gruppe, og hvilken andel af det samlede antal passer ind i hver kategori, da de illustrerer meget tydeligt, hvilke grupper der er større.

Se vores side: Diagrammer og grafer for mere information om forskellige typer grafer og diagrammer.

Mål for placering: Gennemsnit

Det gennemsnit giver dig information om størrelsen på effekten af ​​det, du tester, med andre ord, om det er stort eller lille. Der er tre målinger af gennemsnittet: gennemsnit, median og tilstand.

Se vores side på Gennemsnit for mere om beregning af hver og en hurtig lommeregner.

Når de fleste siger gennemsnit, taler de om betyde . Det har den fordel, at det bruger alle de opnåede dataværdier og kan bruges til yderligere statistisk analyse. Det kan dog være skævt af 'outliers', værdier, der er atypisk store eller små.

Som et resultat bruger forskere undertiden median i stedet. Dette er midtpunktet for alle data. Medianen er ikke skæv af ekstreme værdier, men det er sværere at bruge til yderligere statistisk analyse.

Det mode er den mest almindelige værdi i et datasæt. Det kan ikke bruges til yderligere statistisk analyse.

Værdierne for gennemsnit, median og tilstand er ikke det samme, hvorfor det virkelig er vigtigt at være klart, hvilket 'gennemsnit' du taler om.

Vurdering af sammenfattende foranstaltninger: robusthed og effektivitet


Der er to konstruktioner (ideer eller begreber), der ofte bruges til at vurdere sammenfattende mål såsom gennemsnit, median og tilstand. Disse er robusthed og effektivitet .

  • Robusthed er et mål for, hvor følsom det resumeende mål er for ændringer i datakvalitet.

    Disse ændringer i datakvaliteten kan opstå enten gennem outliers, ekstreme værdier i begge ender eller fra handlinger, der er udført under analyse, såsom gruppering af data til yderligere analyse. En robust foranstaltning er IKKE følsom over for disse ændringer. Medianen er derfor mere robust end gennemsnittet, fordi den ikke påvirkes af outliers, og gruppering vil sandsynligvis føre til meget få ændringer.

  • Effektivitet er et mål for, hvor godt det sammenfattende mål bruger alle data.

    En mere effektiv foranstaltning bruger flere data. Gennemsnittet er derfor meget effektivt, fordi det bruger alle data.

Disse to foranstaltninger er derfor ofte modstridende: en mere robust foranstaltning vil sandsynligvis være mindre effektiv.

Du bliver nødt til at beslutte, hvad der er vigtigere i din analyse.

Mål for spredning: rækkevidde, variation og standardafvigelse

Forskere vil ofte se på spredning af dataene, det vil sige, hvor bredt dataene er spredt over hele den mulige måleskala.

Der er tre målinger, der ofte bruges til dette:

hvordan man skriver et rapporteksempel

Det rækkevidde er forskellen mellem de største og mindste værdier. Forskere citerer ofte interkvartil rækkevidde , som er området for den midterste halvdel af dataene, fra 25%, den nedre kvartil, op til 75%, den øverste kvartil, af værdierne (medianen er 50% -værdien). For at finde kvartilerne skal du bruge den samme procedure som for medianen, men tag kvart- og trekvart-punktet i stedet for midtpunktet.

Det standardafvigelse måler den gennemsnitlige spredning omkring gennemsnittet og giver derfor en fornemmelse af den 'typiske' afstand fra middelværdien.

Det varians er kvadratet for standardafvigelsen. De beregnes af:

  1. beregning af forskellen på hver værdi fra middelværdien;
  2. kvadrering af hver enkelt (for at eliminere enhver forskel mellem dem over og under gennemsnittet);
  3. opsummerer de kvadratiske forskelle;
  4. divideret med antallet af varer minus en.

Dette giver varians .

For at beregne standardafvigelse , tag kvadratroden af ​​variansen.

Skæv

Det skæv måler, hvor symmetrisk datasættet er, eller om det har flere høje eller flere lave værdier. En prøve med flere lave værdier beskrives som negativt skæv og en prøve med flere høje værdier som positivt skæv.

Generelt, jo mere skæv prøven er, desto mindre vil middelværdien, medianen og tilstanden falde sammen.

Mere avanceret analyse

Når du har beregnet nogle grundlæggende værdier af Beliggenhed , såsom gennemsnit eller median, spredning , såsom rækkevidde og varians, og fastslået niveauet for skæv , kan du gå til mere avanceret statistisk analyse og begynde at kigge efter mønstre i dataene.

Forsæt med:
Typer af data
Multivariat analyse