Checklista

Att tänka på vid inmatning av forskningsdata i Excel

Generellt rekommenderas att data matas in i en databas via ett anpassat gränssnitt (t.ex. Medicase, REDCap, Viedoc). Om Excel ändå är det verktyg som används, hjälper denna checklista till att minimera risken för fel och skapar en datastruktur som fungerar smidigt för statistisk analys. Vi kan givetvis läsa alla filer som skickas till oss, men genom att följa dessa instruktioner underlättar du vårt arbete, reducerar vår arbetsinsats (billigare för dig) och säkerställer datakvaliteten.

1. Grundläggande Struktur

Det viktigaste är att filen har en enkel och konsekvent struktur.

  • En variabel per kolumn: Varje kolumn representerar en variabel (t.ex. ålder, vikt, behandlingsgrupp).
  • En observation per rad: Varje rad representerar en unik observation (t.ex. en patient, ett prov, en tidpunkt).
  • Variabelnamn på första raden: Rad 1 ska endast innehålla korta, beskrivande variabelnamn (t.ex. pat_id, age_at_diagnosis, gender). Använd inga specialtecken eller mellanslag i variabelnamn (använd understreck istället: min_variabel).
  • Data från rad 2: Själva datavärdena ska börja direkt på rad 2. Lägg inga extra rubriker, sammanfattningar eller tomma rader mellan variabelnamnen och datan.
  • En enda datatabell per flik: Blanda inte flera tabeller, bilder eller diagram på samma flik som rådatan. En flik = En datatabell.

2. Hantering av data och värden

  • Ett värde per cell: Mata endast in ett värde i varje cell. Skriv t.ex. inte ”180 cm” i en cell, dela istället upp det i två variabler: längd (värde: 180) och längd_enhet (värde: ”cm”).
  • Tomma celler för saknade värden (Missing data): Om ett värde saknas, lämna cellen helt tom. Skriv inte ”saknas”, ”ej mätt”, ”NA”, ”-”, ”?”, ”*”, ”999” eller liknande. En blank cell är standard för saknade värden och förstås av alla statistikprogram.
  • Var konsekvent: Om du använder textkoder, se till att de är identiska varje gång. ”Ja”, ”ja”, och ”JA” tolkas som tre olika värden av ett program. Välj en form och håll dig till den (t.ex. alltid ”Ja”). Filter-funktionen i Excel är ett bra verktyg för att hitta inkonsekvenser.
  • Inga formler: Undvik att ha formler i rådatafilen om du är osäker på hur detta fungerar. Vi kan hjälpa till att skapa dessa variabler senare.
  • Datumformat: Använd alltid samma format för datum, helst det internationella formatet ÅÅÅÅ-MM-DD (t.ex. 2023-11-28). Detta format är entydigt och undviker förväxling med andra format.

3. Variabeltyper och formatering

  • Blanda inte text och siffror: En kolumn som ska innehålla siffror (t.ex. ålder) får inte innehålla text (t.ex. ”ca 45”). Detta tvingar hela kolumnen att tolkas som text, vilket omöjliggör beräkningar.
  • Siffror ska vara siffror: Ibland formaterar Excel siffror som text (visas ofta med en liten grön triangel i hörnet och är vänsterjusterade). Markera kolumnen, klicka på varningssymbolen och välj ”Konvertera till tal”.
  • Koda kategorier numeriskt: För kategoriska variabler (t.ex. kön, ja/nej-frågor), använd siffror istället för text. Skapa sedan en separat flik som fungerar som en kodnyckel/datadictionary.


Exempel:
Variabel rökare: 1=Ja, 0=Nej
Variabel kön: 1=Man, 2=Kvinna

  • Ingen ”kosmetisk” formatering: Använd inte färger, fetstil eller kursiv text för att koda information. Datan ska finnas i cellerna, inte i formateringen. Att markera en avvikande cell med röd färg försvinner vid inläsning till statistikprogram. Skapa istället en ny kolumn (kommentar eller avvikelse) och beskriv saken där.

4. Layout och ”Gör inte”-regler

  • Sammanfoga inte celler: Använd aldrig ”Merge Cells”. Det skapar problem vid sortering, filtrering och inläsning.
  • Dölj inte rader eller kolumner: Dold data kan lätt glömmas bort eller orsaka fel. All data som ska analyseras ska vara synlig.
  • Inga summeringar i filen: Lägg inte in summeringar, medelvärden eller andra beräkningar längst ner i din datatabell. Dessa kan av misstag läsas in som en sista observation.
  • Använd ”Lås fönsterrutor” (Freeze Panes): Om du har många kolumner och vill se patient-ID hela tiden, använd ”Lås fönsterrutor” istället för att upprepa ID-kolumnen på flera ställen.
  • Var försiktig med att radera: Använd Delete-tangenten för att rensa innehållet i celler. Om du högerklickar och väljer ”Ta bort…”, var försiktig så du inte väljer ”Flytta celler uppåt/vänster”, då detta förskjuter hela din datastruktur och kan leda till katastrofala fel.

5. Datakontroll (Tips för att hitta eventuella fel)

Innan du skickar filen, gör några enkla kontroller:

  • Använd Filter: Aktivera filter på din rubrikrad. Klicka på pilen för en kolumn för att se alla unika värden. Här kan du snabbt upptäcka stavfel (”Man”, ”man”, ”Mna”) eller orimliga värden.
  • Kontrollera min/max: Markera en numerisk kolumn eller ett intervall av celler. Längst ner i Excels statusfält kan du se värden som Min, Max och Medelvärde (högerklicka på statusfältet om de inte syns). Ser maxvärdet för ålder rimligt ut?
  • Hitta dubbletter: Använd Excels funktion för villkorsstyrd formatering för att markera dubblettvärden i en ID-kolumn för att säkerställa att varje rad är unik.
  • Zooma ut: Zooma ut kraftigt för att få en visuell överblick. Ibland kan man då se rader eller kolumner som avviker i format eller är tomma av misstag.



<< Tillbaka till Statistiska Konsultgruppen

Rulla till toppen