Kontakt

Nyheter

Data av god kvalitet: praktiska tips för dataanalytiker

Skräp in, skräp ut

Dataanalytiker måste, förutom att söka i data, visualisera och faktiskt analysera det, också ta itu med att rensa och hålla den data de arbetar med ren. Detta beror på att tillförlitligheten av dataanalys också beror på tillförlitligheten hos den data som används, vilket också är känt som principen "skräp in, skräp ut". Kvaliteten på resultatet av analyser kan inte vara bra om kvaliteten på data inte är det (Kilkenny & Robinson, 2018).

Vad som gör skillnaden mellan bra och dålig data ligger i ett antal faktorer (Teslow, 2016), av vilka denna artikel diskuterar följande:

  • Konsekvens (och fullständighet)
  • Noggrannhet och precision
  • Aktualitet

Konsekvens (och fullständighet)
Eftersom många analytiker använder data som kommer från olika källor, är det stor sannolikhet att data formateras olika beroende på källan. Detta kan leda till dataduplicering, med samma data som visas flera gånger i en datauppsättning. Sådant dubbelarbete leder till att förvrängda analyser och frågor förbises (Rahm & Do, 2000). Konsistens av data betyder att data är konsekventa och inte motsägelsefulla. Vid dataduplicering är det för lite konsistens i datan. Detta är också relaterat till fullständighet, där det är viktigt att ingen viktig data saknas. När det finns dataduplicering och alla uppgifter inte är på rätt plats, kommer data också att bli ofullständiga. Till exempel, om en person förekommer två gånger i en databas och en version av den här personen lägger till telefon- och adressuppgifter och den andra lägger till bankuppgifter, är båda versionerna av denna person ofullständiga på grund av dataduplicering.

Praktiskt tips 1: Standardisera datafält och format innan du slår samman data från olika källor. Detta minimerar kompatibilitetsproblem och säkerställer konsistensen hos den resulterande datamängden.

Praktiskt tips 2: I i2 iBase är det otroligt viktigt att ställa in rätt (kombination av) fält som diskriminatorfält för att förhindra dataduplicering vid import och manuellt skapande av ny data i databasen. Dessa fält säkerställer att dubbletter upptäcks, men det hindrar inte att de lagras två gånger ändå om personen som anger data väljer att göra det.

Praktiskt tips 3: Dubletter kan fortfarande förekomma i en databas trots diskriminatorfält. Det är därför viktigt att även kontrollera detta regelbundet. Detta kan göras i i2 iBase med Duplicate Records Checker. Detta kan användas för att söka efter dubbletter i en databas baserat på innehållet i specificerade fält.

                                                                                                                                 

Noggrannhet (och precision)
Korrekta uppgifter innebär att uppgifterna inte innehåller fel och överensstämmer med verkligheten. Noggrannhet går hand i hand med precision, vilket gör att uppgifterna är exakta och inte innehåller onödiga avvikelser. Att verifiera och validera både källorna och uppgifterna innan uppgifterna matas in är självklart oerhört viktigt för detta. När det gäller data med potentiellt minskad tillförlitlighet är det viktigt att detta kommuniceras på ett konsekvent sätt.

Regelbunden kontroll av uppgifternas kvalitet, inklusive dess konsistens, kan också bidra till noggrannhet och precision. Återigen, att ha tydliga interna riktlinjer om hur data lagras och formateras är oerhört viktigt.

Praktiskt tips 1: I i2 iBase kan tillförlitlighetsfält läggas till poster där både käll- och datatillförlitlighet kan anges. I databaser som inte innehåller dessa fält kan källfält användas där det hänvisas till informationens källa och då kan det i kommentarerna nämnas att det kan finnas tveksamheter kring dess tillförlitlighet.

Praktiskt tips 2: I i2 Analyst's Notebook kan grad av säkerhet läggas till för både enheter och länkar mellan dem. Dessa graderingar blir analysattribut som kan ingå vid till exempel sökning eller sortering av data.

                                                                                                    

Aktualitet
Data ska inte bara vara uppdaterade för att ge en så realistisk och komplett bild som möjligt, den bör också vara i linje med datalagringsperioder för att följa GDPR. Enligt artikel 5.1 e i GDPR ska personuppgifter bevaras så länge det är nödvändigt för det ursprungliga syftet. Det innebär att dataanalytiker behöver förstå hur länge viss data ska sparas för att både följa lagstiftningen och möta behoven i deras analyser. Enligt t ex Holländska polisdatalagen (Wpg) kan polisuppgifter dock inte användas och bevaras på obestämd tid. Tidsfrister har satts för specifika omständigheter. Andra myndigheter måste också hantera datalagringsperioder. Brott mot detta kan få konsekvenser för bland annat uppgifternas rättsliga giltighet.

Praktiskt tips: i2 har utvecklat ett verktyg speciellt för detta ändamål som kallas i2 iBase Weeder. Detta verktyg spårar datalagringsperioder och säkerställer att data raderas när lagringsperioden nås. Detta säkerställer att dessa deadlines alltid hålls utan att behöva titta på dem manuellt.

Referenser

General Data Protection Regulation [GDPR] (2016), Article 5(1)(e) and Articles 13-14.

Geiger, R. S., Yu, K., Yang, Y., Dai, M., Qiu, J., Tang, R., & Huang, J. (2020). Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From? In Conference on Fairness, Accountability, and Transparency (FAT '20),* January 27–30, 2020, Barcelona, Spain (pp. 18 pages). ACM, New York, NY, USA. [Online]. Tillgänglig via: https://stuartgeiger.com/papers/gigo-fat2020.pdf [Åtkomst 27 augusti 2023]. DOI: https://doi.org/10.1145/3351095.3372862

Kilkenny, M. F., & Robinson, K. M. (2018). Data quality: "Garbage in – garbage out." Health Information Management Journal, 47(3), 103-105. DOI: 10.1177/1833358318774357

Pressman, R. (2014). Software Engineering: A Practitioner's Approach. McGraw-Hill Education.

Rahm, E., & Do, H. H. (2000). Data Cleaning: Problems and Current Approaches. IEEE Data Engineering Bulletin, 23(4), 3-13. Wet Politiegegevens (Wpg).

Teslow M (2016) Health data concepts and information governance. In: Abdelhak M, Hanken MA (eds) Health Information: Management of a Strategic Resource, 5th ed, pp. 88–144. St Louis, Missouri: Elsevier Saunders.

Police Data Act [Wpg] (2018).

Rensa filter

    Denna webbplats använder cookies

    Vi tycker att det är mycket viktigt att du är medveten om vilka cookies vår webbplats använder och för vilka syften. Vi använder funktionella cookies för att vår webbplats ska fungera korrekt. Dessutom använder vi Analytiska Cookies för att analysera användningen av vår webbplats. Vi ber också om ditt tillstånd för placering av cookies från tredje part (sociala medier, reklam- och analyspartners) som vi delar information med. Genom att klicka på "Acceptera" accepterar du placeringen av ovan nämnda cookies. Om du klickar på "Inställningar" kommer du till en sida där du kan ange vilka cookies som får placeras. Klicka här för vår integritetspolicy.