Data cleaning
Data cleaning in het machine learning proces
Een goed werkend machine learning-model begint met één cruciale stap: schone en betrouwbare data. In de praktijk is ruwe data vaak incompleet, inconsistent of bevat het fouten. Daarom is data cleaning een essentieel onderdeel van het AI-proces, zeker in de verzekeringssector waar besluitvorming direct invloed heeft op klanten, compliance en commerciële waarde.
In dit artikel geven we een overzicht van veelgebruikte technieken voor data cleaning, en hoe we deze toepassen op de data die bij Onesurance wordt verwerkt.
Waarom is data cleaning belangrijk?
Machine learning-algoritmen zijn gevoelig voor ruis, fouten en ontbrekende waarden. Als deze onopgelost blijven, kunnen ze leiden tot:
Vertekende voorspellingen
Verminderde betrouwbaarheid
Slechte generalisatie naar nieuwe klantdata
Onterechte conclusies of oneerlijke bias
Door gestructureerd te werken aan data cleaning zorgen we ervoor dat de modellen:
Transparant uitlegbaar zijn
Herhaalbaar en reproduceerbaar zijn
Betrouwbare en eerlijke voorspellingen doen
Gebruikte technieken voor data cleaning
1. Verwijderen of imputeren van ontbrekende waarden
Ontbrekende waarden (nulls of lege velden) worden vaak opgelost door:
Verwijderen van records als te veel data ontbreekt
Imputatie: invullen op basis van gemiddelden, medianen of via algoritmische schatting (bijv. KNN-imputatie)
Toepassing bij Onesurance:
Bij schadegegevens kan het ontbreken van een schadebedrag worden geïmpuleerd op basis van vergelijkbare claims in dezelfde branche en segment.
2. Detectie van outliers (uitschieters)
Outliers kunnen een model sterk beïnvloeden. Ze worden geïdentificeerd via:
Statistische methoden (bijv. Z-scores, IQR)
Visualisatie (boxplots, scatterplots)
Model-gebaseerde detectie (bijv. Isolation Forests)
Een voorbeeld:
Een extreem hoog contactvolume of zeer hoge schadefrequentie kan duiden op datavergissingen, uitzonderlijke klanten of fraudegevoeligheid.
3. Opschonen van tekstvelden
Vrije tekst (zoals klachtomschrijving of contactnotitie) wordt schoongemaakt met:
Lowercasing, interpunctie verwijderen
Stopwoorden verwijderen
Lemmatization/stemming
Een voorbeeld:
Bij sentimentanalyse op contactmomenten wordt de tekst eerst geschoond, daarna geclassificeerd op sentiment of urgentie.
4. Detectie van inconsistente of dubbele records
We controleren op:
Klanten met identieke NAW-gegevens
Polissen die meerdere keren voorkomen
Claims zonder polisreferentie
Een voorbeeld:
Voorkomen dat een relatie met dubbele inschrijving als twee unieke klanten wordt beschouwd (bijv. bij het berekenen van CLV).
Specifieke aandachtspunten in de verzekeringsdata
De datamodellen van Onesurance verwerken complexe en rijke informatie. Specifieke aandacht gaat uit naar:
Looptijd van polissen: correcte datering is essentieel voor churn- en lifetimeberekening.
Klant-hiërarchieën: gezinsstructuren of bedrijfsstructuren moeten correct gelinkt zijn om klantwaarde te begrijpen.
Verwijzingen tussen datasets: schade moet aan juiste polis gekoppeld zijn; contactmomenten aan juiste relatie.
Zo waarborgen we de continuïteit en betrouwbaarheid van alle voorspellingen die in het Onesurance-platform worden gebruikt.
Heb je vragen over hoe jouw data wordt opgeschoond of wil je inzicht in je eigen datakwaliteit? Neem dan contact op met je Customer Success Manager.