Datenbereinigung

Datenbereinigung im Prozess des maschinellen Lernens

Ein gut funktionierendes Modell für maschinelles Lernen beginnt mit einem entscheidenden Schritt: saubere und zuverlässige Daten. In der Praxis sind die Rohdaten oft unvollständig, inkonsistent oder fehlerhaft. Daher ist die Datenbereinigung ein wesentlicher Bestandteil des KI-Prozesses, insbesondere im Versicherungssektor, wo sich die Entscheidungsfindung direkt auf die Kunden, die Einhaltung von Vorschriften und den wirtschaftlichen Wert auswirkt.

In diesem Artikel geben wir einen Überblick über gängige Datenbereinigungstechniken und wie wir sie auf die bei Onesurance verarbeiteten Daten anwenden.

Warum ist die Datenbereinigung wichtig?

Algorithmen des maschinellen Lernens sind empfindlich gegenüber Rauschen, Fehlern und fehlenden Werten. Wenn diese nicht behoben werden, können sie zu:

Verzerrte Vorhersagen
Geringere Zuverlässigkeit
Schlechte Verallgemeinerung auf neue Kundendaten
Ungerechtfertigte Schlussfolgerungen oder unfaire Voreingenommenheit

Durch einen strukturierten Ansatz bei der Datenbereinigung stellen wir sicher, dass die Modelle:

Transparente Erklärungen
Wiederholbar und reproduzierbar sein
Zuverlässige und ehrliche Vorhersagen machen

Techniken zur Datenbereinigung

1. Entfernen oder Imputieren von fehlenden Werten

Fehlende Werte (Nullen oder leere Felder) werden oft durch gelöst:

Löschen von Datensätzen, wenn zu viele Daten fehlen
Imputation: Auffüllen auf der Grundlage von Durchschnittswerten, Medianen oder durch algorithmische Schätzung (z. B. KNN-Imputation)

Bewerbung bei Onesurance:

Bei Schadendaten kann das Fehlen eines Schadenbetrags auf der Grundlage ähnlicher Schäden in derselben Branche und demselben Segment unterstellt werden.

2. Erkennung von Ausreißern (Ausreißern)

Ausreißer können ein Modell stark beeinflussen. Sie werden über identifiziert:

Statistische Methoden (z. B. Z-Scores, IQR)
Visualisierung (Boxplots, Streudiagramme)
Modellbasierte Erkennung (z. B. Isolationswälder)

Ein Beispiel:

Ein extrem hohes Kontaktvolumen oder eine sehr hohe Anspruchshäufigkeit kann auf Datenfehler, außergewöhnliche Kunden oder Betrugsanfälligkeit hinweisen.

3. Bereinigung von Textfeldern

Freier Text (z. B. Beschwerdebeschreibung oder Kontakthinweis) wird mit bereinigt:

Kleinschreibung, Entfernung von Interpunktionen
Stoppwörter löschen
Lemmatisierung/Stimmung

Ein Beispiel:

Bei der Stimmungsanalyse von Kontaktmomenten wird der Text zunächst bereinigt und dann nach Stimmung oder Dringlichkeit klassifiziert.

4. Erkennung von inkonsistenten oder doppelten Datensätzen

Wir prüfen auf:

Kunden mit identischen Namens- und Adressdaten
Policen, die mehrfach auftreten
Ansprüche ohne Bezug zur Police

Ein Beispiel:

Verhinderung, dass ein Kunde mit doppelter Einschreibung als zwei einzelne Kunden betrachtet wird (z. B. bei der Berechnung des CLV).

Spezifische Punkte von Interesse in den Versicherungsdaten

Die Datenmodelle von Onesurance verarbeiten komplexe und umfangreiche Informationen. Ein besonderer Schwerpunkt liegt auf:

Fälligkeit der Policen: Die korrekte Datierung ist für die Berechnung der Abwanderung und der Laufzeit entscheidend.
Kundenhierarchien: Familien- oder Unternehmensstrukturen müssen richtig verknüpft werden, um den Kundenwert zu verstehen.
Verknüpfungen zwischen Datensätzen: Ansprüche müssen mit der richtigen Police verknüpft werden; Kontaktmomente mit dem richtigen Kunde.

Auf diese Weise gewährleisten wir die Kontinuität und Zuverlässigkeit aller in der Onesurance verwendeten Prognosen.

Haben Sie Fragen dazu, wie Ihre Daten bereinigt werden, oder möchten Sie Ihre eigene Datenqualität verstehen? Dann wenden Sie sich bitte an Ihren Customer Success Manager.

Anforderungen an die Daten

Gemeinsame Nutzung von Daten