Cookie Consent by FreePrivacyPolicy.com rheindata GmbH | Data Cleaning - eine ungeliebte Tätigkeit mit großem Nutzen Data Cleaning - eine ungeliebte Tätigkeit mit großem Nutzen

Data Cleaning - eine ungeliebte Tätigkeit mit großem Nutzen


Lukas S.Verlässliche und konsistente Daten sind für den reibungslosen Ablauf von Geschäftsprozessen in Unternehmen unerlässlich. Datenqualität wird immer mehr zu einer unternehmensweiten strategischen Priorität. Doch obwohl eine hohe Datenqualität viele Vorteile mit sich bringt, wird dieses Gebiet oft aufgrund mangelnder Zeit oder fehlendem Personal vernachlässigt.

Daten aus der realen Welt enthalten häufig unvollständige, inkonsistente oder fehlende Werte. Diese Werte behindern wiederum den Analyseprozess oder liefern ungenaue Ergebnisse. Denn selbst die beste Analyse hat letztendlich eine geringe Aussagekraft, wenn die zugrundeliegende Datenqualität nicht ausreichend ist.

Die Art und Weise, wie gut Daten bereinigt, verstanden und analysiert werden hat daher einen hohen Einfluss auf die Qualität der Analyseergebnisse und den Erfolg der Datenstrategie im Unternehmen. Zusätzlich zum Hauptziel einer hohen Analysequalität, gibt es weitere gute Gründe, die für einen sorgfältigen Bereinigungsprozess sprechen.

Kostenvermeidung

Gründliche Datenbereinigung ist die beste präventive Lösung um Kosten zu vermeiden, die entstehen würden, wenn Unternehmen im produktiven Umfeld nachträglich mit der Fehlersuche, der Bearbeitung von Fehlern oder der Korrektur falscher Daten beschäftigt sind. Alleine in den USA gehen nach einer Schätzung von IBM jährlich 3,1 Billionen Dollar durch schlechte Daten verloren.

Verbesserte Entscheidungsfindungen

Angenommen, es gäbe keine Duplikate, Fehler oder Inkonsistenzen in den Datensätzen. Wie viel effizienter würden alle wichtigen täglichen Aktivitäten werden? Wie bereits angesprochen sind Daten, die bereinigt sind und eine hohe Qualität aufweisen, eine bessere Grundlage für Analysen und unterstützen den gesamten Business Intelligence Prozess. Dies ist einer der wichtigsten Vorteile der Implementierung eines anspruchsvollen Datenbereinigungsprozesses.

Höhere Produktivität

Die Möglichkeit, sich auf wichtige Arbeitsaufgaben zu konzentrieren, anstatt die richtigen Daten zu suchen oder Korrekturen aufgrund falscher Daten vornehmen zu müssen, ist von entscheidender Bedeutung. Der Zugriff auf saubere, qualitativ hochwertige Daten mit Hilfe eines effektiven Wissensmanagements kann ein entscheidender Faktor sein.

Besserer Verkaufszyklus

Vertriebserfolge hängen nicht zuletzt von den zugrunde gelegten Daten ab. Wenn die bestmögliche Datenqualität zur Verfügung steht, kann das Vertriebsteam bessere Leads generieren, die wiederum in Umsatzsteigerungen konvertiert werden können. Im Gegensatz dazu würde eine Vertriebskampagne stehen, die minderwertige Daten verwendet und potenzielle Kunden mit irrelevanten Angeboten anspricht. Dies verringert nicht nur die Kundenzufriedenheit, sondern bedeutet auch eine verpasste Verkaufschance.

Ressourcenersparnis

Das Entfernen von doppelten und ungenauen Daten aus Datenbanken kann Unternehmen helfen, wertvolle Ressourcen zu sparen. Diese Ressourcen umfassen sowohl Speicherplatz als auch Verarbeitungszeit. Doppelte und ungenaue Daten können die Ressourcen erheblich belasten, insbesondere wenn das Unternehmen stark datenzentriert ist. Die Bereinigung von Daten nach der Erfassung kann wie schon erwähnt sehr zeitaufwändig und teuer sein, wenn nicht die richtigen Werkzeuge und Prozesse zur Verfügung stehen, um die Bereinigung effizient durchzuführen.

Im kommenden Abschnitt werden die wichtigsten Schritte beim Umgang mit der Datenbereinigung erläutert. Diese Auflistung dient als Orientierungshilfe für eine erste Annäherung an das Thema Datenbereinigung. Damit der Bereinigungsworkflow transparent und nachvollziehbar ist, sollte neben dem eigentlichen Programmcode auch eine Dokumentation über die Arbeitsschritte angefertigt werden.



Data Cleansing



Datenbereinigung ist eine Abfolge von vier Schritten, die darauf abzielen, qualitativ hochwertige Daten zu erzeugen. Diese lassen sich wie folgt unterteilen:

  1. Inspektion: Erkennen unerwarteter, falscher und inkonsistenter Daten.
  2. Bereinigung: Beheben oder Entfernen der entdeckten Anomalien.
  3. Überprüfung: Nach der Bereinigung werden die Ergebnisse überprüft, um die Korrektheit zu verifizieren.
  4. Reporting: Es wird ein Bericht über die vorgenommenen Änderungen und die Qualität der aktuell gespeicherten Daten erstellt.

Was zunächst nach einem sequenziellen Ablauf aussieht, ist in Wirklichkeit allerdings ein iterativer Prozess. Man sollte von der Überprüfung erneut bei der Inspektion beginnen, wenn neue Fehler entdeckt werden.

Inspektion

Eine erste zusammenfassende Statistik über die Daten kann sehr hilfreich sein um einen Überblick über die Daten und ihre Qualität zu erhalten. Dabei kann überprüft werden, ob bestimmte Felder besonderen Standards oder Mustern entsprechen. Zudem sollte darauf geachtet werden, ob die Daten in dem richtigen Datentyp vorliegen. Wie viele Werte fehlen? Wie viele eindeutige Werte gibt es in einer Spalte, und wie ist ihre Verteilung? Ist dieser Datensatz mit einem anderen verknüpft oder hat er eine Beziehung zu einem anderen?

Zudem kann es zudem hilfreich sein, Visualisierungen heranzuziehen um z.B. Ausreißer besser zu erkennen. Neben der reinen statistischen Analyse (Mittelwert, Standardabweichung oder Quantile) kann man somit Werte finden, die unerwartet und damit fehlerhaft sind.

Bereinigung

Die eigentliche Bereinigung der Daten bildet die Grundlage für eine effiziente, genaue und effektive Datenanalyse. Es geht jedoch nicht einfach darum, Informationen zu löschen, um Platz für neue Daten zu schaffen. Vielmehr soll die Genauigkeit eines Datensatzes maximiert werden, ohne unbedingt Informationen zu eliminieren. Das können kleine, einfache Schritte sein wie das Korrigieren von Rechtschreib- und Syntaxfehlern, das Standardisieren von Datensätzen und das Korrigieren von Fehlern wie leere Felder, fehlende Codes und das Identifizieren von doppelten Datenpunkten.

Schritt 1: Umgang mit fehlenden Werten

Es gibt mehrere Möglichkeiten, mit fehlenden Daten umzugehen. Keine davon ist optimal, doch sollten fehlende Daten nicht ignoriert werden. Einzelne Einträge können gelöscht werden, wenn dadurch nicht ein zu großer Teil der Daten verloren geht. Es sollte aber immer sichergestellt sein, dass die Daten, die entfernt werden, nur einen geringen Einfluss auf das Endergebnis der Analyse haben. Um Datenverschwendung zu vermeiden, kann man fehlende Daten auch mit Hilfe bereits vorhandener Daten ersetzen (z.B. dem Mittelwert der Datenspalte). Allerdings wird dadurch die Genauigkeit der Daten reduziert, da es sich nur um eine Annäherung an den wahren Wert handelt.

Schritt 2: Entfernen doppelter oder irrelevanter Beobachtungen

Duplikate sind Datenpunkte, die in einem Datensatz wiederholt vorkommen. Doppelte Beobachtungen treten am häufigsten bei der Datenerfassung auf. Wenn Datensätze von verschiedenen Stellen kombiniert werden, Daten gescraped oder Daten von Kunden oder mehreren Abteilungen zusammengefasst und kombiniert werden, ist es durchaus möglich, dass Werte doppelt vorkommen können. Solche Duplikate sollten im Rahmen der Datenbereinigung gefunden und entfernt werden. Irrelevante Beobachtungen liegen hingegen vor, wenn in einem Datensatz Werte vorkommen, die nicht zu dem spezifischen Problem passen, das analysiert werden soll. Wenn z. B. Daten über Millennial-Kunden analysiert werden, der Datensatz aber auch ältere Generationen umfasst, können diese irrelevanten Beobachtungen entfernt werden. Dies kann die Analyse effizienter machen und resultiert in einen besser verwaltbaren und leistungsfähigeren Datensatz.

Schritt 3: Typkonvertierung

Eine erste zusammenfassende Statistik über die Daten kann sehr hilfreich sein um einen Überblick über die Daten und ihre Qualität zu erhalten. Dabei kann überprüft werden, ob bestimmte Felder besonderen Standards oder Mustern entsprechen. Zudem sollte darauf geachtet werden, ob die Daten in dem richtigen Datentyp vorliegen. Wie viele Werte fehlen? Wie viele eindeutige Werte gibt es in einer Spalte, und wie ist ihre Verteilung? Ist dieser Datensatz mit einem anderen verknüpft oder hat er eine Beziehung zu einem anderen? Zudem kann es zudem hilfreich sein, Visualisierungen heranzuziehen um z.B. Ausreißer besser zu erkennen. Neben der reinen statistischen Analyse (Mittelwert, Standardabweichung oder Quantile) kann man somit Werte finden, die unerwartet und damit fehlerhaft sind.

Schritt 4: Vereinheitlichung

Ein weiterer Schritt der viel Detailarbeit erfordert, aber die Qualität der Daten stark verbessern kann ist die Vereinheitlichung von Datenspalten. Zum Beispiel können Zeichenketten auf viele verschiedene Arten eingegeben werden. Die kategoriale Variable Geschlecht könnte z.B. durch Abkürzungen oder auch Tippfehler in ganz unterschiedlichen Klassen vorkommen (männlich, männ., m, weibl., weiblich, w, weiblihc). Ein Balkendiagramm kann hier nützlich sein, um alle eindeutigen Werte zu visualisieren. So lässt sich überprüfen ob einige Werte unterschiedlich sind, aber letztendlich das Gleiche bedeuten, z. B. "information_technology" und "IT" oder der Unterschied vielleicht nur in der Großschreibung, z. B. "andere" und "Sonstige" liegt. Des Weiteren sollten zusätzliche Leerzeichen am Anfang oder Ende eines Strings entfernt werden.

Überprüfung

Abschließend sollte die Korrektheit der Daten verifiziert werden. Indem die Daten erneut geprüft werden und sichergestellt ist, dass die Regeln und Einschränkungen eingehalten werden können Fehler aus dem Bereinigungsprozess reduziert oder sogar ausgeschlossen werden. Wenn z. B. die fehlenden Daten ersetzt bzw. ausgefüllt sind, kann es dennoch sein, dass bestimmte Regeln und Einschränkungen verletzt wurden. Dies kann eine erneute manuelle Korrektur erfordern, wenn dies nicht anders möglich ist.

Reporting

Ebenso wichtig wie die Bereinigung ist die Berichterstattung über den Zustand der Daten. Wie bereits erwähnt, können Softwarepakete oder Bibliotheken Berichte darüber erstellen, welche Änderungen vorgenommen wurden, welche Regeln verletzt wurden und wie oft. Neben der Protokollierung der Verstöße sollten auch die Ursachen für diese Fehler betrachtet werden. Warum sind sie überhaupt passiert?

Sie haben Fragen zum Prozess der Datenbereinigung, zum Datawarehousing oder zu ETL? Sprechen Sie uns an!