Dixendris d-doop - Datendeduplizierungssytem

Die meisten Datenquellen enthalten ca. 3% bis 5% doppelte Einträge. Doppelte Adressen z.B. verschlechtern die Kundenbeziehung und verursachen unnötige Kosten.

In grossen Datenmengen Dubletten zu finden und zu entfernen kann nur mit einer geeigneten Softwarelösung ausgeführt werden.

Dixendris d-doop ist ein Hochgeschwindigkeitssystem für das Auffinden von Dubletten in Datenbeständen, das trotz seiner hohen Geschwindigkeit sehr effektiv bei der Ermittlung von exakten, und auf Ähnlichkeit bezogenen Duplikaten ist. Und dies unabhängig von der Stammdatenart (Adressen, Materialstammdaten, etc.).

Nehmen Sie Kontakt mit uns auf für eine kostenlose Beratung. Wir freuen uns.

Kontakt

Dixendris AG
Binningerstrasse 15
CH-4051 Basel

Tel. +41 61 272 25 15 -
www.dixendris.com -
info@dixendris.com

Dixendris d-doop Datendeduplizierungssystem

Dixendris d-doop ist eine performante Lösung für das Auffinden von Dubletten in unterschiedlichsten Datenbeständen, die Ihnen bei der Beseitigung von doppelten Datensätzen zur Seite steht.

» Ausgangssituation

Die meisten Datenquellen enthalten Dubletten von Datensätzen. In der Regel kann man davon ausgehen, dass ca. 3% bis 5% der Datensätze Dubletten sind.

Doppelte Adressen in Datenbeständen verteuern jedes Mailing. Sie verschlechtern aber auch die Kundenbbeziehung, da sich Kunden über Mehrfachzustellungen von Mailings oder über doppelte Anrufe eines Call-Centers ärgern. Ausserdem führt es meist zu einem grösseren Aufkommen von Support Aufgaben weil Personen mit Mehrfachzustellungen um die Löschung der zusätzlichen Einträge bitten. Berechnen Sie die durchschnittlichen Kosten pro Jahr die Ihre Dubletten verursachen mit unserem Dubletten-Rechner.

In grossen Datenmengen, wie z.B. einer Kundendatenbank, Dubletten zu finden und zu entfernen ist eine aufwendige und schwierige Aufgabe die meist nur mit einer geeigneten Softwarelösung ausgeführt werden kann.

Dixendris d-doop ist eine performante Lösung für das Auffinden von Dubletten in unterschiedlichsten Datenquellen und erlaubt Ihnen das Deduplizieren von z.B. 1'000'000 Datensätzen in weniger als 45 Minuten auf einem handelsüblichen PC! (siehe Tabelle Laufzeiten)

» Was kosten Sie Dubletten in Ihrem Unternehmen?

Berechnen Sie die durchschnittlichen Kosten pro Jahr.

Dublettenrechner
Anzahl Adressen:
Welche Art von Dublettenprüfung wird in Ihrem Unternehmen angewendet? gar keine (3% Dubletten)
geringe Prüfung (1.5% Dubletten)
systematische Prüfung (0.5% Dubletten)
Für welchen Verwendungszweck sollen die Kosten berechnet werden? einmaliger Briefversand (3 CHF)
einmaliger Katalogversand (10 CHF)
4 Aktionen pro Jahr (20 CHF)
12 Aktionen pro Jahr (60 CHF)
Verwaltung der Adresse (120 CHF)
Kosten:
(Basierend auf der berechneten Anzahl Dubletten)

Die eingesetzten Grundwerte verstehen sich allgemein übliche Durchschnittswerte und können von Ihren tatsächlichen Werten abweichen.

» Einsatzfelder

Dixendris d-doop ist ein System, dass sich durch Konfiguration leicht an Ihre Bedürfnisse anpassen lässt. Es kann als standalone Lösung eingesetzt werden oder einfach in Ihre Systemumgebung integriert werden um z.B. einen bestehenden Workflow mit der Deduplizierung zu erweitern.

Einsatzbeispiel

Abgleich neuer Adressdaten mit best. Kundendatenbank

» Deduplizierungsvorgang

  • Der Deduplizierungsprozess ist so ausgelegt, dass möglichst wenig Speicher belegt wird und dass die Ausführungsgeschwindigkeit sehr schnell ist.
  • Es werden mehrere Datenquellen unterstützt. So z.B. das Lesen von Daten aus einer Datei mit separierten Feldern oder das Auslesen von Daten aus einer Datenbank mittels JDBC Anbindung. Dabei können auch Datensätze aus verschiedenen Datequellen zu einem Datenpool zusammengefügt werden.
  • Für jeden einzelnen Datensatz wird ein "digitaler Fingerabdruck" erstellt, der vom FAME (Fingerprint Accelerated Matching Engine) System für die internen Vergleiche verwendet wird.
  • Die Datensätze werden dann in grobe Cluster aufgeteilt. Clustering ist nicht zwingend notwendig, verkürzt aber die Ausführungszeit dramatisch. Sehr grosse Datenmengen sind ohne geeignetes Clustering kaum zu bewältigen.
  • Nun werden alle potentielle Duplikat Kandidaten ermittelt.
  • Mittels einer konfigurierbar gewichteten Distanz Berechnung, wird der Ähnlichkeitswert der Duplikat Kandidaten bestimmt. Dabei bedeutet ein Wert von 1.0 eine im Sinne der Konfiguration 100% Übereinstimmung und z.B. 0.75 eine 75% Übereinstimmung.
  • Die ermittelten Duplikate sowie auch die Unikate können dann gesondert verarbeitet werden.

Laufzeiten Deduplizierung mit Dixendris d-doop

Die folgende Tabelle zeigt die Laufzeiten von Dixendris d-doop, für das Deduplizieren von Adressdatensätzen. Dedupliziert wurde auf die Datenfelder Anrede, Vorname, Nachname, Strasse Nummer PLZ und Ort mit einer Standardkonfiguration.

Anzahl Adressen Laufzeit
50'000 1 Minute
100'000 2 Minuten
150'000 5 Minuten
300'000 15 Minuten
1'000'000 40 Minuten
2'000'000 2.5 Stunden
3'000'000 4.5 Stunden

Referenzsystem: Handeslüblicher Laptop mit Intel T2400 1.83GHz, 2.00GB RAM

Trotz seiner hohen Geschwindigkeit ist Dixendris d-doop sehr effektiv bei der Ermittlung von exakten, und auf Ähnlichkeit bezogenen Duplikaten.

» Lösungsbeschreibung

Es gibt zwei Arten von Dubletten die vollständig identischen und solche die einander bis zu einem gewissen Grad ähnlich sind.

Die zweite Art von Dubletten entstehen in der Regel durch Schreibfehler wie z.B. das Verdrehen oder weglassenen von Buchstaben in einzelnen Wörten. Oder auch durch den Zukauf von Adressmaterial von Drittanbietern.

Mit Dixendris d-doop werden sowohl völlig identische Datensätze wie auch ähnliche Datensätze gefunden. Es beinhaltet also eine unscharfe Suche (Fuzzy Search).

Da Ähnlichkeit einen sehr komplexen Sachverhalt darstellt, ist das Identifizieren von ähnlichen Datensätzen ist im Gegensatz zum Finden von identischen Datensätzen ein sehr anspruchsvolle Aufgabe für ein Computer System. Beim Finden eines solchen Duplikats kann nicht auf einfache ja/nein Logik zurückgegriffen werden, sondern es muss ein möglichst aussagekräftiger Ähnlichkeitswert ermittelt werden der angibt zu wieviel Prozent z.B. zwei Datensätze einander ähnlich sind.

Das Deduplizieren von Datensätzen, bei welchen eine solche Ähnlichkeitssuche angewandt wird, hat inherent eine mit der Anzahl an Datensätzen exponentiel wachsende Ausführungszeit. Deshalb ist eine effiziente Bearbeitung der Datensätze durch clevere, auf Geschwindigkeit optimierte Algorithmen von absoluter Dringlichkeit um eine solche Aufgabe in nützlicher Zeit auszuführen.

Es gibt viele Systeme die das Deduplizieren von wenigen tausend Datensätzen ohne grössere Probleme in einigen Minuten meistern können, aber bei einer wachsenden Anzahl an Datensätzen (ab ca. 300'000) schnell scheitern oder eine nicht adäquate Ausführungszeit von zig Stunden benötigen. Das Deduplizieren von grossen Datenmengen, also mehrere Millionen, stellt für viele Systeme meist ein grosses nicht in nützlicher Zeit lösbares Problem dar.

Dixendris d-doop ist ein Hochgeschwindigkeits-Deduplizierungssystem, das dank seiner einzigartigen FAME (Fingerprint Accelerated Matching Engine) Technologie, auch eine grosse Anzahl von Datensätzen innerhalb kürzester Zeit verarbeiten kann. Dank FAME lassen sich pro Sekunde über 85'000'000 Duplikat Vergleiche durchführen.

So ist es möglich auch grosse Datenmengen in nützlicher Zeit zu deduplizieren.

» Kontaktieren Sie uns

Dixendris AG
Binningerstrasse 15
CH-4051 Basel

Tel. +41 61 272 25 15
www.dixendris.com
info@dixendris.com