Kroll-Software
| This page in english | Impressum   
 
30 users online   
 
Startseite Produkte Download Shop Support Kontakt

Startseite > Produkte > FuzzyDupes

 

*  FuzzyDupes 2007

Unscharfe Dublettensuche in Datenbanken

30-Tage Demo - für Windows 2000, XP, Server 2003/2008, Vista, Windows 7

NEU: Die besonders leistungsstarke 64-Bit Parallel Edition

Dedupe, Data Cleansing, Data Quality und Record Linkage Lösung

Doppelte Datensätze in Datenbanken verursachen nicht nur hohe Kosten sondern führen auch zu zahlreichen weiteren Problemen. Nicht zuletzt bei der Konsolidierung verschiedener Datenbestände, z.B. bei Fusion oder Wertschöpfung aus zugewonnenen Daten, ist die Dublettensuche ein unabdingbarer und unternehmenskritischer Prozess. Daher nimmt die Sicherung der Datenqualität im Unternehmen einen immer höheren Stellenwert ein.

 

Was ist unscharfe Dublettensuche ?

Datenbanken können sehr schnell gleiche Datensätze ermitteln. Sie erstellen dazu Indices, das sind baumartige Datenstrukturen, die mit wenigen Zugriffen einen bestimmten Satz auch in sehr großen Datenbeständen finden können. Dadurch stellt die Suche nach scharfen Dubletten, also völlig identischen Datensätzen, überhaupt kein Problem dar.

Das Herausfinden von ähnlichen Sätzen, also z.B. von Adressen mit kleinen Schreibfehlern, Verdrehern, ausgelassenen Buchstaben, usw., ist dagegen eine sehr schwierige Aufgabe für Computer. Während ein Mensch auf den ersten Blick erkennt, dass zwei Datensätze ähnlich sind, lässt sich dieser Begriff ähnlich nur sehr schwer in Rechenvorschriften (Algorithmen) ausdrücken.

Andererseits ist es für einen Menschen unmöglich, schon in einigen hundert Datensätzen doppelte Sätze zu erkennen. Dabei besitzt jede Datenbank, die wir gesehen haben - auch wenn sie noch so gut gepflegt ist – typischerweise mindestens 1 bis 3 % Dubletten.

Diese doppelten Sätze verursachen erhebliche Kosten z.B. beim Versenden von Katalogen und führen zu großen Problemen in der Buchhaltung, im Support, im Controlling, etc. Ganz wichtig wird eine unscharfe Dublettensuche, wenn Sie Daten zusammenführen, z.B. nach Zukauf neuer Adressen.

 

Wie funktioniert eine unscharfe Dublettensuche ?

Solche Algorithmen, die Zeichenketten vergleichen und darin wiederkehrende Muster erkennen können, nennt man Pattern-Matching-Algorithmen. Es gibt davon einige gut bekannte, die in der Informatik für solche Zwecke vorzugsweise genommen werden. So z.B. die Levenshtein-Metrik (auch Edit-Distanz genannt).

Die Edit-Distanz drückt die Anzahl der fundamentalen Editierschritte (Einfügen, Ändern, Löschen) aus, die notwendig sind, um Zeichenkette A in Zeichenkette B umzuwandeln. Solche Pattern-Matching Algorithmen sind ziemlich rechenintensiv, und so benötigen Programme zur unscharfen Dublettensuche sehr lange Rechenzeiten, oft Tage oder sogar Monate. (FuzzyDupes 5 schafft 30.000 Datensätze meist in < 1 Minute).

Da die Anzahl der direkten Vergleiche zwischen zwei Datensätzen mindestens im Quadrat mit der Anzahl der Datensätze ansteigt, versucht man, eine Vorauswahl zu treffen, um auch große Datenbanken durchsuchen zu können. Diese Vorauswahl nennen wir hier: Clusterbildung.

Eine primitive Clusterbildung bei Adressdaten wäre z.B., sich auf die ersten 2 Stellen der Postleitzahl zu verlassen (indem man impliziert, dass diese richtig erfasst wurden) und nach diesen zu gruppieren. Das ist ein typischer Ansatz für die Dublettensuche. Innerhalb dieser Gruppe vergleicht man dann jeden Satz mit jedem anderen, z.B. unter Verwendung der Levenshtein Distanz. Dennoch ergeben sich dabei bei größeren Datenbeständen extrem lange Rechenzeiten.

Deutlich besser und raffinierter sind schon phonetische Algorithmen wie SoundEx oder Metaphone. Diese funktionieren jedoch am Besten nur in der englischen Sprache und bewerten außerdem den Anfangsbuchstaben äußerst stark. FuzzyDupes 3 verwendete übrigens phonetische Algorithmen zur Clusterbildung.

Vor der Clusterbildung und dem Pattern-Matching gibt es noch einen 3. Rechenschritt, nämlich eine Normalisierung der Daten. Hierbei werden Umlaute und Sonderzeichen ersetzt, aber auch gebräuchliche Abkürzungen (wie z.B. Straße / Strasse in Str.), um das Suchergebnis von vorn herein zu verbessern. Diese Ersetzungen sind trivial. Sie beeinflussen das Ergebnis aber nur geringfügig. Manche Normalisierungen können das Ergebnis auch wieder verschlechtern. Jede Normalisierung kann sich auf einige Sätze positiv und gleichzeitig auf andere Sätze negativ auswirken. Oft ist die Güte bestimmter Normalisierungsregeln stark von den verwendeten Daten abhängig.

 

Was ist das Besondere an FuzzyDupes ?

Wie oben beschrieben, setzt sich eine unscharfe Dublettensuche also im Wesentlichen aus drei Verfahren zusammen:

  1. Normalisierung der Daten
  2. Clusterbildung / Vorauswahl
  3. einem geeigneten Pattern-Matching Algorithmus
1. Normalisierung

FuzzyDupes 5 besitzt einen Editor zum Erstellen eigener Normalisierungsregeln. Eine Standard-Normalisierung ist dabei vordefiniert. Diese enthält die Umwandlung von Umlauten und Sonderzeichen, doppelten Leerzeichen, Umwandlung in Grossbuchstaben, etc. Daneben sind einige weitere Regeln und gebräuchliche Abkürzungen vordefiniert, die sich (in Adressdaten) fast immer vorteilhaft auswirken. Darüber hinaus können Sie eigene Regeln definieren.

2. Clusterbildung

FuzzyDupes erstellt über alle Zeichenketten einen TriGram Hash-Index. Trigramme sind alle in den Daten vorkommenden 3-er Zeichenfolgen.
In "Kroll" z.B. _KR, KRO, ROL, OLL, LL_
Dieses Verfahren ist durchaus bereits bekannt. Unsere Implementierung zeichnet sich durch eine sehr leistungsfähige Clusterengine aus, die auf einem handelsüblichen PC ca. 10 Mio. (!) Trigramme pro Sekunde miteinander vergleichen kann.

Ein solcher Trigramm-Index bietet eine optimale und mathematisch exakte Clusterbildung mit großer Genauigkeit und bester Trennschärfe unter Berücksichtigung sämtlicher Permutationen der Daten, wie Drehern, Spiegelungen, Einfügungen, etc.

Unsere Clusterbildung ermöglicht die Suche auch in großen Datenbanken mit relativ kurzer Rechenzeit und liefert dabei zuverlässige Ergebnisse. Wichtig ist dabei die Auswahl geeigneter Spalten für die Clustersuche durch den Benutzer.

3. Pattern-Matching

Der wohl bekannteste und am häufigsten eingesetzte Algorithmus ist die oben beschriebene Levenshtein-Distanz. Den verwenden wir übrigens nicht.

Dieser und einige andere bekannte Algorithmen bieten insgesamt gute Resultate, jedoch nicht, wenn die Zeichenfolgen einfach oder mehrfach gespiegelt sind. Dann kommen alle bekannten Algorithmen auf max. 50% Übereinstimmung. Ein Mensch würde dagegen eine höhere Übereinstimmung sehen (z.B. bei "Detlef Kroll" und "Kroll, Detlef").

FuzzyDupes 5 verwendet einen von uns selbst entwickelten Algorithmus, der sämtliche Permutationen einer Zeichenkette optimal bewertet.

 

Warum ist FuzzyDupes so preiswert im Vergleich zu manchen anderen Dublettensuch-Programmen ?

Dublettensuche war in der Vergangenheit eine Speziallösung für einen sehr begrenzten Kundenkreis. Zudem waren das Anwendungen für Großrechner, da nur diese in der Lage waren, den Rechenaufwand zu leisten. Daher waren solche Programme sehr teuer.

Wir sind jedoch der Meinung, dass eine unscharfe Dublettensuche für jedes Unternehmen unverzichtbar ist, welches eine Kundendatenbank pflegt. Wir wollen diese Anwendung auch für kleinere und mittlere Unternehmen nutzbar machen, wobei uns bewusst ist, dass der Preis immer in einem Verhältnis zum Nutzen stehen muss. Daraus kalkuliert sich unser Preis. Wobei der Nutzen für Ihr Unternehmen um ein vielfaches über dem Preis einer FuzzyDupes-Lizenz liegen kann.

 

Warum ist die neue Demo-Version völlig unbeschränkt ?

Wir haben in der Vergangenheit gesehen, dass es schwer ist, neue Anwender von der Notwendigkeit einer Dublettensuche zu überzeugen, wenn die Demo-Version zu sehr eingeschränkt ist. Bisher haben wir dann erst auf Anfrage eine unbeschränkte Version herausgegeben.

Wir sind jedoch der Meinung, dass stark eingeschränkte Demo-Versionen niemandem helfen. Daher können Sie in unserer aktuellen Demo das Programm in vollem Funktionsumfang testen und das komplette Suchergebnis beurteilen.

Bitte beachten Sie: Wir stellen Ihnen diese kostenlose Demo ausschließlich zu Evaluierungszwecken zur Verfügung. Damit Sie prüfen können, ob diese Software das leistet, was sie verspricht, und um zu prüfen, ob Sie überhaupt einen Bedarf an einer solchen Dublettensuche haben.

Schon die Nutzung der Suchergebnisse erfordert jedoch eine kostenpflichtige Lizenz. Wir nennen das "Faire Software". Bitte seien Sie fair und lassen Sie diese Software lizensieren, wenn Sie sie produktiv einsetzen wollen.

 

Was ist neu an FuzzyDupes 2007 ?

  • Komplette Neu-Implementierung in DotNet 2.0 / C#.
    Dadurch ist das Programm zukunftssicher und stabil.
  • Verbesserte Algorithmen, insbesondere unser neuer Pattern-Matching-Algorithmus (s.o.)
  • Deutlich reduzierter Speicherbedarf
  • Benutzerdefinierte Normalisierungsregeln
  • Volle Unicode Unterstützung. Dublettensuche prinzipiell auch unter Unicode Sprachen
  • Verbesserte Benutzeroberfläche
  • Direktes Löschen aus MS-Outlook und Windows Adressbuch
  • Zahlreiche weitere Verbesserungen

Da das Programm große Datenstrukturen im Arbeitsspeicher anlegen muss, ist die Leistungsfähigkeit auch durch die zur Verfügung stehende Speichermenge begrenzt. Unter einem 32-Bit Betriebssystem können max. ca. 2,5 Gbyte Speicher adressiert werden. Mit der Vorgängerversion konnten dabei ca. 300.000 bis 500.000 Sätze durchsucht werden. Version 5 leistet deutlich mehr.

 
Unterstützte Datenbankformate:
  • MS-Access, neu! MS-Access 2007*
  • MS SQL-Server
  • MS-Excel, neu! MS-Excel 2007*
  • Text/CSV Dateien
  • Andere Datenbanken mit ODBC-Treiber oder OLEdb Provider, z.B. Oracle, MySQL, dBase, Foxpro, Paradox, FileMaker, Cache, PostgreSQL, etc.
  • neu! Verbesserte Suche und Löschen aus MS-Outlook Kontaktordnern.
    FuzzyDupes ist somit die Lösung zum Beseitigen von Dubletten aus Outlook.
  • Windows Adressbuch
  • MS-SharePoint Server
  • BulkMailer Adressdatenbanken
  • neu! Läuft nun auch mit dem IBM DB2 Datenbank Server

*) Erfordert Installation der 2007 Office System Treiber

Features
  • Schnelle unscharfe Dublettensuche in vielen Datenquellen
  • Unscharfes Zusammenführen von zwei Listen
  • Unscharfer Abgleich mit externer Liste

 
Systemvoraussetzungen:

  • Windows 2000 / XP / Server 2003/2008, Vista, Windows 7
  • Ausreichend freier Arbeitsspeicher bei großen Datenbanken

 
Download
Download FuzzyDupes 2007

Version 2007 (V. 5.7.5) deutsch / englisch

Verwenden Sie dieses SetUp
für alle Windows Versionen
(Windows 2000, XP, Server 2003/2008, Vista, Windows 7)
NEU: Die besonders leistungsstarke 64-Bit Parallel Edition
Bei diesen Downloads handelt es sich um eine 30-Tage Demo, die durch Lizensierung zur Vollversion freigeschaltet werden kann.


Bestellung

Sie können FuzzyDupes 2007 kostenlos und unverbindlich 30 Tage lang testen. Danach müssen Sie eine Nutzungslizenz erwerben, wenn Sie das Programm weiterhin verwenden wollen.

Eine Einzelplatzlizenz** kostet   EUR  249,-  netto*

 *) Die angegebenen Preise sind Nettopreise. Ob und wieviel MwSt. Sie zahlen müssen ist davon abhängig, wie und aus welchem Land Sie bestellen. Weitere Informationen dazu unter Shop

**) Die Lizenz berechtigt zum zeitlich unbegrenzten Einsatz der Software an einem Arbeitsplatz. Es enstehen keine weiteren Kosten. Kostenlose Updates auf alle Versionen 5.x und kostenloser Support inbegriffen.

FuzzyDupes 2007   Bestellung
Kreditkarten: VISA, Mastercard, American Express, Diners Club
Sichere Zahlung per Kreditkarte, Überweisung oder Scheck
über die Firma ShareIt! element 5 AG, Koeln


Firmen aus der EU und der Schweiz können auch gegen Rechnung bestellen.
Uns genügt eine formlose Bestellung per Email an bestellung@kroll-software.ch.
Bitte geben Sie dabei Ihre vollständige Rechnungsanschrift an.

Das Update ist für registrierte User der Version 4.x kostenlos, wenn Ihre Lizenz von nach dem 16.12.2005 stammt. Ansonsten ist ein Update zu EUR 119,- verfügbar.


Beispiel Suchergebnis

FuzzyDupes findet ähnliche Datensätze in Adressdatenbanken.

(FuzzyDupes findet ähnliche Datensätze in Adressdatenbanken.)

 


Wenn Sie Fragen zu diesem Produkt oder zur Bestellung haben,
zögern Sie nicht, uns anzurufen. Wir beraten Sie gern
unter Tel.: +41-41-5351767 (Schweiz)


Folgende Kunden haben sich bereits für FuzzyDupes entschieden:

Acromag, Inc., Arnold & Porter LLP, Axonmedia GmbH, BAUHERR GmbH, Boesner GmbH, BFB Branchen-Fernsprechbuch GmbH, BOTAMENT Systembaustoffe GmbH & Co.KG, Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, CAQ AG Factory Systems, Citigroup USA, Coalition America, COMIT AG, CompuMED GmbH & Co.KG, CreditPlus Bank AG, Danfoss GmbH, Degussa AG, Deutsche Bahn AG, Deutsche Lufthansa AG, DHL Solutions GmbH, Dresdner Bank Luxemburg S.A., DuPont Performance Coatings GmbH & Co. KG, EDB Group, E.ON Ruhrgas AG, Erlau AG, European Businessguide GmbH, Familotel AG, fischerwerke, Fraunhofer IML, Fresenius Netcare GmbH, Handwerkskammer Hamburg, Hewlett Packard EMEA GmbH, Hilti, Inc., Hirschfeld Touristik Event GmbH & Co.KG, InterRisk Versicherungs AG, Kraft USA, LIDL Stiftung & Co KG, Liechtensteinische Post AG, Maritim Hotelgesellschaft mbH, music-city Steinbrecher GmbH & Co.KG, Oberfinanzdirektion Frankfurt, Oberfinanzdirektion Hannover, Oberfinanzdirektion Karlsruhe Landeszentrum f. Datenverarbeitung, Oberfinanzdirektion Magdeburg, OÖ. Tourismus Technologie GmbH, ORWO Media GmbH, OSRAM GmbH, P&I Personal & Informatik AG, SCA Packaging Deutschland, SGI-USA, Siemens VDO Automative AG, Stadt Göttingen, Stadt Münster, Stadt Solingen, Toys "R" Us GmbH, Volksbank Bad Saulgau eG, Vorarlberger Volksbank, Westermann AG, Wincare Versicherungen, Wirtschaftskammer Oberöstereich, WTS Schaltgeräte GmbH, Xella Baustoffe GmbH, Zürcher Hochschule für Angewandte Wissenschaften, u.v.m.


Weitere Informationen zu FuzzyDupes finden Sie in der Online-Hilfe.


SOFTPEDIA 100% Clean Award
 
 
Frei von Spyware, Viren, Trojanern oder Hintertüren
 
This software product was tested in the Softpedia labs.
Softpedia guarantees that FuzzyDupes 2007 is 100% CLEAN, which means is does not contain any form of malware, including but not limited to: spyware, viruses, trojans and backdoors.


FuzzyDupes Dublettensuche in Ihren Anwendungen

Sie wollen dieses Verfahren in Ihre eigene Datenbankanwendung integrieren ?

Wir stellen Ihnen dazu eine DotNet 2.0 Assembly oder ein COM-Objekt und den notwendigen Entwicklersupport bereit.


FuzzyDupes ist auf zahlreichen Download-Sites gelistet und bewertet, unter anderem:

www.onekit.com download FuzzyDupes 2007 www.softslist.com
www.vista-files.org FuzzyDupes 2007 rated 5 stars on www.softarea51.com Download FuzzyDupes 2007 - DoDownload.com FuzzyDupes 2007 Best rated by Forte downloads

Dedupe, Data Cleansing, Data Quality, Record Linkage

Software zum Suchen und Entfernen von doppelten Datensätzen wird auch Dedupe oder Data Cleansing Software genannt.