FuzzyDupes 2020 Desktop Online Hilfe

Willkommen in der FuzzyDupes 2020 Hilfe

Download der aktuellen Version.

FuzzyDupes (Unscharfe Dubletten) sucht nach ähnlichen Datensätzen - insbesondere in Adressdatenbanken.

Arbeitsweise des Programms

Wenn Sie mehr über die Arbeitsweise des Programms erfahren wollen, lesen Sie bitte zunächst das Kapitel Glossar. Dies ist für das bessere Verständnis der einzelnen Funktionen und Einstellungen sehr hilfreich.

Datensicherung

Die aktuelle Version greift nur lesend auf Ihre Datenbanken zu und kann daher gefahrlos eingesetzt werden. Lediglich einige Löschfunktionen löschen Sätze physikalisch und unwiederbringlich aus Ihrer Datenbank. Sie werden vorher durch eine entsprechende Meldung gewarnt.

Machen Sie dennoch Sicherungskopien Ihrer Datenbank. Allgemein gilt: Nur Datensicherungen schützen Sie zuverlässig vor Datenverlust.

Beispiel Suchergebnis

(FuzzyDupes findet ähnliche Datensätze in Adressdatenbanken.)

Viel Spaß und Erfolg wünscht

Detlef Kroll - Kroll Software-Entwicklung

Projekt Assistent

Wählen Sie im Hauptmenü "Datei->Neues Projekt".
Es öffnet sich der Projekt Assistent.

Datenverbindung

Datenquelle

Wählen Sie eine der folgenden Datenquellen:

MS-Access Datenbank
MS SQL-Server Datenbank
MS-Excel Tabelle
Textdatei mit Delimiter (CSV Dateien)
MS-Outlook Kontakt Ordner
Windows Adressbuch
SharePoint Server
BulkMailer Addresses Database
Andere (Datenlink Dialog)

Klicken Sie auf auf Verbinden. Abhängig von der gewählten Datenquelle folgen weitere Optionen.

Sie können sich grundsätzlich mit allen Datenbanken verbinden, die über einen ODBC-Treiber oder einen OLE-DB-Provider verfügen, z.B. auch Oracle und MySQL.

Laden Sie einen entsprechenden ODBC-Treiber von der Website des Datenbankherstellers.
Erstellen Sie ggf. über den ODBC-Manager (Systemsteuerung) eine Systemdatenquelle.
Wählen Sie hier "Andere (Datenlink Dialog)"
Stellen Sie eine Verbindung zu Ihrer Datenbank her
Im Datenverknüpfungseigenschaften Dialog markieren Sie u.U. Kennwort speichern, damit ein späterer Zugriff erfolgen kann.

Tabelle

Wählen Sie anschließend die Tabelle, welche Ihre Daten enthält.

Klicken Sie dann auf "Weiter".

Besondere Felder

Identitäts Spalte

Wählen Sie eine Spalte aus Ihrer Tabelle, welche eindeutige Werte besitzt (Identitätsspalte). Diese Spalte sollte auch einen Primärschlüssel besitzen.

Dubletten Felder

Cluster

Markieren Sie 2-4 (in Einzelfällen auch mehr) Spalten, die für die Clusterbildung herangezogen werden sollen. Diese Spalten sollten sehr gut mit Daten gefüllt sein. Wählen Sie hier nur Spalten vom Typ Zeichenkette. Postleitzahlen sind für die Clusterbildung ungeeignet. Bei Adressdaten wählen Sie z.B. Nachname, Straße, Ort

Dublettensuche

Markieren Sie mehrere Felder, die für die Dublettensuche herangezogen werden sollen. Markieren Sie möglichst mehr als 3 Felder. Bei Adressdaten wählen Sie typischerweise

Nachname
Vorname
(Firma)
PLZ
Strasse
Ort
[Telefon]
[..]

Innerhalb der markierten Felder wird das Programm dann bei der Dublettensuche mit Hilfe von unscharfen Vergleichsalgorithmen jeweils eine Übereinstimmung berechnen. Anschliessend wird daraus die durchschnittliche Übereinstimmung zweier Datensätze berechnet.

Gewichtung

Belassen Sie im Normalfall alle Gewichtungen auf Normal.
Falls gewünscht, können Sie einzelne Spalten mehr oder weniger stark gewichten.

Wählen Sie Identisch, wenn beim Vergleich in dieser Spalte exakte Übereinstimmung erforderlich ist. Die Option "Identisch" ist insbesondere bei gruppierten Daten sinnvoll, wobei Dubletten nur innerhalb definierter Gruppen auftreten dürfen. Wählen Sie dabei für die Gruppenspalte Identisch. Identität funktioniert auch in Verbindung mit numerischen Werten, z.B. einer Firmen-ID.

NULL-Vergleich

Markieren Sie NULL-Vergleich für Spalten, die in den allermeisten Sätzen Werte enthalten (z.B. Nachname, Straße, PLZ, Ort). Für sonstige Spalten, die in Ihrer Datenbank schlecht gefüllt sind, markieren Sie NULL-Vergleich nicht (z.B. Vorname, Telefon, Fax, ...).

Beim NULL-Vergleich werden auch leere Einträge (NULL-Werte) für die Berechnung der durchschnittlichen Übereinstimmung herangezogen.

Klicken Sie dann auf "Weiter".

Normalisierung

Standard

Standard Normalisierung wandelt die Zeichen in Großbuchstaben um, ersetzt Sonderzeichen und Umlaute, dopplelte Leerzeichen, etc.

Normalisierung 1.. 3

Wählen Sie bis zu 3 verschiedene Normalisierungs-Regeln pro Datenbank-Spalte. Wählen Sie "default" bei Adressdaten, wenn Sie unsicher sind oder wenn Sie keine benutzerdefinierten Normalisierungsregeln angelegt haben.

Verwenden Sie den Normalisierungs Editor um Regeln zu bearbeiten oder neue Regeln zu erstellen.

Optionen

Schwellenwert Cluster

Hiermit können Sie Einfluss auf die Clustergröße nehmen. In den meisten Fällen belassen Sie diesen Regler in der mittleren Position. Es bringt nichts, wenn Sie den Regler ganz nach rechts schieben, der Suchvorgang wird nur wesentlich verlangsamt. Schieben Sie den Regler bei großen Datenbanken etwas nach links, um die Clustergröße zu verkleinern und die Suche dadurch zu beschleunigen.

Schwellenwert Dubletten

Diese Einstellung hat großen Einfluß auf das Suchergebnis.

Wählen sie einen Schwellenwert für die Übereinstimmung. Standard ist 90. Sie können später die Dublettensuche mit einem anderen Schwellenwert wiederholen. Erhöhen Sie diesen Wert, wenn zuviele Dubletten gefunden wurden. Wählen Sie einen niedrigeren Wert, wenn zuwenige Dubletten gefunden wurden.

Überprüfen Sie Ihre Angaben und klicken Sie auf "OK", um diesen Assistenten zu beenden.

Dublettensuche

Optionen

Ergebnis anzeigen

Dubletten (Standard): Die Dublettensuche liefert nur gefundene Dubletten zurück.

Alle Sätze: Die Dublettensuche liefert alle Sätze zurück. In einer neuen Spalte FuzzyDupesID wird ein neuer Wert zurückgegeben, der für unterschiedliche Sätze eindeutig, für ähnliche Sätze identisch ist.

Schwellenwerte

Sie können hier noch einmal die Schwellenwerte einstellen. Die Voreinstellung stammt aus Ihren Projekteigenschaften. Siehe Projekt Assistent zur Erläuterung dieser Schwellenwerte.

Dublettensuche starten

Klicken Sie auf "OK" um die Dublettensuche zu starten.

Suchergebnis

Nach der Dublettensuche zeigt das Programm das Suchergebnis gruppiert nach Dubletten an. Wählen Sie Ansicht->Exportieren um das Ergebnis in eine CSV-Datei zu speichern.

(Beispiel Ergebnisanzeige in FuzzyDupes)

Menü „Ansicht“

Ein- und Ausblenden weiterer Spalten

Wählen Sie Menü "Ansicht->Spalten einblenden..." oder klicken Sie auf das Icon Feldliste, um weitere Spalten Ihrer Datenbanktabelle ein- oder auszublenden.

Exportieren

Wählen Sie Menü "Ansicht->Exportieren..." um die aktuelle Ansicht als CSV-Datei zu speichern.

Dubletten bearbeiten

Nach erfolgter Dublettensuche zeigt das Programm die Dubletten gruppiert an.

Hier wollen Sie

die Dubletten manuell durchsehen um das Ergebnis zu überprüfen
bei dieser Durchsicht die Zuordnung für einzelne Sätze aufheben, bei denen es sich nicht um Dubletten handelt
von den gefundenen Dubletten jeweils alle Sätze bis auf einen automatisch löschen.

Manuelle Durchsicht der Dubletten

Wenn Sie Dubletten in wichtigen Kundendatenbanken ö.ä. suchen, empfiehlt sich eine nachträgliche manuelle Durchsicht des Ergebnisses. Sie würden hierbei die Suche mit einem etwas niedrigerem Schwellenwert durchführen (80-85%), sodass eher zu viele Dubletten gefunden werden. In der manuellen Durchsicht heben Sie dann die Zuordnung zwischen angezeigten Dubletten auf, bei denen es sich nicht um eine Dublette handelt (s.u.). (Sie werden feststellen, dass es bei einzelnen Sätzen auch für den Menschen schwer zu entscheiden ist, ob es sich um eine Dublette handelt oder nicht). Durch die übersichtliche Darstellung der Dubletten ist eine manuelle Durchsicht in relativ kurzer Zeit möglich und lohnt den Aufwand.

Bei Marketingadressen o.ä. Daten, bei denen es nicht viel ausmacht, wenn einige Sätze wegfallen, können Sie evtl. auf die manuelle Durchsicht verzichten. Sie würden hierbei einen etwas höheren Schwellenwert (90-95%) bei der Dublettensuche wählen, sodass nur sichere Dubletten gefunden werden. Diese können Sie dann ohne grosses Risiko automatisch bereinigen (d.h. automatisch Sätze in einem Dublettenpaar löschen, s.u.)

Zuordnung für einzelne Sätze aufheben

Um eine Dubletten-Zuordnung zwischen zwei Sätzen aufzuheben (zu sagen: dies ist keine Dublette) markieren Sie einen Satz und wählen "Durchsicht->Zuordnung aufheben".

TIPP: Diese Aktion erreichen Sie auch durch Rechtsklick mit der Maus auf einen Datensatz.

Löschliste erstellen

Nach der manuellen Durchsicht und Entfernung von ungültigen Dubletten wollen Sie alle Datensätze in Dubletten löschen, sodass je Dublette nur ein Datensatz erhalten bleibt (alle ähnlichen gelöscht werden). Nach diesem Löschvorgang ist Ihre Datenbank frei von Dubletten.

Wählen Sie dazu Menü Dubletten->Löschliste erstellen, um eine Liste der zu löschenden Sätze zuerstellen.

Um den ältesten/jüngsten Satz zu erhalten, teilen Sie dem Programm eine entsprechende Spalte für die Sortierreihenfolge mit. Wählen Sie z.B. eine Spalte created o.ä., sofern Ihre Datenbank eine Spalte mit Erstellungsdaten zu jedem Datensatz enthält. Auch die Autonumber-Spalte in Access und SQL-Server Datenbanken enthält grundsätzlich Werte in chronologisch aufsteigender Reihenfolge und kann zu diesem Zweck verwendet werden.

Dubletten löschen

Nach Erstellung der Löschliste wählen Sie Menü Dubletten->Dubletten löschen, um diese Datensätze aus Ihrer Datenbank zu löschen oder eine temporäre Tabelle Ihrer bereinigten Daten anzuzeigen.

Bitte prüfen Sie vorher, ob das Löschen in Ihrer Tabelle überhaupt zulässig ist. Dies könnte z.B. nicht der Fall sein, wenn diese Tabelle mit anderen Tabellen in Ihrer Datenbank verknüpft ist. Berücksichtigen Sie auch, dass durch Verknüpfungen mit anderen Tabellen durch das Löschen u.U. auch andere Daten gelöscht werden könnten.

Überprüfen Sie also das Datenmodell oder klären Sie mit dem Entwickler der Datenbank, ob Sie ohne Weiteres Datensätze aus dieser Tabelle einfach löschen dürfen.

Das Erstellen einer bereinigten Tabelle ist dagegen gefahrlos möglich und verändert nicht Ihre Datenbank.

Liste exportieren

Um das Suchergebnis zu exportieren, wählen Sie Menü "Ansicht->Exportieren". Nach Angabe eines Dateinamens erscheint der Dialog mit den Exportoptionen:

FuzzyDupes speichert die Tabelle in eine Textdatei mit Begrenzungszeichen. Diese Dateien können von den meisten Datenbankprogrammen gelesen werden, z.B. auch von MS-Excel.

Wählen Sie die Dateiendung "*.csv", wenn Sie eine CSV-Datei erstellen möchten, z.B. zur Weiterverarbeitung in MS-Excel und vielen anderen Programmen.
Wählen Sie einen beliebigen Delimiter (Begrenzungszeichen), für CSV-Dateien Komma (,) oder Semikolon (;)
Wählen Sie vorher mit dem Icon "Feldliste" (Menü "Ansicht->Spalten einblenden...") bestimmte Spalten aus und wählen Sie in diesem Dialog "nur sichtbare Spalten exportieren", um nur bestimmte Spalten zu exportieren.

Unscharfes Zusammenführen (unscharfer Import)

Neben der Dublettensuche erlaubt FuzzyDupes auch das unscharfe Importieren von Daten. Auf diese Weise können Sie zwei Datenbanken zusammenführen, ohne dass Dubletten entstehen.

Wählen Sie Menü "Dubletten->Datenbank unscharf zusammenführen"
Stellen Sie eine Verbindung zu Ihrer Datenbank her
Wählen Sie eine Tabelle aus
Ordnen Sie die Felder der Quell- denen der Zieltabelle zu
Dabei sind mindestens die als Cluster- und Dublettenspalten angegebenen Spalten erforderlich.
Klicken Sie auf OK

Es erscheint der Dialog mit den Import Optionen:

Ergebnis anzeigen

Wählen Sie eine Option für den Rückgabewert dieser Funktion:

Neue Sätze: Nach dem Suchlauf werden neue Sätze Ihrer Importdatenbank angezeigt.
Alle Sätze mit Quellenkennung: Es werden alle Sätze Ihrer Projektdatenbank und Ihrer Importdatenbank zusammengefügt angezeigt.
Dubletten: Es werden nur Sätze aus der Importdatei angezeigt, die bereits in der Projektdatenbank (ähnlich) enthalten sind.
Zusammengeführtes Ergebnis ohne Dubletten: Das Ergebnis ist eine zusammengeführte und dublettenbereinigte Liste.

Schwellenwerte

Sie können hier noch einmal die Schwellenwerte einstellen. Die Voreinstellung stammt aus Ihren Projekteigenschaften.

Unscharfer Abgleich

Neben der Dublettensuche erlaubt FuzzyDupes auch den Abgleich mit einer externen Sperrliste (häufig auch Robinsonliste genannt). Auf diese Weise können Sie aus Ihrer Datenbank Sätze entfernen, die auch in einer Sperrliste enthalten sind.

Wählen Sie Menü "Dubletten->Mit externer Liste abgleichen..."
Stellen Sie eine Verbindung zu einer Datenbank mit der Sperrliste her
Wählen Sie eine Tabelle aus
Ordnen Sie die Felder der Quell- denen der Zieltabelle zu
Dabei sind mindestens die als Cluster- und Dublettenspalten angegebenen Spalten erforderlich.
Klicken Sie auf OK

Es erscheint der Dialog mit den Import Optionen:

Ergebnis anzeigen

Wählen Sie eine Option für den Rückgabewert dieser Funktion:

Negativ Abgleich: Nach dem Suchlauf werden alle Sätze Ihrer Projekt-Datenbank angezeigt, die nicht (unscharf) in der Sperrliste enthalten sind.
Positiv Abgleich: Nach dem Suchlauf werden nur solche Sätze Ihrer Projekt-Datenbank angezeigt, die auch (unscharf) in der externen Liste enthalten sind.
Alle Sätze: Es werden alle Sätze Ihrer Projektdatenbank angezeigt. Eine zusätzliche Spalte enthält den Wert 0, wenn keine Übereinstimmung gefunden wurde, bzw. eine Zeilennummer einer übereinstimmenden Zeile Ihrer externen Liste.

Schwellenwerte

Sie können hier noch einmal die Schwellenwerte einstellen. Die Voreinstellung stammt aus Ihren Projekteigenschaften.

Editor für Normalisierungs-Regeln

Wählen Sie im Hauptmenü "Extras->Normalisierungen bearbeiten".

Es öffnet sich der Editor für Normalisierungs-Regeln.

Normalisierungen bearbeiten

Zu jedem benannten Format können Sie eine Beschreibung, 3 verschiedene Eltern-Formate und unbegrenzt viele Ersetzungsregeln bearbeiten.

Die Beschreibung dient ausschließlich der besseren Übersichtlichkeit.

Erbt von: Das aktuelle Format erbt alle Regeln der bis zu 3 gewählten Eltern-Formate.

Suchen / Ersetzen: Geben Sie hier die zu suchende und die zu ersetzende Zeichenkette ein. Geben Sie eine leere Zeichenfolge für Ersetzen ein, wenn die gesuchte Zeichnfolge gelöscht werden soll. Beachten Sie, dass die Suchzeichenfolgen nicht auf andere Weise in Ihren Daten vorkommen. Wählen Sie evtl. führende Leerzeichen bei Abkürzungen, wenn Ihre gesuchte Zeichenfolge stets mit einem führenden Leerzeichen in den Daten erscheint.

Falls das gewählte Format die Standard Normalisierung einschließt, werden bereits bei der Eingabe die Zeichenfolgen durch die Standard-Normalisierung bearbeitet und geändert.

Neues Format erstellen

Wählen Sie Neu, um ein neues Format zu erstellen. Markieren Sie erfordert Standard Normalisierung für alle Formate per Voreinstellung.

Die Standard Normalisierung wandelt die Zeichen in Großbuchstaben um, ersetzt Sonderzeichen und Umlaute, etc. Die Standard Normalisierung ist für Adressdaten und ähnliche Daten in jedem Fall erforderlich

Glossar

Clusterbildung

Ein unscharfer Vergleich von allen Datensätzen mit allen ist nicht möglich, da die Anzahl der einzelnen Vergleiche schnell zu einer astronomisch hohen Anzahl von Vergleichen führen würde.

Jede Software zur Dublettensuche wird hier also eine Vorauswahl treffen müssen, bei der jene Datensätze zu Blöcken zusammengefasst werden, die sich zum unscharfen Vergleich lohnen.

FuzzyDupes verwendet ein Verfahren zur Clusterbildung, welches sehr schnell zuverlässige und kleine Cluster ermittelt. Das Verfahren basiert auf N-Grammen, das sind kleine Teilzeichenketten, die das Programm in sehr großer Anzahl verarbeiten kann.

Dieses Verfahren ist mathematisch exakt und die Clustergröße lässt sich dabei frei einstellen. Die aktuelle, durchschnittliche und maximale Clustergröße zeigt das Programm während der Dublettensuche an.

Experimentieren Sie ruhig auch einmal mit anderen Clusterspalten, um zu sehen, ob Sie dadurch ein besseres Ergebnis bekommen oder die Suche beschleunigen können.

Normalisierung

Bevor die Zeichenketten der einzelnen Spalten miteinander unscharf verglichen werden, werden die Daten (temporär im Speicher) normalisiert. Dabei werden Sonderzeichen und Umlaute ersetzt und einige gebräuchliche Abkürzungen und Schreibweisen umgewandelt (z.B. strasse, straße -> str.)

Unscharfer Vergleich

Hier wird mit geeigneten Algorithmen eine (prozentuale) Übereinstimmung der einzelnen Spalten errechnet und daraus (unter Berücksichtigung verschiedener Gewichtungen) eine durchschnittliche Übereinstimmung errechnet.

Es sind verschiedene Pattern-Matching Algorithmen bekannt, die sich zu diesem Zweck mehr oder weniger gut eignen. Jeder Hersteller einer Dubletten-Software wird hier sein eigenes Verfahren einsetzen. Geeignete Verfahren sollten u.a. gut mit Permutationen (Vertauschungen, Verdrehern) der Zeichen klarkommen, um eine gute Trennschärfe zu erzielen.

Liegt die prozentuale Übereinstimmung am Ende über dem festgelegten Schwellenwert, werden diese Sätze als Dublette markiert (erhalten dieselbe fuzzydupes_ID).

Trennschärfe

Die Qualität einer Dublettensuche wird nicht allein daran gemessen, ob möglichst viele Dubletten gefunden werden, sondern auch daran, wie zuverlässig das Ergebnis ist, bzw. wie viele falsche Dubletten ermittelt werden.

Wichtig ist zudem, welchen Einfluss Änderungen des Schwellenwertes auf das Suchergebnis haben. Ungünstig wäre es, wenn kleine Änderungen des Schwellenwertes zu großen Unterschieden im Suchergebnis führen und die Trennschärfe durch kleinere Schwellenwerte negativ beeinflusst wird.

Sie werden feststellen, dass der Schwellenwert bei FuzzyDupes keinen kritischen Einfluss auf das Suchergebnis hat (dass es etwa auf kleinste Änderungen nach dem Komma ankommt). Selbst bei niedrigeren Schwellenwerten erreicht FuzzyDupes eine sehr gute Trennschärfe.

FuzzyDupes EULA

Lizenzbestimmungen

§ 1 Gegenstand

Gegenstand dieser Lizenzbestimmungen ist das Computerprogramm FuzzyDupes, die Online-Anwenderdokumentation sowie sonstiges zugehöriges schriftliches Material, nachfolgend zusammenfassend als Software bezeichnet.

§ 2 Zusicherungen

(1) Diese Software wird Ihnen zur Verfügung gestellt "so wie sie ist".

(2) Kroll Software-Entwicklung macht keinerlei Zusicherungen bezüglich Funktionstüchtigkeit, Fehlerfreiheit oder Verwendbarkeit zu einem bestimmten Zweck.

§ 3 Evaluierung

(1) Es wird eine kostenlose und unverbindliche Demo-Version bereitgestellt. Diese dient ausschließlich zur Evaluierung der Software und darf nicht produktiv eingesetzt werden.

(2) Schon die Nutzung der Suchergebnisse erfordert eine kostenpflichtige Nutzungslizenz.

§ 4 Nutzungslizenz

(1) Die Nutzungslizenz berechtigt zum zeitlich unbegrenzten Einsatz der Software an einem Arbeitsplatz. Eine zeitgleiche Nutzung auf mehr als einer Hardware erfordert eine Mehrfachlizenz.

§ 5 Auslieferung

(1) Diese Software wird ausschließlich online zum Download angeboten. Auch bei Lizensierung werden keine Datenträger oder gedruckten Handbücher dem Kunden überlassen.

§ 6 Dekompilierung und Programmänderungen

(1) Die Rückübersetzung des überlassenen Programmcodes in andere Codeformen (Dekompilierung) sowie sonstige Arten der Rückerschließung der verschiedenen Herstellungsstufen der Software (Reverse-Engineering) einschließlich einer Programmänderung sind unzulässig.

(2) Die Entfernung eines Kopierschutzes oder ähnlicher Schutzroutinen ist unzulässig.

(3) Urhebervermerke, Seriennummern sowie sonstige der Programmidentifikation dienende Merkmale dürfen auf keinen Fall entfernt oder verändert werden.

§ 7 Haftung

(1) Bei Schäden und Folgeschäden, die durch den Einsatz dieser Software entstehen, haftet Kroll Software-Entwicklung maximal bis zum 1-fachen Kaufpreis.

(2) Die Software weist durch Warnhinweise darauf hin, dass die Dublettensuche mit Sicherungskopien einer Datenbank durchgeführt werden soll. Für Datenverlust an den bearbeiteten Datenbanken übernimmt Kroll Software-Entwicklung keine Haftung.

(3) Die Haftung für sonstigen Datenverlust wird auf den typischen Wiederherstellungsaufwand beschränkt, der bei regelmäßiger und gefahrentsprechender Anfertigung von Sicherungskopien eingetreten wäre.

§ 8 Schriftform

(1) Änderungen oder Ergänzungen dieser Vertragsbedingungen, besondere, über die übliche Vertragsabwicklung hinausgehende Vereinbarungen sowie sonstige besondere Zusicherungen und Abmachungen dürfen von den Mitarbeitern des Lieferanten nicht erklärt werden. Sie sind nur nach einer schriftlichen Bestätigung durch den Lieferanten verbindlich.

§ 9 Gerichtsstand

(1) Gerichtsstand ist in jedem Fall Altdorf (URI), Schweiz

Kroll Software-Entwicklung, Altdorf/CH, den 15.11.2019