|
FuzzyDupes 5.7 Hilfe
Hilfe Startseite |
|
Projekt AssistentWählen Sie im Hauptmenü "Datei->Neues Projekt". Es öffnet sich der Projekt Assistent.
Datenverbindung![]()
DatenquelleWählen Sie eine der folgenden Datenquellen:
Sie können sich grundsätzlich mit allen Datenbanken verbinden, die über einen ODBC-Treiber
oder einen OLE-DB-Provider verfügen, z.B. auch Oracle und MySQL.
TabelleWählen Sie anschließend die Tabelle, welche Ihre Daten enthält.
Besondere Felder![]()
Identitäts SpalteWählen Sie eine Spalte aus Ihrer Tabelle, welche eindeutige Werte besitzt (Identitätsspalte). Diese Spalte sollte auch einen Primärschlüssel besitzen.Dubletten Felder![]()
ClusterMarkieren Sie 2-4 (in Einzelfällen auch mehr) Spalten, die für die Clusterbildung herangezogen werden sollen. Diese Spalten sollten sehr gut mit Daten gefüllt sein.Wählen Sie hier nur Spalten vom Typ Zeichenkette. Postleitzahlen sind für die Clusterbildung ungeeignet. Bei Adressdaten wählen Sie z.B. Nachname, Straße, Ort
DublettensucheMarkieren Sie mehrere Felder, die für die Dublettensuche herangezogen werden sollen. Markieren Sie möglichst mehr als 3 Felder. Bei Adressdaten wählen Sie typischerweise
Innerhalb der markierten Felder wird das Programm dann bei der Dublettensuche mit Hilfe von unscharfen Vergleichsalgorithmen jeweils eine Übereinstimmung berechnen. Anschliessend wird daraus die durchschnittliche Übereinstimmung zweier Datensätze berechnet.
GewichtungBelassen Sie im Normalfall alle Gewichtungen auf Normal.Falls gewünscht, können Sie einzelne Spalten mehr oder weniger stark gewichten. Wählen Sie Identisch, wenn beim Vergleich in dieser Spalte exakte Übereinstimmung erforderlich ist. Die Option "Identisch" ist insbesondere bei gruppierten Daten sinnvoll, wobei Dubletten nur innerhalb definierter Gruppen auftreten dürfen. Wählen Sie dabei für die Gruppenspalte Identisch. Identität funktioniert auch in Verbindung mit numerischen Werten, z.B. einer Firmen-ID.
NULL-VergleichMarkieren Sie NULL-Vergleich für Spalten, die in den allermeisten Sätzen Werte enthalten (z.B. Nachname, Straße, PLZ, Ort). Für sonstige Spalten, die in Ihrer Datenbank schlecht gefüllt sind, markieren Sie NULL-Vergleich nicht (z.B. Vorname, Telefon, Fax, ...).Beim NULL-Vergleich werden auch leere Einträge (NULL-Werte) für die Berechnung der durchschnittlichen Übereinstimmung herangezogen. Klicken Sie dann auf "Weiter".
Normalisierung![]()
StandardStandard Normalisierung wandelt die Zeichen in Großbuchstaben um, ersetzt Sonderzeichen und Umlaute, dopplelte Leerzeichen, etc.
Normalisierung 1.. 3Wählen Sie bis zu 3 verschiedene Normalisierungs-Regeln pro Datenbank-Spalte. Wählen Sie "default" bei Adressdaten, wenn Sie unsicher sind oder wenn Sie keine benutzerdefinierten Normalisierungsregeln angelegt haben.Verwenden Sie den Normalisierungs Editor um Regeln zu bearbeiten oder neue Regeln zu erstellen. Optionen![]()
Schwellenwert ClusterHiermit können Sie Einfluss auf die Clustergröße nehmen. In den meisten Fällen belassen Sie diesen Regler in der mittleren Position. Es bringt nichts, wenn Sie den Regler ganz nach rechts schieben, der Suchvorgang wird nur wesentlich verlangsamt. Schieben Sie den Regler bei großen Datenbanken etwas nach links, um die Clustergröße zu verkleinern und die Suche dadurch zu beschleunigen.
Schwellenwert DublettenDiese Einstellung hat großen Einfluß auf das Suchergebnis.Wählen sie einen Schwellenwert für die Übereinstimmung. Standard ist 90. Sie können später die Dublettensuche mit einem anderen Schwellenwert wiederholen. Erhöhen Sie diesen Wert, wenn zuviele Dubletten gefunden wurden. Wählen Sie einen niedrigeren Wert, wenn zuwenige Dubletten gefunden wurden.
Lesen Sie weiter -> Dublettensuche Copyright (c) by Kroll-Software, Zug/CH 2002-2010, All Rights Reserved
|
|