Fol­gen­des Sze­na­rio: Ein Daten­bank­ta­belle ent­hält alle Bank­leit­zah­len Deutsch­lands in­klu­sive der Kurz­be­zeich­nung der Bank. 20.107 Daten­sätze (Stand 04/2009). Al­ler­dings ent­hält die Daten­bank viele dop­pelte Daten­sätze die ge­löscht wer­den sol­len um Platz zu sparen.

CREATE TABLE IF NOT EXISTS `bankcode` (
`ID` SMALLINT(5) UNSIGNED NOT NULL AUTO_INCREMENT,
`Bankleitzahl` VARCHAR(8) NOT NULL,
`Kurzbezeichnung` VARCHAR(50) NOT NULL,
PRIMARY KEY  (`ID`),
KEY `Bankleitzahl` (`Bankleitzahl`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 ROW_FORMAT=COMPACT COMMENT='Bankleitzahlen' AUTO_INCREMENT=20108;

Code: SQL-Tabellenstruktur

Eine reine SQL-Möglichkeit, Du­blet­ten zu fin­den und zu lö­schen habe ich nicht her­aus­ge­fun­den, des­halb habe ich mir ein kur­zes php-Script dazu ge­schrie­ben.
An­mer­kung: Bei 20.000 Daten­bank­ein­trä­gen musste ich dazu je­doch die max_execution_time in der php.ini von 60 (Se­kun­den) auf 320 er­hö­hen. Ob dies bei ei­nem Pro­duk­tiv­sys­tem sinn­voll ist, sei da­hin­ge­stellt, das Script lief bei mir lo­kal auf dem Rech­ner und ich habe die Ände­rung so­mit für gut hei­ßen können.

<?php
/**
 * Dubletten finden und löschen
 * @author Tobias Fischer / tobias (at) mediaversal (punkt) de
 * @date 2009-04-12
 */
 
// Datenbankverbindung aufbauen
/*
...
*/
 
// Anzahl der Datensätze auslesen und ausgeben
$result = mysql_query("SELECT `ID` FROM `bankcode`;");
$datensaetze = mysql_num_rows($result);
echo 'Datensätze: '.$anzahl.'<br /><br />';
 
// Arrays erstellen die in den for-Schleifen verwendet werden
$dubletten_ids = array();  //zählt die Dubletten eines Datensatzes
$overall_ids = array();  // zählt die Gesamtanzahl der Dubletten
 
// Erste Schleife - durchläuft jeden der 20.000 Datensätze einzeln
for($i=0;$i< $datensaetze;$i++) {
  if(!in_array($i, $overall_ids)) {
    $fid = mysql_result($result,$i,0);
    $result2 = mysql_query("SELECT * FROM `bankcode` WHERE `ID` = " . $fid . ";");
 
    for($k=0;$k<mysql_num_rows($result2);$k++) {
      $bcid =  mysql_result($result2,$k,0);
      $blz =  mysql_result($result2,$k,1);
      $kurz =  mysql_result($result2,$k,2);
 
      // Sucht nach Datensätzen mit gleicher BLZ und gleicher Kurzbezeichnung
      // AND `ID` <> '".$bcid."' schließt den aktuellen Datensatz aus
      $result3 = mysql_query("SELECT `ID` FROM `bankcode` WHERE `Bankleitzahl` = '" . $blz . "' AND `Kurzbezeichnung` = '" . $kurz . "' AND `ID` <> '" . $bcid . "';");
 
      // Mache weiter falls Dubletten vorhanden sind
      if(mysql_num_rows($result3) != 0) {
 
        // Durchläuft die Ergebnismenge und speichert alle ID's der gefundenen Dubletten 
        for($m=0;$m<mysql_num_rows ($result3);$m++) {
          $dubletten_ids[$bcid][$m] = mysql_result($result3,$m,0);
        }
 
        echo '<br />';
        echo 'BLZ "'.$blz.'" und Kurzbez. "'.$kurz.'" (ID: '.$bcid.') kommen unter folgenden IDs nochmals vor:';
        echo '<br />&nbsp;&nbsp;';
 
        // Aktuelles Dubletten-ID-Array nochmals durchlaufen und 
        // a) ID's ausgeben
        // b) jede ID im Array $overall_ids speichern
        //     dies hat den Zweck, dass Datensätze mit dieser ID in der ersten Schleife übersprungen werden
        //     da sonst eine Dopplung vorliegen würde
        while(list($key,$value) = each($dubletten_ids[$bcid])) {
          $overall_ids[] = $value;
 
          echo '<span ';
 
          // Um die Dubletten sofort zu löschen, folgende Zeilen einkommentieren
          /*
            $delete = mysql_query("DELETE FROM `bankcode` WHERE `ID` = " . $value . " LIMIT 1;");
            if($delete) {
              echo ' style="color:green;"';
            } else {
              echo ' style="color:red;"';
            }
          */
 
          echo '>';
          echo $value;
          echo ',</span> ';
        }
        echo '<br />';
 
        // Frühzeitige Übergabe an den Browser
        flush();
      }
    }
  }
}
 
echo '<br />';
// Gesamtanzahl aller Dubletten
echo count($overall_ids);
 
?>

Code: PHP-Code-Snippet

Ich konnte da­mit ca. 12.000 Du­blet­ten aus der BLZ-Tabelle lö­schen und die Daten­menge so­mit um mehr als 50 % reduzieren.

Für den Ein­satz in ei­nem an­de­ren Daten­bank– und Pro­jekt­um­feld müs­sen die Daten­bank­ab­fra­gen, die HTML-Textausgaben und even­tu­ell auch ei­nige Va­ria­blen an­ge­passt bzw. um­be­nannt werden!

Ich über­nehme keine Ge­währ für die Rich­tig­keit des Skripts und hafte so­mit auch nicht für even­tu­ell ent­stan­dene Schä­den durch fal­schen Ein­satz auf Dritt– oder Produktivsystemen!