Wann man die Regeln brechen sollte: Datenbanknormalisierung in der Praxis

Die drei Normalformen sind die grundlegendsten Designprinzipien in der Datenbankmodellierung. Was genau sind also die drei Normalformen? Und müssen wir uns in der realen Entwicklung strikt daran halten? In diesem Artikel wollen wir dieses Thema eingehend erörtern.

Die drei Normalformen

1. Erste Normalform (1NF: Sicherstellung der Atomarität in jeder Spalte)

Die erste Normalform erfordert, dass jedes Feld (jede Spalte) in jeder Tabelle atomar sein muss, d. h. die Werte in jedem Feld dürfen nicht weiter unterteilt werden. Mit anderen Worten, jedes Feld darf nur einen einzigen Wert speichern – es darf keine Mengen, Arrays oder sich wiederholende Gruppen enthalten.

Betrachten Sie zum Beispiel die folgende Schülertabelle:

Schüler-ID	Name	Telefonnummer
1	Alice	123456789, 987654321
2	Bob	555555555

In dieser Tabelle enthält das Feld 'Telefonnummer' mehrere Nummern, was gegen die Anforderung der 1NF nach Atomarität verstößt. Um die 1NF zu erfüllen, sollten Telefonnummern in einzelne Datensätze aufgeteilt oder in eine neue Tabelle verschoben werden.

Design nach Erfüllung der 1NF:

Schülertabelle

Schüler-ID	Name
1	Alice
2	Bob

Telefontabelle

Telefon-ID	Schüler-ID	Telefonnummer
1	1	123456789
2	1	987654321
3	2	555555555

2. Zweite Normalform (2NF: Jede Spalte muss von dem gesamten Primärschlüssel abhängen)

Die zweite Normalform erfordert, dass die Tabelle bereits die 1NF erfüllt und partielle Abhängigkeiten eliminiert – Felder, die keine Primärschlüssel sind, müssen von dem gesamten Primärschlüssel abhängen, nicht nur von einem Teil davon. Dies gilt typischerweise für Tabellen mit zusammengesetzten Primärschlüsseln.

Betrachten Sie zum Beispiel die folgende Tabelle 'Bestelldetails':

Bestell-ID	Produkt-ID	Produktname	Menge	Einzelpreis
1001	A01	Apfel	10	2.5
1001	A02	Orange	5	3.0
1002	A01	Apfel	7	2.5

In dieser Tabelle ist der zusammengesetzte Primärschlüssel (Bestell-ID, Produkt-ID). Der Produktname und der Einzelpreis hängen nur von der Produkt-ID ab, nicht vom gesamten Primärschlüssel, was zu einer partiellen Abhängigkeit führt – was gegen die 2NF verstößt.

Design nach Erfüllung der 2NF:

Bestelldetailtabelle

Bestell-ID	Produkt-ID	Menge
1001	A01	10
1001	A02	5
1002	A01	7

Produkttabelle

Produkt-ID	Produktname	Einzelpreis
A01	Apfel	2.5
A02	Orange	3.0

3. Dritte Normalform (3NF: Eliminierung transitiver Abhängigkeiten)

Die dritte Normalform erfordert, dass die Tabelle bereits die 2NF erfüllt und transitive Abhängigkeiten eliminiert – Felder, die keine Primärschlüssel sind, sollen nicht von anderen Feldern abhängen, die keine Primärschlüssel sind. Mit anderen Worten, jedes Feld, das kein Primärschlüssel ist, muss direkt von dem Primärschlüssel abhängen, nicht indirekt über ein anderes Feld, das kein Primärschlüssel ist.

Betrachten Sie zum Beispiel die folgende Mitarbeitertabelle:

Mitarbeiter-ID	Mitarbeitername	Abteilungs-ID	Abteilungsname
E01	Alice	D01	Vertrieb
E02	Bob	D02	Entwicklung
E03	Charlie	D01	Vertrieb

In dieser Tabelle hängt der Abteilungsname von der Abteilungs-ID ab, die wiederum von dem Primärschlüssel (Mitarbeiter-ID) abhängt, wodurch eine transitive Abhängigkeit entsteht – die gegen die 3NF verstößt.

Design nach Erfüllung der 3NF:

Mitarbeitertabelle

Mitarbeiter-ID	Mitarbeitername	Abteilungs-ID
E01	Alice	D01
E02	Bob	D02
E03	Charlie	D01

Abteilungstabelle

Abteilungs-ID	Abteilungsname
D01	Vertrieb
D02	Entwicklung

Durch das Verschieben der Abteilungsinformationen in eine separate Tabelle wird die transitive Abhängigkeit eliminiert und die Datenbankstruktur entspricht der dritten Normalform.

Zusammenfassend lässt sich sagen, dass die drei Normalformen sind:

1NF: Sicherstellen, dass jedes Feld atomare Werte enthält.
2NF: Eliminieren von partiellen Abhängigkeiten – jedes Nicht-Schlüsselfeld muss von dem gesamten Primärschlüssel abhängen.
3NF: Eliminieren von transitiven Abhängigkeiten – Nicht-Schlüsselfelder sollen nur von dem Primärschlüssel abhängen.

Verletzung der drei Normalformen

In der Praxis verbessert die Befolgung der drei Normalformen (1NF, 2NF, 3NF) zwar die Datenkonsistenz und reduziert Redundanz, aber es gibt Fälle, in denen die Verletzung dieser Normalformen von Vorteil sein kann – um die Leistung zu verbessern, das Design zu vereinfachen oder spezifische Geschäftsanforderungen zu erfüllen.

Im Folgenden sind gängige Gründe und Beispiele für die absichtliche Verletzung von Normalformen aufgeführt:

Leistungsoptimierung

In Anwendungen mit hoher Parallelität und großem Umfang kann die strikte Befolgung der Normalformen zu häufigen Join-Operationen führen, was die Abfragezeit und die Systemlast erhöhen kann. Um die Leistung zu verbessern, können Designer Daten denormalisieren, um Joins zu reduzieren.

In einem E-Commerce-System mit Ordersund Users-Tabellen würde ein striktes 3NF-Design beispielsweise nur die User IDin der Orders-Tabelle speichern und einen Join erfordern, um Benutzerdetails abzurufen.

Um die Abfrageleistung zu verbessern, könnten wir den Benutzernamen und die Adresse redundant in der Orders-Tabelle speichern, um einen Join mit der Users-Tabelle zu vermeiden.