» Małe wprowadzenie do baz danych ITBlog

Contents

1. Czym jest baza danych? Od danych do informacji
Systemy plików a systemy baz danych – porównanie
2. Rola systemu zarządzania bazą danych (SZBD/DBMS)
3. Kluczowe cele baz danych: integralność, bezpieczeństwo i transakcyjność
Integralność danych – gwarancja poprawności
Przykład w SQL: klucze i więzy integralności
Transakcje i właściwości ACID
4. Poziomy abstrakcji i niezależność danych (architektura ANSI/SPARC)
Przykład widoku w SQL
5. Znaczenie modelowania danych
Podsumowanie i perspektywy

1. Czym jest baza danych? Od danych do informacji

Baza danych (ang. database) w najbardziej fundamentalnym ujęciu jest zorganizowanym zbiorem wzajemnie powiązanych danych, które można efektywnie przechowywać, modyfikować i odzyskiwać. To nie jest jedynie magazyn plików, lecz dynamiczna struktura odzwierciedlająca pewien fragment rzeczywistości, nazywany światem rzeczywistym (ang. miniworld lub universe of discourse). Może to być system obsługi biblioteki, ewidencja studentów na uczelni, baza klientów sklepu internetowego czy katalog produktów w firmie.

Kluczowa różnica między bazą danych a tradycyjnymi systemami plików leży w jej samoopisowym charakterze. Baza danych przechowuje nie tylko dane użytkownika (np. imię studenta, tytuł książki), ale również metadane (dane o danych), czyli opis jej własnej struktury. Te metadane, zwane schematem (ang. schema) lub katalogiem systemowym, definiują typy danych, relacje między nimi oraz nałożone ograniczenia. Dzięki temu system zarządzający bazą danych może interpretować i przetwarzać dane bez potrzeby modyfikacji kodu aplikacji za każdym razem, gdy zmienia się struktura danych.

Systemy plików a systemy baz danych – porównanie

Wczesne systemy informatyczne opierały się na przechowywaniu danych w oddzielnych plikach, co prowadziło do licznych problemów. Poniższa tabela ilustruje fundamentalne różnice:

Cecha	System oparty na plikach	System Zarządzania Bazą Danych (DBMS)
Redundancja danych	Wysoka (te same dane powielane w wielu plikach)	Minimalna (dane przechowywane centralnie i współdzielone)
Niespójność danych	Wysokie ryzyko (aktualizacja w jednym pliku nie gwarantuje jej w innym)	Niskie ryzyko (integralność danych jest wymuszana przez system)
Niezależność danych	Niska (zmiana struktury pliku wymaga zmiany kodu aplikacji)	Wysoka (aplikacje są odizolowane od fizycznej i logicznej struktury danych)
Dostęp współbieżny	Bardzo trudny do zaimplementowania i niekontrolowany	Zarządzany przez DBMS w celu uniknięcia konfliktów
Bezpieczeństwo	Ograniczone, często na poziomie systemu operacyjnego	Zaawansowane mechanizmy autoryzacji i kontroli dostępu

2. Rola systemu zarządzania bazą danych (SZBD/DBMS)

Sercem każdego systemu bazodanowego jest System Zarządzania Bazą Danych (SZBD), w literaturze angielskiej znany jako Database Management System (DBMS). Jest to złożone oprogramowanie, które działa jako pośrednik między użytkownikami (lub aplikacjami) a fizycznie przechowywanymi danymi. DBMS nie tylko wykonuje podstawowe operacje, takie jak tworzenie, odczyt, aktualizacja i usuwanie danych (CRUD), ale pełni również szereg zaawansowanych funkcji:

Zarządzanie transakcjami i współbieżnością: Zapewnia, że operacje wykonywane przez wielu użytkowników jednocześnie nie prowadzą do uszkodzenia lub niespójności danych.
Wymuszanie integralności danych: Pilnuje, aby dane spełniały zdefiniowane reguły biznesowe (np. wiek pracownika nie może być ujemny).
Kontrola dostępu i bezpieczeństwo: Zarządza uprawnieniami użytkowników, decydując, kto może odczytywać lub modyfikować dane.
Mechanizmy kopii zapasowych i odtwarzania: Chroni dane przed utratą w wyniku awarii sprzętu lub oprogramowania.
Przetwarzanie i optymalizacja zapytań: Tłumaczy zapytania użytkownika na efektywny plan wykonania operacji na fizycznych danych.
Zarządzanie katalogiem systemowym (metadanymi): Przechowuje i udostępnia informacje o strukturze bazy danych.

Przykłady popularnych systemów DBMS to: PostgreSQL, MySQL, Oracle Database, Microsoft SQL Server (relacyjne) oraz MongoDB, Redis, Cassandra (nierelacyjne, tzw. NoSQL).

Schemat Ekosystemu Bazy Danych:

+------------------+     +------------------+
|   Użytkownik A   |     |   Użytkownik B   |
+------------------+     +------------------+
         |                      |
+------------------+     +------------------+
|   Aplikacja 1    |     |   Aplikacja 2    |
+------------------+     +------------------+
         \                      /
          \                    /
           +------------------+
           |      SYSTEM      |
           |   ZARZĄDZANIA    |
           |   BAZĄ DANYCH    |
           |      (DBMS)      |
           +------------------+
                   |
+-----------------------------------------+
|             BAZA DANYCH                 |
|  +-----------------+ +----------------+ |
|  |  Dane surowe    | |   Metadane     | |
|  | (np. tabele)    | | (Katalog sys.) | |
|  +-----------------+ +----------------+ |
+-----------------------------------------+

3. Kluczowe cele baz danych: integralność, bezpieczeństwo i transakcyjność

Integralność danych – gwarancja poprawności

Integralność danych (ang. data integrity) to mechanizmy zapewniające poprawność, spójność i wiarygodność danych. DBMS wymusza ją za pomocą tzw. więzów integralności (ang. integrity constraints).

Integralność dziedzinowa (Domain Integrity): Określa dopuszczalne wartości dla danej kolumny. Realizowana jest przez typy danych (np. INTEGER, VARCHAR(100), DATE), ograniczenia NOT NULL (wartość nie może być pusta) oraz CHECK (wartość musi spełniać warunek, np. Wiek > 18).
Integralność encji (Entity Integrity): Każdy rekord (wiersz) w tabeli musi być unikalnie identyfikowalny. Gwarantuje to klucz główny (ang. primary key), który nie może przyjmować wartości NULL.
Integralność referencyjna (Referential Integrity): Zapewnia spójność relacji między tabelami. Jeśli tabela A odwołuje się do tabeli B, to odwołanie musi wskazywać na istniejący rekord w tabeli B. Realizuje się to za pomocą kluczy obcych (ang. foreign keys).

Przykład w SQL: klucze i więzy integralności

Rozważmy dwie tabele: Studenci i Kierunki. Każdy student jest przypisany do jednego kierunku.


-- Tabela Kierunki
CREATE TABLE Kierunki (
    ID_Kierunku INT PRIMARY KEY, -- Klucz główny, unikalnie identyfikuje kierunek
    Nazwa VARCHAR(100) NOT NULL UNIQUE, -- Nazwa musi być unikalna i nie może być pusta
    Wydzial VARCHAR(100)
);

-- Tabela Studenci
CREATE TABLE Studenci (
    ID_Studenta INT PRIMARY KEY, -- Klucz główny dla studenta
    Imie VARCHAR(50) NOT NULL,
    Nazwisko VARCHAR(50) NOT NULL,
    Data_Urodzenia DATE,
    ID_Kierunku_FK INT, -- Kolumna, która będzie kluczem obcym

    -- Ograniczenie CHECK dla integralności dziedzinowej
    CONSTRAINT chk_data_urodzenia CHECK (Data_Urodzenia < '2010-01-01'),

    -- Definicja klucza obcego dla integralności referencyjnej
    CONSTRAINT fk_kierunek
        FOREIGN KEY (ID_Kierunku_FK) 
        REFERENCES Kierunki(ID_Kierunku)
        ON DELETE SET NULL -- Jeśli kierunek zostanie usunięty, u studentów ustaw NULL
        ON UPDATE CASCADE -- Jeśli ID kierunku się zmieni, zaktualizuj je u studentów
);

W powyższym przykładzie DBMS nie pozwoli na dodanie studenta z ID_Kierunku_FK, które nie istnieje w tabeli Kierunki.

Transakcje i właściwości ACID

Transakcja to logiczna jednostka pracy, składająca się z jednej lub więcej operacji na bazie danych, która musi zostać wykonana w całości, aby zachować spójność. Wyobraźmy sobie przelew bankowy: operacja pobrania środków z jednego konta i dodania ich do drugiego musi stanowić nierozerwalną całość. Aby transakcje były niezawodne, muszą spełniać cztery kryteria, znane jako ACID:

Atomowość (Atomicity): Transakcja jest niepodzielna – albo wszystkie jej operacje zostaną wykonane poprawnie (commit), albo żadna z nich nie zostanie uwzględniona (rollback). Nie ma stanu pośredniego.
Spójność (Consistency): Transakcja musi przeprowadzić bazę danych z jednego spójnego stanu do drugiego. W przykładzie przelewu, suma pieniędzy na obu kontach przed i po transakcji musi być taka sama.
Izolacja (Isolation): Równocześnie wykonywane transakcje nie powinny na siebie wpływać. Każda transakcja działa tak, jakby była jedyną operacją w systemie w danym momencie.
Trwałość (Durability): Wyniki pomyślnie zakończonej (zatwierdzonej) transakcji są trwale zapisane w bazie danych i przetrwają ewentualne awarie systemu.

4. Poziomy abstrakcji i niezależność danych (architektura ANSI/SPARC)

Aby oddzielić aplikacje od szczegółów fizycznego przechowywania danych, stosuje się trójpoziomową architekturę, która zapewnia niezależność danych.

Schemat - Architektura ANSI/SPARC:

+--------------------+  <-- Widok Użytkownika A (np. dane o ocenach)
|  WIDOK ZEWNĘTRZNY  |  <-- Widok Użytkownika B (np. dane o płatnościach)
+--------------------+
         |
+--------------------+
| SCHEMAT KONCEPTUALNY|  <-- Logiczna struktura całej bazy (tabele, relacje)
+--------------------+
         |
+--------------------+
| SCHEMAT WEWNĘTRZNY  |  <-- Fizyczna organizacja (pliki, indeksy, bloki danych)
+--------------------+

Poziom wewnętrzny (fizyczny): Opisuje, jak dane są fizycznie przechowywane na nośnikach – struktury plików, indeksy, kompresja. Jest to poziom najbliższy sprzętowi.
Poziom konceptualny (logiczny): Reprezentuje logiczną strukturę całej bazy danych dla społeczności użytkowników. Opisuje encje (tabele), atrybuty (kolumny), relacje i ograniczenia, bez wchodzenia w szczegóły implementacji fizycznej.
Poziom zewnętrzny (widoków): Składa się z wielu widoków (ang. views), które dostarczają poszczególnym użytkownikom lub aplikacjom spersonalizowany podzbiór danych. Widok może ukrywać pewne kolumny, upraszczać złożone zapytania lub agregować dane, zwiększając bezpieczeństwo i prostotę.

Przykład widoku w SQL

Chcemy udostępnić działowi kadr widok zawierający tylko podstawowe dane pracowników, bez informacji o zarobkach.


CREATE VIEW Widok_Pracownikow_HR AS
SELECT ID_Pracownika, Imie, Nazwisko, Stanowisko, Data_Zatrudnienia
FROM Pracownicy
WHERE Dzial = 'IT';

Dzięki tej architekturze osiągamy dwa rodzaje niezależności:

Niezależność fizyczna: Możliwość zmiany schematu wewnętrznego (np. dodanie indeksu, zmiana organizacji plików) bez wpływu na schemat konceptualny i aplikacje. Administrator może optymalizować wydajność bez przepisywania programów.
Niezależność logiczna: Możliwość modyfikacji schematu konceptualnego (np. dodanie nowej kolumny do tabeli) w taki sposób, aby nie wymagało to zmiany istniejących widoków zewnętrznych i aplikacji, które z tej kolumny nie korzystają.

5. Znaczenie modelowania danych

Zanim powstanie baza danych, musi powstać jej projekt. Proces ten nazywamy modelowaniem danych (ang. data modeling). Jest to kluczowy etap, na którym analitycy i projektanci tworzą abstrakcyjną reprezentację struktur danych i powiązań między nimi. Dobrze zaprojektowany model jest fundamentem wydajnej, elastycznej i łatwej w utrzymaniu bazy danych.

Modele danych można podzielić na dwie główne kategorie:

Modele konceptualne: Opisują dane na wysokim poziomie abstrakcji, w sposób zrozumiały dla człowieka (niekoniecznie technicznego). Najpopularniejszym narzędziem jest tutaj Diagram Związków Encji (ERD – Entity-Relationship Diagram), który graficznie przedstawia obiekty (encje), ich cechy (atrybuty) i wzajemne powiązania (relacje).
Modele implementacyjne (logiczne): Są bliższe faktycznej implementacji w konkretnym DBMS. Najważniejsze z nich to:
- Model relacyjny: Zdecydowanie najpopularniejszy, gdzie dane organizowane są w tabelach (relacjach) składających się z wierszy i kolumn. Jego podstawy teoretyczne stworzył Edgar F. Codd.
- Modele NoSQL (nierelacyjne): Zyskująca na popularności grupa modeli zoptymalizowanych pod kątem skalowalności i elastyczności, np. model dokumentowy (dane w formacie JSON/BSON), klucz-wartość, kolumnowy czy grafowy.
- Starsze modele: Hierarchiczny i sieciowy, mające dziś głównie znaczenie historyczne.

Podsumowanie i perspektywy

Bazy danych są niewidocznym, lecz wszechobecnym fundamentem nowoczesnego świata cyfrowego. Od aplikacji na smartfonie, przez systemy bankowe, media społecznościowe, aż po zaawansowane platformy analityczne i systemy sztucznej inteligencji – wszędzie tam dane muszą być efektywnie i bezpiecznie zarządzane. Zrozumienie podstawowych koncepcji, takich jak rola DBMS, integralność danych, transakcyjność i modelowanie, jest absolutnie niezbędne dla każdego inżyniera oprogramowania, analityka danych czy architekta systemów. W erze Big Data, chmur obliczeniowych i rosnącej wagi prywatności, dziedzina baz danych dynamicznie się rozwija, oferując nowe wyzwania i fascynujące możliwości.

ITBlog

IT Blog w tematach różnych...