microgeek.eu

Koncepcja, filozofia, własności, struktura

Rozważania są kontynuacją tematu
dotyczącego drzew binarnych,
jednak ze względu na swoje indywidualne cechy
jest wydzielone jako niezależny temat.

Filozofia działania b-drzew jest bardzo podobna do filozofii drzew binarnych. Tu również typowym rozwiązaniem jest zastosowanie algorytmów rekurencyjnych. Podstawową różnicą pomiędzy elementem węzła drzewa binarnego i elementu b-drzewa jest liczba kluczy przechowywanych w pojedynczym elemencie. W przypadku drzew binarnych, każdy element przechowuje jeden element wraz z konsekwencjami tego faktu: ma wskazanie do elementów młodszych oraz starszych. W przypadku b-drzewa, każdy element zawiera kilka kluczy. By nie wnosić nieporozumień, element struktury b-drzewa będę nazywał stroną. Istotną cechą strony b-drzewa jest jej wielkość, czyli liczba kluczy wraz z informacjami stowarzyszonymi. Taki element w dalszej części będzie nazywany Item'em. Ważną cechą strony jest liczba Item'ów zawartych na pojedynczej stronie. W rzeczywistości istotna jest liczba Item'ów tworzących półstronę, gdyż ta wielkość na istotne znaczenie dla algorytmów równoważenia b-drzewa. Można na to spojrzeć również z z takiej perspektywy, że strona b-drzewa zawiera 2n elementów (Item'ów). Cechy charakterystyczne dla b-drzewa są następujące:

klucze zawarte w strukturach elementów Item na danej stronie są uporządkowane w określony sposób (najczęściej rosnący ale to nie jest jedyne możliwe rozwiązanie),
każda strona (z wyjątkiem strony będącej szczytem drzewa) zawiera od n do 2n elementów, czyli stopień wypełnienia tablicy Item'ów na danej stronie jest równy lub większy od 50%.

Strukturę strony pokazuje poniższa ilustracja:

btree01_01.png

Zawiera ona następujące pola (oczywiście struktura może zostać rozbudowana o specyficzne w danym zastosowaniu elementy dodatkowe):

ItemsOnPage - liczba ważnych Item'ów na stronie, nie ma obowiązku, by cała strona, czyli cała tablica Item'ów była wypełniona ważnymi informacjami, toteż przechowywana jest informacja o liczbie Item'ów zawierających istotne dane,
BackwardPage - wskaźnik przeniesienia do elementów młodszych, filozoficznie odpowiadający wskaźnikowi LeftLink w drzewach binarnych, tutaj BackwardPage jest wskazaniem na stronę zawierającej klucze młodsze od klucza zapisanego na pozycji Item[0],
Items - tablica Item'ów (na powyższej ilustracji n=3, wielkość półstrony wynosi 3 elementy, cała strona to 2n=6 elementów).

Zagłębiając się z kolei w strukturę pojedynczego Item'u, to mamy:

btree01_02.png

Key - klucz, informacja zależna od danego zastosowania: może być tablicą znakową przechowującą napis i wtedy jako funkcja porządkująca Item'y na stronie musi być funkcją porównującą napisy dającą wynik w sensie kolejności alfabetycznej; może być liczbą binarną, wtedy funkcja porządkująca musi traktować dane jako liczba o określonej liczbie bajtów,
DatRef - wskaźnik użytkowy o znaczeniu zależnym od zastosowania, przykładowo może być wskazaniem na położenie skojarzonego z kluczem rekordu bazy danych,
ForwardPage - wskaźnik do strony zawierającej klucze starsze od klucza zapisanego w danym Item'ie (jednak młodsze od klucza zapisanego w następnym Itemie), jest filozoficznym odpowiednikiem wskaźnika RightLink w drzewie binarnym,
DuplPage - wskaźnik do listy liniowej duplikatów, ten element nie jest obowiązkowy a jego istnienie wynika z zastosowania algorytmu b-drzewa do określonych celów.

Zaproponowane rozwiązania pozwalają na realizację całkiem „dorosłej” realizacji bazy danych z rekordami o stałej długości a ich implementacja pozwalała sortować dosyć efektywnie miliony rekordów zawartych w pliku (przykładowo b-drzewo o wielkości półstrony = 8 jako jednopokoleniowe zawiera 16 kluczy, dwupokoleniowe zawiera 272 klucze, 3-pokoleniowe to już ponad 4000 kluczy). Z filozoficznego punktu widzenia b-drzewa to taka „wszechwiedząca istota”, którą można zapytać o cokolwiek (podając klucz) i uzyskać odpowiedź (w postaci DataRef).
Moja pierwsza implementacja algorytmów b-drzewa była zrealizowana w języku MODULA-2 (to taka ulepszona wersja PASCAL'a). Zawierała ona kompletną realizację operacji związanych z przetwarzaniem stron b-drzewa. Powyższe definicje typów mogą być następujące:

microgeek.eu

B-drzewa

B-drzewa

Re: B-drzewa

Re: B-drzewa

Re: B-drzewa

Re: B-drzewa

Re: B-drzewa