drzewa w sql’u – metoda “zagnieżdżonych zbiorów”
metodę zagnieżdżonych zbiorów poznałem po raz pierwszy po przeczytaniu którejś z książek joe celko. chyba tej: Advanced SQL Programming, ale na 100% nie jestem pewien.
zagnieżdżone zbiory (nested sets) polegają w duzym skrócie na tym, że każdy element drzewa jest opisany nie jednym id, ale parą liczb. są to w miarę dowolne liczby, z założeniem jedynie takim, że "lewa" jest mniejsza od "prawej", oraz, że obie liczby (lewa i prawa) wszystkich elementów drzewa poniżej danego muszą się mieścić w zakresie (lewa, prawa) swoich rodziców.
skomplikowane? też nie zrozumiałem.
przypomnijmy sobie nasze oryginalne, testowe drzewo:
teraz.
tworzymy sobie taką tabelkę:
# create table nested_sets ( id_left int4 primary key, id_right int4 not null check (id_left < id_right), name text);
jako primary key wybrałem sobie id_left, ale mogłem wybrać też right. w szczególności – wartości w polach id_left i id_right muszą być unikatowe. czyli jeśli w którymś elemencie w polu id_left jest wartość 5, to nie może się ona powtórzyć ani w id_left ani w id_right.
ok. jak nadać numerki?
proste. zaczynamy od elementu głównego, i przyznajemy mu id_left = 1. potem idziemy do jego pierwszego dziecka. jego id_left dajemy kolejny numer. jeśli ten element ma podelementy, to powtarzamy zejście w dół z przyznawaniem kolejnych id_left. jeśli dany element nie ma "dzieci", to nadajemy mu id_right równy kolejnej liczbie. i wracamy piętro wyżej.
mało jasne? pewnie nie umiem za dobrze opisać. więc lecimy w krokach:
- elementowi sql, przypisujemy id_left = 1, i schodzimy w dół do "postgresql".
- elementowi postgresql, przypisujemy id_left = 2, i ponieważ ma jakieś dzieci, schodzimy w dół – do "linux"
- elementowi linux przypisujemy id_left = 3
- ponieważ linux nie ma "dzieci", przypisujemy mu id_right = 4 i wracamy wyżej
- ponieważ postgresql nie ma "dzieci", przypisujemy mu kolejne id_right. czyli id_right = 5. i wracamy wyżej.
- jesteśmy z powrotem w sql. wchodzimy w kolejne dziecko – oracle
- elementowi oracle przypisujemy id_left = 6.
- itd. aż dojdziemy do ustawienia dla elementu sql, id_right = 18
zwracam uwagę na to, że w tej numeracji widać od razu, że ilość elementów jest równo połową największego id_right. co jest poniekąd logiczne.
cała tabelka wygląda tak:
id_left | id_right | name |
1 | 18 | sql |
2 | 5 | postgresql |
3 | 4 | linux |
6 | 17 | oracle |
7 | 8 | solaris |
9 | 14 | linux |
10 | 11 | glibc1 |
12 | 13 | glibc2 |
15 | 16 | windows |
ok. jak się pyta taką bazę?
tu uwaga – ten model znam najsłabiej. głównie dlatego, że go osobiście nie lubię. jeśli znajdziecie błąd w tym co poniżej napiszę – proszę o informację. nie jestem nieomylny, a jak już mówiłem – tego modelu drzew nie lubię i nie bawiłem się nim w ogóle.
1. pobranie listy elementów głównych (top-levelowych)
SELECT
ns1.*
FROM
nested_sets ns1
LEFT OUTER JOIN nested_sets ns2 ON (ns1.id_left > ns2.id_left AND ns1.id_right < ns2.id_right)
WHERE
ns2.id_left IS NULL
;
zwrócić należy uwagę na fakt iż jeśli nasze drzewo ma tylko i wyłącznie 1 element top-levelowy to zapytanie można uprościć do:
# SELECT * FROM nested_sets WHERE id_left = 1;
jeśli stosujemy numerację od 1, lub
# SELECT * FROM nested_sets ORDER BY id_left ASC LIMIT 1;
jeśli numeracja startuje od nieznanej liczby.
2. pobranie elementu bezpośrednio “nad” podanym elementem:
dane wejściowe:
- ID : id_left elementu
SELECT
ns.*
FROM
nested_sets ns
WHERE
[ID] BETWEEN ns.id_left + 1 AND ns.id_right
ORDER BY ns.id_left DESC LIMIT 1
jeśli zapytanie nic nie zwróci – znaczy to, że dany element był “top-levelowy”.
3. pobranie listy elementów bezpośrednio “pod” podanym elementem
dane wejściowe:
- ID : id elementu
SELECT
nsc.*
FROM
nested_sets nsp
JOIN nested_sets nsc ON (nsc.id_left BETWEEN nsp.id_left + 1 AND nsp.id_right)
WHERE
nsp.id_left = [ID]
AND NOT EXISTS (
SELECT *
FROM nested_sets ns
WHERE
( ns.id_left BETWEEN nsp.id_left + 1 AND nsp.id_right )
AND
( nsc.id_left BETWEEN ns.id_left + 1 AND ns.id_right )
)
4. pobranie listy wszystkich elementów “nad” danym elementem (wylosowanym)
dane wejściowe:
- ID : id elementu
SELECT
ns.*
FROM
nested_sets ns
WHERE
[ID] BETWEEN ns.id_left + 1 AND ns.id_right
5. pobranie listy wszystkich elementów “pod” danym elementem (wylosowanym)
dane wejściowe:
- ID : id elementu
SELECT
nsc.*
FROM
nested_sets nsp
JOIN nested_sets nsc ON nsc.id_left BETWEEN nsp.id_left + 1 AND nsp.id_right
WHERE
nsp.id_left = 6
6. sprawdzenie czy dany element jest “liściem” (czy ma pod-elementy)
dane wejściowe:
- ID : id elementu
>SELECT true from nested_sets WHERE id_left = [ID] AND id_right = [ID] + 1;
jeśli zwróci true – to jest liść. jeśli nic nie zwróci – to nie jest liściem.
7. pobranie głównego elementu w tej gałęzi drzewa w której znajduje się dany (wylosowany) element
- ID : id elementu
SELECT
ns.*
FROM
nested_sets ns
WHERE
[ID] BETWEEN ns.id_left + 1 AND ns.id_right
ORDER BY
ns.id_left ASC LIMIT 1
podstawową zaletą tego rozwiązania jest to, że bardzo szybko zwraca listę wszystkiego "nad", "pod" czy listę liści.
wadami jest mała intuicyjność, skomplikowane przenoszenie elementów (gdybym miał to zaimplementować, to najprawdopodobniej po prostu po każdym przeniesieniu od nowa bym numerował id_left/id_right.
dodatkowo – część zapytań wymaga albo "order by xxx limit 1", albo subselectów co raczej nie wróży dobrze wydajności. a order by limit 1 nie zawsze można użyć (np. użycie tego w joinach jest już mocno problematyczne).
motocykl. na wodór.
powstał pierwszy motocykl napędzany ogniwem wodorowym:
cechy? przede wszystkim jest cichy. nie ma ryku silnika. po drugiej – jest czysty – produktem spalania jest tylko i wyłącznie woda.
poza tym jest leciutki (koło 90 kilogramów!). nie ma biegów – więc prościej się jeździ. jest fenomenalnie szybki – dzięki malutkiej masie i olbrzymiemu momentowi przyspiesza jak nic innego. i jest wolny – prędkość maksymalna – 50mph (tak coś koło 80km/h). taki skuter. tylko bardziej ekonomiczny i lepiej przyspieszający. i o niebo lepiej wyglądający.
latający dywan
właśnie przeczytałem o nowym produkcie do domu. zasadniczo dla dzieci, ale ja tam bym się nie obraził jakbym dostał 🙂
jest to .. dywan. z podpórkami typu "górki". w sumie – ciężko opisać. lepiej zobaczcie:
oczywiście konfiguracja górek jest dowolna.
chętni do kupienia? zapraszam tu – ale uprzedzam – nie jest to najtańszy dywanik.
vista – system którego nie można używać? c.d.
jakiś czas temu pisałem o opracowaniu nt. kosztów drm w windows vista. dziś dzięki informacji od znajomego (yo, negativ 🙂 dowiedziałem się, że w sieci pojawiło się pełne tłumaczenie tego tekstu na polski. warto spojrzeć by wiedzieć co nas czeka w najbliższym czasie. aha. tekst jest długi.
jeździsz jak chłop
od zawsze panuje przekonanie, że kobiety jeżdżą gorzej. jest to oczywiście uogólnianie, i są setki przykładów, że jest inaczej. ale przy milionach kierowców te setki niewiele znaczą.
a może jednak? w stanach przeprowadzono na dużą skalę analizę statystyczną ruchu i wypadków na autostradach. wyniki? mężczyźni mają o 77% więcej szans na zginięcie w wypadku (wzięto pod uwagę ilość przejechanych kilometrów, więc nie jest to po prostu pochodna ilości facetów za kółkami).
inne ciekawostki? 80 letnie babcie, mocno uważające, i jeżdżące bezpiecznie częściej giną w wypadkach niż brawurowo jeżdżący 16-latkowie!.
najbezpieczniejszy pasażer? dziecko w foteliku podróżujący w godzinach porannego szczytu 🙂
eh. aby żyć dłużej chyba odstawię jazdę samochodem. poza tym to fajnie mieć kierowcę 🙂
tapeta na dzis
windows vista – net install?
jak donosi informationweek, microsoft chce równolegle z wejściem visty do sklepów – wrzucić ją w sieć.
potencjalnie służyć to ma temu, aby zainteresowani mogli sobie ściągnąć vistę (taniej) i zainstalować. oczywiście aby zaktywować potrzebny będzie płatny klucz, ale wydaje mi się to być krokiem w dobrą stronę – zarządzanie zdalnymi repozytoriami czy instalacją "po sieci" jest od dawna w linuksach i ma się dobrze. czy wyjdzie to microsoftowi? już niedługo zobaczymy.
chomik opowiada o wypadku
po raz pierwszy po niesamowitym wypadku, richard hammond z ekipy "top gear" opowiedział o wypadku, tym co dla niego znaczył, kuracji i "wszystkim tym".
warto przeczytać. nie codziennie zdarza się przeczytać wypowiedź faceta który przeżył wypadek przy prędkości 460 kilometrów na godzinę!
skypetv
znacie? to posłuchajcie.
za górami i rzekami było sobie kilku kolesi którzy napisali skype'a. rewolucyjny komunikator internetowy nastawiony od podstaw na rozmowy głosowe. wyposażony w kilka fajnych funkcji jak konferencje czy działanie mimo firewalli (aczkolwiek mogli to lepiej zrobić).
firmę sprzedali ebayowi. i trochę poleniuchowali. potem stwierdzili, że startują nowy projekt: the venice project.
miał on przynieść telewizję tak jak skype przyniósł telefony.
teraz projekt przerodził się w produkt. no prawie. na razie "beta". każdy może wejść na stronę i zarejestrować się, że chce brać udział w testach bety. a potem jeśli dopisze ci fart – dostaniesz możliwość ściągnięcia i odpalenia.
program dostał nazwę "joost". wykorzystuje własny protokół do rozpowszechniania legalnego wideo na świecie. i jak na razie nie zawiera za dużo treści, ale godne uwagi jest to, że już na etapie bety ma podpisane umowy na dostarczanie treści z warner music (teledyski jak rozumiem) i firmą producencką endemol (to kolesie od big brothera, fear factor, milionerów i innych popularnych "formatów").
cały program jest podobno bardzo fajnie zaprojektowany. z definicji odtwarza na całym ekranie (ale ma też możliwość odtwarzania w oknie). jakość podobno jest ok.
dzięki wykorzystaniu technologii p2p zużycie pasma (przez serwer) nie jest zabójcze. co jest istotne o czym przekonali się chociażby właściciele youtube'a (przed wykupieniem przez google'a).
co z tego dalej wyjdzie? nie wiadomo. wiadomo tylko, że klient docelowo ma być na wszystkie 3 główne platformy (windows, macosx i linux). i że ma być fajnie. pożyjemy zobaczymy.