Hurtownia Danych

Czym jest Hurtownia Danych?
Hurtownia Danych jest bazą zorientowaną na optymalną obsługę zapytań odwołujących się do dużych ilości danych. Systemy transakcyjne (OLTP) posiadają własne bazy danych, których zadaniem jest przetwarzanie dużej ilości operacji (np. rejestrowanie transakcji w hipermarkecie, czy połączeń telefonicznych u operatora telekomunikacyjnego). Systemy takie rejestrują tysiące zdarzeń w ciągu sekundy i pod kątem takiej wydajności są projektowane. Wysłanie do takiego systemu zapytania, np. o średni przychód w ciągu ostatniego roku w rozbiciu na miesiące, z określonej taryfy, względem wybranych pięciu segmentów klientów mógłby spowodować długi okres zawieszenia aplikacji, a co za tym idzie paraliż działalności firmy. Z drugiej strony analitycy biznesowi i menadżerowie potrzebują zadawać setki takich pytań dziennie, aby podejmować optymalne decyzje. Do takich właśnie celów tworzone są Hurtownie Danych, aby odciążać systemy operacyjne i efektywnie obsługiwać zapytania analityczne.

Procesy ETL
Aby dane znalazły się w Hurtowni Danych, muszą zostać zebrane z systemów źródłowych, odpowiednio przetworzone, oczyszczone (Data Cleansing) zintegrowane oraz załadowane w docelowej postaci do hurtowni. ETL jest akronimem od słów: Extract (ekstrakcja danych z systemów źródłowych), Transform (transformacja i integracja do modelu docelowego), Load (ładowanie danych do hurtowni). Projekt i implementacja procesu ETL jest bardzo ważnym elementem projektu systemu BI i najczęściej zajmuje ok. 70% jego czasu.

Dane ładowane są z systemów źródłowych w czasie, kiedy te są najmniej obciążone, lub wyłączone, aby nie zakłócać ich pracy. W dużych, międzynarodowych korporacjach może nie być takiego czasu, w którym wszystkie systemy źródłowe mogą zostać obciążone pobieraniem z nich danych. W takich sytuacjach stosowany jest ODS (Operational Data Source) – przejściowe źródło danych, w którym dane trzymane są przed załadowaniem do hurtowni. ODS może być wykorzystywany także do raportowania operacyjnego, którym nie można obciążać systemów źródłowych, jak np. generowanie billingów dla klientów.

Data Quality i Data Cleansing
Dane w systemach źródłowych są często błędne i niekompletne. Niejednokrotnie wprowadzane są przez ludzi, co powoduje różnego rodzaju pomyłki i niejasności. Dla przykładu ten sam klient może istnieć w systemie jako dwie różne osoby, ponieważ zmienił nazwisko. Ten sam adres może być wpisany na wiele różnych sposobów z różną kolejnością jego elementów. Niektórych danych może w systemie zwyczajnie brakować. Tego typu niespójności i błędy w danych usuwane są podczas procesu ich czyszczenia (Data Cleansing) i zapewniania ich jakości (Data Quality).

Kostki OLAP
OLAP, czyli On-Line Analytical Processing odnosi się do przetwarzania danych w czasie rzeczywistym pod kątem skomplikowanych zapytań analitycznych. Pojęcie to jest ściśle związane z kostkami OLAP, czyli specyficznym modelem danych, stosowanym w Hurtowniach Danych. Jest on zorientowany na wydajne przetwarzanie, jak również przechowuje dane w modelu zrozumiałym biznesowo opartym o fakty (facts), miary (measures) i wymiary (dimensions), na którym to użytkownicy przeprowadzają analizy wielowymiarowe.
Kostki OLAP, w zależności od sposobu ich przechowywania w bazie, mogą przyjmować postać tabel relacyjnych (ROLAP), struktur wielowymiarowych (MOLAP), czy łączonych modeli hybrydowych (HOLAP). Struktury relacyjne ROLAP mogą być modelowane w postaci tzw. schematu gwiazdy (star schema) lub płatka śniegu (snowflake schema).

Metadane
Ponieważ Hurtownie Danych integrują dane z wielu systemów informatycznych, bardzo ważne jest w tym kontekście zarządzanie ich metadanymi, czyli danymi o danych. Przechowują one dodatkowe informacje, np. o tym skąd pochodzą dane, z jakiego zakresu czasu pochodzą, czy jaki jest ich kontekst prawny. Więcej o metadanych znajdziesz tutaj.

Hurtownia Danych zapewnia potencjalnie bardzo duże możliwości analizy informacji gromadzonych do tej pory w różnych systemach operacyjnych. Zbudowanie jednej składnicy danych (bądź kilku tematycznych składnic, zwanych datamarts) daje możliwości spojrzenia na dane przetwarzane w organizacji w niespotykany do tej pory sposób. W końcu staje się możliwe porównanie bądź zsumowanie danych dotyczących tych samych zagadnień, ale gromadzonych dotąd w różnych systemach dziedzinowych.

Często hurtownię danych zasila się dodatkowo jednorazowymi strumieniami danych ze starych, wyłączonych z eksploatacji systemów, z których bardzo trudno było uzyskać wcześniej informacje. Potencjał hurtowni wynika też bezpośrednio z jej cyklicznego zasilania, które na drodze przetwarzania (procesy ETL) prowadzi do ujednolicenia danych poprzez uwspólnienie wymiarów analiz i gromadzenie informacji w tabelach faktów.

Efektywne wykorzystanie potencjału nawet bardzo dobrze zbudowanej hurtowni danych możliwe jest tylko poprzez biznesowe, czyli merytoryczne rozumienie informacji gromadzonych w systemie. W tym celu niezbędne jest prowadzenie centralnego repozytorium metadanych, czyli miejsca zawierającego merytoryczny opis danych kolekcjonowanych w hurtowni danych. Repozytorium takie posiada również specjalne miejsce na zbiór dodatkowych informacji o danych, zawierający szereg informacji pomocnych w dotarciu do danych właściwych, np.:

  • z jakiego systemu źródłowego pochodzą dane,
  • za jaki okres czasu zostały już załadowane dane do hurtowni,
  • jaki jest kontekst prawny przechowywanej informacji,
  • na jakim formularzu papierowym i w której wersji informacja była pierwotnie rejestrowana, itd.

Kontekst metadanych pozwala użytkownikom końcowym skutecznie docierać do informacji, do której chcą dotrzeć oraz pozwala mieć pewność co do jakości danych pobieranych do analizy. 


Drukuj stronę
comarch agencja interaktywna