Hurtownie Danych(2), Informatyka

s [ Pobierz całość w formacie PDF ]
Hurtownie danych
Agnieszka Pre
Ļ
apres@altersystems.pl
W obecnych czasach globalnej hiperkonkurencji, aby móc sprawnie zarzĢdzaę firmĢ i
utrzymaę siħ na rynku naleŇy mieę stały dostħp do danych – zarówno w kontekĻcie wybranej
dziedziny działalnoĻci organizacji jak i w ujħciu ogólnym. Dostħp ten musi byę zorganizowany w
taki sposób, aby dane mogły byę wykorzystane w procesie decyzyjnym – pociĢga to za sobĢ
koniecznoĻę tworzenia analiz obejmujĢcych niejednokrotnie całoĻę organizacji.
RozpatrujĢc zasoby informacyjne kaŇdego przedsiħbiorstwa moŇna wyróŇnię dwa
rodzaje danych:
1. Dane operacyjne
2. Dane historyczne
Dane operacyjne gromadzone sĢ w systemach informatycznych wspomagajĢcych
codziennĢ działalnoĻę firmy. SĢ to wszelkiego rodzaju systemy finansowo-ksiħgowe, systemy
magazynowe, fakturowania, czy aplikacje rejestrujĢce zamówienia i obsługujĢce sprzedaŇ.
Charakterystyczne dla tych systemów jest to, iŇ sĢ one rozproszone i niejednorodne; czħsto
pochodzĢ one od róŇnych producentów, przechowujĢ te same dane w róŇnych formatach i w
róŇnych bazach danych. Modele tych systemów opierajĢ siħ na złoŇonych schematach, same
zaĻ aplikacje sĢ optymalizowane pod kĢtem dodawania i modyfikacji danych. Z analitycznego
punktu widzenia, systemy te nie sĢ wystarczajĢcym Ņródłem do podejmowania decyzji
poniewaŇ przechowujĢ tylko dane aktualne, niezbħdne do codziennej pracy. PoniewaŇ
głównym wymogiem dla tych systemów jest szybkoĻę działania przy jednoczesnym dostħpie
wielu uŇytkowników, dane z tych systemów co pewien okres czasu sĢ archiwizowane i
przenoszone na zewnħtrzne noĻniki danych.
RozwiĢzaniem niwelujĢcym powyŇsze niedogodnoĻci jest tworzenie specjalnych
systemów informatycznych, które przechowujĢ dane z róŇnych Ņródeł, ewidencjonujĢ zmiany w
tych danych na przestrzeni czasu i efektywnie udostħpniajĢ je do analizy. Systemy te to
hurtownie danych.
Copyright @ 2005 Alter Systems, ul. Dygasiıskiego 21, 01-063 Warszawa,
www.altersystems.pl
, info@altersystems.pl
1
 Definicja hurtowni danych
Hurtownia danych (magazyn danych, ang. data warehouse)
jest wydzielonĢ
centralnĢ bazĢ danych, zbierajĢcĢ elementarne informacje słuŇĢce do zarzĢdzania organizacjĢ
i pokrywajĢce potrzeby wszystkich przewidywanych analiz. Baza ta jest przeznaczona do
wykorzystania w całej organizacji, zawiera dane historyczne o małym stopniu agregacji.
ņródłem danych dla takiej hurtowni sĢ róŇnorodne systemy operacyjne działajĢce w
organizacji.
Czħsto tworzy siħ mniejsze, wyspecjalizowane
składnice danych (ang. data marts)
,
zwykle przeznaczone dla wyodrħbnionych działów organizacji. Dane w róŇnych składnicach
danych powtarzajĢ siħ, sĢ one zwykle silnie zagregowane i zdenormalizowane. Struktura data
martów jest zoptymalizowana pod kĢtem lokalnie przeprowadzanych analiz. NajczħĻciej
składnice danych majĢ tylko jedno Ņródło danych – centralnĢ hurtowniħ danych.
Hurtowniħ danych moŇna zdefiniowaę jako bazħ danych charakteryzujĢcĢ siħ czterema
poniŇszymi cechami:
1. Zorientowaniem na temat.
2. NieulotnoĻciĢ.
3. Zintegrowaniem.
4. ZmiennoĻciĢ w czasie.
Zorientowanie na temat
oznacza, Ňe zbierane dane dotyczĢ pewnego tematu (np. sprzedaŇy),
a nie działaı (np. obsługiwania zamówieı).
Nieulotno
Ļę oznacza, Ňe dane raz umieszczone w hurtowni zazwyczaj pozostajĢ
niezmienione. KaŇdy uŇytkownik hurtowni danych ma pewnoĻę, Ňe zapytanie zawsze zwróci
ten sam wynik, niezaleŇnie od tego, jak czħsto i kiedy jest wykonywane. Dane sĢ ładowane do
hurtowni okresowo i pozostajĢ w niej jako dane historyczne – nie sĢ usuwane. Jest to
przyczyna, dla której hurtownie danych osiĢgajĢ tak duŇe rozmiary w porównaniu z
operacyjnymi bazami danych.
Zintegrowanie
oznacza, Ňe dane sĢ jednolite, a wiħc przechowywane w tym samym formacie
bez wzglħdu na formaty wejĻciowe z systemów Ņródłowych. Proces sprawdzania, integracji i
agregacji danych dokonywany jest podczas okresowego zasilania hurtowni danymi z systemów
operacyjnych przedsiħbiorstwa.
Copyright @ 2005 Alter Systems, ul. Dygasiıskiego 21, 01-063 Warszawa,
www.altersystems.pl
, info@altersystems.pl
2
 Zmienno
Ļę
w czasie
oznacza, Ňe gromadzone sĢ dane zmieniajĢce siħ w czasie. PoniewaŇ
wiħkszoĻę zapytaı kierowanych do hurtowni danych wymaga przeĻledzenia jakiegoĻ odcinka
czasu, np. badanie trendów - jest to jedna z podstawowych zalet hurtowni danych.
Analiza danych
Głównym uŇytkownikiem hurtowni danych jest kadra zarzĢdzajĢca, menedŇerowie i
analitycy. WykorzystujĢ oni informacje zawarte w hurtowniach danych w procesie decyzyjnym –
majĢc do dyspozycji wiedzħ dotyczĢcĢ przeszłoĻci mogĢ wnioskowaę o przyszłoĻci. W tym
celu dokonujĢ oni róŇnego typu analiz, z których najwaŇniejsze to eksploracja danych i analiza
wielowymiarowa.
Eksploracja danych (dr
ĢŇ
enie danych, ang. data mining)
polega na badaniu i
modelowaniu powiĢzaı w duŇych zbiorach danych. Sukces tego procesu uzaleŇniony jest od
specjalistycznej wiedzy osób, które interpretujĢ wyniki analiz i sĢ w stanie przekształcię
pozornie bezuŇyteczne wzorce w cennĢ informacjħ. Niezbħdne teŇ jest posiadanie danych
reprezentatywnych, niewypaczonych – a wiħc danych dobrych jakoĻciowo. Wyeliminowanie
tzw. „
szumu”
, a wiħc błħdów w danych jest o wiele waŇniejsze niŇ zapewnienie duŇej ich iloĻci
do analiz.
SĢ dwa podstawowe rodzaje eksploracji danych:
 
Weryfikacja hipotez
. Stosuje siħ jĢ w przypadku, gdy mamy pewne
wyobraŇenie lub przeczucie co do znaczĢcej zaleŇnoĻci miħdzy elementami
danych
 
Odkrywanie wiedzy
. Stosuje siħ tam, gdzie miħdzy elementami danych mogĢ
istnieę dotychczas nieznane znaczĢce zwiĢzki, których Ňaden człowiek nie jest w
stanie wywnioskowaę
Analiza wielowymiarowa
jest podstawĢ bezpoĻredniego przetwarzania analitycznego
(ang. OLAP On-Line Analytical Processing
) – poniewaŇ dane zgromadzone w hurtowniach
majĢ najczħĻciej charakter wielowymiarowy. Struktura wielowymiarowa hurtowni danych opiera
siħ na dwóch podstawowych składnikach:
  faktach i
  wymiarach
Copyright @ 2005 Alter Systems, ul. Dygasiıskiego 21, 01-063 Warszawa,
www.altersystems.pl
, info@altersystems.pl
3
 Fakty reprezentujĢ elementarne komórki danych, sĢ opisywane atrybutami liczbowymi,
tzw. miarami. Przykładem faktu jest sprzedaŇ, której miarami sĢ np. iloĻę sprzedanego towaru i
jego wartoĻę.
Wymiary natomiast sĢ wartoĻciami, które mogĢ tworzyę hierarchie. Typowe wymiary to
np. czas, klient, produkt. Centralny punkt struktur wielowymiarowych stanowiĢ fakty, powiĢzane
zwiĢzkami z wymiarami. Struktura danych moŇe przybieraę formħ
gwiazdy (ang. starnet)
gdy
wymiary tworzĢ proste hierarchie, lub
płatka
Ļ
niegu
(
ang. snowflake
)
– gdy hierarchie majĢ
postaę drzew. PoniŇszy rysunek obrazuje przykładowy schemat analizy zamowieı składanych
przez klientów w odniesieniu do czterech wymiarów: produktu, klienta, czasu i akcji
promocyjnej.
Produkt
Klient
Zamówienia
Promocja
Czas
Rys.1. Wielowymiarowy model dla obszaru tematycznego zamówieı
– schemat gwiazdy.
SĢ trzy główne rodzaje bezpoĻredniego przetwarzania analitycznego:
1.
MOLAP: Wielowymiarowe OLAP
– zbiór danych przyjmuje postaę wielowymiarowej
bazy danych opiarajĢcej siħ na zasadach arkusza kalkulacyjnego. W wiħkszoĻci tego
typu produktów naleŇy juŇ na poczĢtku mieę moŇliwoĻę podania systemowi
przewidywalnej wielkoĻci wymiarów. MoŇna wprowadzię do systemu np. iloĻę klientów
czy iloĻę produktów które bħdĢ musiały byę trzymane w systemie, bĢdŅ podaę zakres
identyfikatorów – system sam obliczy rozmiar wymiaru. ZnajĢc ten rozmiar system
Copyright @ 2005 Alter Systems, ul. Dygasiıskiego 21, 01-063 Warszawa,
www.altersystems.pl
, info@altersystems.pl
4
poprzez przemnoŇenie wszystkich liczb poda liczbħ komórek arkusza, dla których musi
zrobię miejsce w swojej macierzy. W efekcie połoŇenie poszczególnych komórek moŇe
byę obliczone z wartoĻci identyfikatorów wymiarowych. Dziħki temu systemy te sĢ
naprawdħ szybkie jeĻli chodzi o dostħpnoĻę do danych i nie wykonywane sĢ tu Ňadne
złĢczenia. WiĢŇe siħ z tym jednak problem tzw.
rzadko
Ļ
ci
, która jest miarĢ
nieuŇywanych komórek w wielowymiarowej bazie danych. Czħsto rzadkoĻę moŇe
przekraczaę nawet 90 procent. W produktach OLAP wystħpuje pojħcie tzw.
wielowymiarowej kostki
. Kostki budowane sĢ z wymiarów, podczas gdy miary z tabeli
faktów stajĢ siħ kalkulowanymi punktami kostek. O kostce jest mowa bez wzglħdu na
iloĻę zawartych w niej wymiarów. Przy uŇyciu tej samej tabeli informacyjnej dla
identycznych wymiarów tworzĢcych róŇne kostki, te same dane sĢ kopiowane do
wielowymiarowej bazy danych dla wszystkich kostek uŇywajĢcych tej tabeli. Jest to nie
tylko marnowanie przestrzeni, ale równieŇ czasu na transfer, który dla duŇych baz
danych moŇe trwaę godzinami. RozwiĢzaniem jest stosowanie tzw.
kostek
wirtualnych
, które umoŇliwiajĢ uŇycie jednej kopii tabeli informacyjnej dla wszystkich
kostek korzystajĢcych z tej tabeli. Schemat bezpoĻredniego przetwarzania anlitycznego
wg metody MOLAP pokazany jest na Rys. 2.
Hurtownia danych
ĺrodowisko OLAP
Kostki
MOLAP
SQL Server,
Oracle, inne
Dane MOLAP
Agregacje MOLAP
Rys. 2. Schemat bezpoĻredniego przetwarzania analitycznego wg metody MOLAP.
Copyright @ 2005 Alter Systems, ul. Dygasiıskiego 21, 01-063 Warszawa,
www.altersystems.pl
, info@altersystems.pl
5
[ Pobierz całość w formacie PDF ]

  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • actus.htw.pl