Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.
Data publikacji: 04-03-2021 | Autor: | Marcin Szeliga |
Firmy coraz częściej podejmują decyzje biznesowe oparte na danych. Przede wszystkim dlatego, że dysponują coraz większą ilością różnorodnych danych. Jest ich jednak tak dużo, że ich efektywne przechowywanie i analiza wymagają specjalistycznych narzędzi.
Tradycyjne hurtownie danych doskonale radzą sobie z przechowywaniem i przetwarzaniem ogromnych, liczonych w terabajtach zbiorów danych. Były one jednak projektowane z myślą o przetwarzaniu danych tabelarycznych. Ponadto ich wdrożenie jest czasochłonne, bo wymaga stworzenia dostosowanego do konkretnych potrzeb modelu danych. Tymczasem użytkownicy coraz częściej chcą też analizować dane przechowywane w plikach o dowolnych strukturach, coraz bardziej zależy im na możliwości szybkiego dostosowywania hurtowni do zmieniających się danych i nowych sytuacji biznesowych. Zwracają też coraz większą uwagę na integrację hurtowni z łatwymi w użyciu narzędziami do wizualizacji i zaawansowanej analizy danych.
Tu z pomocą przychodzą nowoczesne hurtownie danych. Ich podstawą są wysokowydajne magazyny danych pozwalające tanio przechowywać w chmurze dowolne dane. Do analizowania i graficznego przedstawiania tych danych używane są usługi typu PaaS (Platform-as-a-Service) lub SaaS (Software-as-a-Service). Dzięki uproszczonej konfiguracji pozwalają one skupić się na rozwiazywaniu konkretnych problemów biznesowych.
W praktyce spora część analizowanych danych, jeśli nie zdecydowana większość, nadal pochodzi z operacyjnych baz danych i ma formę tabel. Dlatego potrzebne nam jest rozwiązanie hybrydowe, pozwalające w ten sam sposób i za pomocą tych samych narzędzi analizować zarówno dane plikowe, jak i tabelaryczne. Takim narzędziem jest Azure Synapse Analytics.
> Usługa Azure Synapse Analytics
W grudniu 2020 roku Microsoft ogłosił dostępność usługi Azure Synapse Analytics, następcy usługi Azure SQL Data Warehouse. Jednak funkcjonalność nowej usługi analizy danych znacznie wykracza poza możliwości klasycznej hurtowni MPP (Massively Parallel Processing), jaką był Azure SQL Data Warehouse. Azure Synapse Analytics łączy hurtownie MPP (nazwane tu dedykowanymi pulami SQL) z usługą przetwarzania danych plikowych za pośrednictwem języka SQL (nazwaną bezserwerowymi pulami SQL), serwerem Apache Spark (pulami Apache Spark) i platformą integracji danych bazującą na usłudze Azure Data Factory. Jeśli dodamy do tego integrację z najważniejszymi usługami Azure, w tym Azure Machine Learning, Microsoft Power BI, Azure Data Lake, Azure Blob Storage, Azure Purview i Azure Active Directory, oraz kilkadziesiąt konwektorów pozwalających pobierać dane z najróżniejszych źródeł, otrzymamy kompletną platformę do analizy danych.
Żeby utworzyć Azure Synapse Analytics, potrzebna nam będzie subskrypcja Azure. Bezpłatną subskrypcję testową można założyć pod adresem azure.microsoft.com/free. Po zalogowaniu się na portalu Azure należy utworzyć nowy zasób typu Azure Synapse Analytics. Podczas konfiguracji będziemy musieli:
Po kliknięciu przycisku Create zasób zostanie utworzony. W zakładce Overwiew znajdziemy przycisk pozwalający przejść do Synapse Studio. Studio jest graficznym narzędziem służącym do pracy z usługą Azure Synapse Analytics.
Znajdujące się z lewej strony okno pozwala przełączać się pomiędzy sześcioma sekcjami (rys. 1):
> Dedykowane pule SQL
Przygodę z usługą Azure Synapse Analytics zaczniemy od zbudowania klasycznej hurtowni danych MPP. W tym celu dodamy do wcześniej utworzonej przestrzeni roboczej dedykowaną pulę SQL W tym celu należy przejść do sekcji Manage, wybrać opcję Analytics pools/SQL pools i kliknąć przycisk New. Następnie podajemy nazwę tworzonej puli (np. NYT – będziemy tam przechowywać dane o trasach nowojorskich taksówek). Teraz czas wybierać wydajność puli. Wydajność mierzona jest w jednostkach DWUc (Data Warehouse Units compute). Najmniejsza dedykowana pula SQL ma wydajność 100 DWUc i kosztuje około 1 euro za godzinę, największa z dostępnych w czasie pisania artykułu ma wydajność 30 tys. jednostek, a jej koszt to nieco ponad 300 euro za godzinę pracy. Wydajność dedykowanych puli SQL można zmieniać, dostosowując ją do bieżącego obciążenia, możliwe jest też wstrzymywanie dedykowanych puli SQL (wtedy płacimy wyłącznie za używane przez nie magazyny Premium). Na potrzeby ćwiczenia wystarczy nam najmniejsza z dedykowanych puli SQL. Po kilku, maksymalnie kilkunastu minutach od utworzenia będzie ona gotowa do użycia.
Dedykowana pula SQL składa się z węzła kontrolnego, jednego lub więcej węzłów obliczeniowych, magazynu danych i usługi DMS (Data Movement Service), która synchronizuje dane pomiędzy węzłami. Ponadto zawiera ona usługę Polybase pozwalającą wydajnie odczytywać przechowywane w Data Lake pliki z danymi. Węzeł kontrolny to specjalna wersja serwera SQL Server. To z nim łączymy się za pomocą narzędzi analitycznych, takich jak Power BI, Excel czy Tableau, i to do tego węzła wysyłamy wszystkie instrukcje języka SQL. Zadaniem węzła kontrolnego jest rozdzielenie prac pomiędzy węzły obliczeniowe (nasze żądania będą wykonywane przez nie równolegle) oraz zebranie zwróconych przez nie wyników cząstkowych, scalenie ich i odesłanie do aplikacji klienckiej.
[...]
Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.
Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.
Transmisje online zapewnia: StreamOnline