Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



16.11.2018

Dla biznesu i edukacji

Optoma 330USTN
13.11.2018

Superszybki dysk SSD

Patriot Evolver
09.11.2018

Ograniczenie kosztów

Canon imageRUNNER ADVANCE 525/615/715
06.11.2018

Pierwsze w testach

Serwery Huawei V5
30.10.2018

Klimatyzacja szaf...

Rittal VX25 Blue e+
26.10.2018

Extender Wi-Fi

Netgear Nighthawk X6
25.10.2018

Nowości od Ubiquiti....

Ubiquiti UAP-nanoHD, UAP-XG, UWB XG
23.10.2018

Dozór 5 MP

Panasonic WV-S2550L
19.10.2018

4K, HDR i USB-C

Philips 328P6VUBREB

Przetwarzanie big data

Data publikacji: 29-08-2018 Autor: Jarosław Sobel
Autor: Rys. K. Kanoniak

Dane to nowa ropa naftowa. Generujemy ich coraz więcej i więcej. Co zrobić z takim ogromem informacji? Jak je przechowywać i jak je efektywnie oraz szybko analizować? Rozwiązaniem może być zastosowanie platformy, jaką jest Apache Hadoop.

W  roku 2006 Clive Humby, angielski matematyk i twórca systemu Tesco Clubcard, wypowiedział zdania: „Dane to nowa ropa naftowa, jednak bez rafinacji jest całkowicie nieprzydatna. Ropa musi być przetworzona w gaz, paliwo, chemikalia itp., aby można z niej było zrobić użytek, który niesie ze sobą odpowiednią wartość. Tak samo dane muszą być podzielone i przeanalizowane, aby miały konkretną, mierzalną wartość”.

 

W dzisiejszym świecie człowiek generuje ogromne ilości danych. W każdej minucie:

 

  • użytkownicy Facebooka lajkują 4 166 667 postów,
  • użytkownicy Tweetera wysyłają 347 222 tweety,
  • użytkownicy Skype’a wykonują 110 040 rozmów,
  • pasażerowie Ubera wykonują 694 przejazdy,
  • użytkownicy Netflixa oglądają 77 166 godzin wideo,
  • klienci Apple’a ściągają 51 000 aplikacji na swoje telefony.


Coraz częściej w przypadku dużych ilości danych używane jest pojęcie big data. Termin ten, jak sama nazwa wskazuje, odnosi się do dużego zbioru danych. Przy czym aby mówić konkretnie o big data, dane te muszą być zmienne i różnorodne. Co więcej, ich przetwarzanie jest trudne (zarówno technicznie, jak i czasowo), jednak wynik takiej analizy jest wartościowy, gdyż może prowadzić do zdobycia nowych informacji, a w efekcie również wiedzy w danym zakresie.


Samo określenie „duży zbiór danych” niekoniecznie musi oznaczać pojemności rzędu tera- lub petabajtów. Jest ono natomiast ściśle powiązane z dziedziną, z której pochodzą dane. I tak np. eksperymenty naukowe w CERN-ie (Europejska Organizacja Badań Jądrowych) dotyczące zderzeń cząstek elementarnych mogą generować kilka gigabajtów danych na sekundę, co w przypadku długiego czasu trwania eksperymentu powoduje powstanie ogromnych ilości informacji. Z drugiej strony możemy mieć dane pochodzące z badań medycznych, np. przetworzone obrazy z rezonansu magnetycznego. Samych danych może być niewiele, jednak ich analiza jest skomplikowana i czasochłonna.


Big data określane jest przez tzw. model 4V:

 

  • Volume – duża ilość generowanych oraz składowanych danych. Jak zostało wspomniane powyżej, wielkość zależy od dziedziny, w ramach której powstają informacje;
  • Variety – duża różnorodność danych. Zazwyczaj jest to zbiór danych ustrukturyzowanych (np.: relacyjne bazy danych) oraz częściowo lub całkowicie nieustrukturyzowanych, tj. tekst, obrazy, audio, wideo;
  • Velocity – szybkość generowania danych. Podobnie jak kategoria rozmiaru, tak i tutaj szybkość rozpatrywana jest indywidualnie dla różnych dziedzin danych. Dość często problem związany z przetwarzaniem nie wynika z samej ilości informacji, tylko z konieczności analizy w czasie rzeczywistym;
  • Veracity – jest to pojęcie, które zostało dodane do oryginalnego modelu 3V. Oznacza ono wiarygodność danych, czyli konieczność oceny posiadanych danych pod kątem ich przydatności oraz wiarygodności.


W roku 2012 Gartner doprecyzował podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów.


Termin big data nie jest nowy. Systemy do przetwarzania dużych zbiorów danych istniały już w latach 80. poprzedniego wieku. Pionierem była firma Teradata, która w 1984 zaprezentowała system do przetwarzania równoległego o nazwie DBC 1012. W 1992, kiedy przeciętna pojemność dysku twardego wynosiła 2,5 GB, Teradata jako pierwsza zeskładowała, a następnie przetworzyła dane o pojemności 1 terabajta.

[...]

Autor jest architektem zajmującym się projektowaniem i implementacją rozwiązań wirtualizacyjnych. Posiada certyfikacje firm: Citrix, VMware, Microsoft, NetApp i RedHat. Prelegent oraz autor bloga poświęconego technologii Citrix i wirtualizacji.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"