Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.


17.08.2018

Kontrola dostępu

Axis A1601
14.08.2018

Zabezpieczenia prognostyczne

Sophos Email Security Advanced
10.08.2018

Polski Azure Stack...

Beyond.pl Data Center 2
07.08.2018

Zarządzanie urządzeniami...

Quest KACE Cloud MDM, KACE Systems Deployment Appliance (SDA)
03.08.2018

Multimodalny OS

SUSE Linux Enterprise 15
27.07.2018

Skalowalne all-flash

QSAN XCubeFAS XF2026D
24.07.2018

Interaktywne kioski

Pyramid Polytouch 32
20.07.2018

Laserowe benefity

Brother TonerBenefit
17.07.2018

Laptop konwertowalny

HP ProBook x360 440 G1

Jak zostać mistrzem danych

Data publikacji: 10-01-2018 Autor: Grzegorz Kubera

W kilkuczęściowym kursie pokażemy, jak wygląda praca osób na stanowisku data scientist. To coraz popularniejszy zawód, w dodatku bardzo dobrze płatny. Wystarczy opanować zasady i przyswoić wiedzę, by później tworzyć własne projekty czy znaleźć dobrze płatną pracę. Wbrew pozorom nauka tej specjalizacji nie jest przesadnie skomplikowana, dlatego tym bardziej warto zainwestować w nią swój czas.

W artykule przedstawiamy możliwości języka programowania Python w zakresie analizy i przetwarzania danych. Skupiamy się również na tym, co zrobić, aby rozpocząć przygodę w zawodzie specjalisty z zakresu obróbki danych, zwanego również mistrzem lub analitykiem danych (data scientist).


Dlaczego warto zostać mistrzem danych? Otóż do 2020 r. na świecie ma być 40 zetabajtów informacji (to 400 mld gigabajtów). Firmy takie jak Facebook, Google czy LinkedIn nieustannie zatrudniają i powiększają swoje zespoły specjalistów ds. danych, ponieważ zdają sobie sprawę, że dane to obecnie waluta o dużej wartości, zupełnie jak gotówka czy złoto. Ludzie, którzy potrafią analizować informacje, wizualizować trendy, a także pomagać firmom wyciągać wnioski i podejmować decyzje oparte na danych, są dziś bardzo pożądani przez pracodawców i mogą liczyć na wysokie honoraria.


Średni roczny zarobek osoby na stanowisku data scientist to ok. 120 tys. dol. (rynek amerykański). Jak podaje firma konsultingowa McKinsey & Co., w 2018 roku na świecie będzie brakować nawet do 1,5 mln specjalistów, którzy potrafią pracować z danymi. Miesięcznik Harvard Business Review po przeanalizowaniu rynku pracy napisał, że data scientist to najbardziej atrakcyjny zawód XXI wieku („The Sexiest Job of the 21st Century”, https://goo.gl/Tjff6i). Przedsiębiorstwa, jeśli chcą pozostać konkurencyjne, muszą pracować z coraz większą ilością danych, dlatego potrzebni są ludzie, którzy potrafią zrobić z nich użytek. Przykładowo jako data scientist można pracować w firmie B2C, która wykorzystuje dane do zrozumienia potrzeb klientów, albo w startupie B2B, który sprzedaje dane jako produkty (np. raporty na temat konkretnych branż czy zachowań konsumentów). Możliwości jest wiele.


Niezależnie od tego, jaką ścieżkę dla siebie wybierzemy, zawód data scientist zazwyczaj wymaga kilku konkretnych umiejętności. Po pierwsze, trzeba znać języki programowania przeznaczone m.in. do obliczeń statystycznych i wizualizacji danych, takie jak R lub Python, a także język zapytań do bazy danych, np. SQL. Po drugie, wymagana jest znajomość podstaw statystyki – warto zdobyć odpowiednią wiedzę, zapisując się na kurs i czytając odpowiednią literaturę. I po trzecie: machine learning. Jeśli chcemy pracować w dużej firmie albo w takiej, która oferuje dane jako produkt, trzeba wiedzieć, czym jest machine learning, a także umieć używać bibliotek uczenia maszynowego w Pythonie czy R. Jeśli zdobędziemy tego typu umiejętności i wiedzę, możemy ubiegać się o pracę jako data scientist, założyć własny start-up z tej specjalizacji czy też rozwinąć własną firmę, dodając nowe usługi do oferty.


W ramce obok opisujemy, jakie są możliwości na rynku pracy związane z tym zawodem (ramka Data scientist – zawód nr 1). W niniejszym artykule pokazujemy, jak wykorzystać Pythona w dziedzinie analizowania danych, zaczynając od biblioteki NumPy.


> PRACA Z NUMPY – POCZĄTKI


Pracę rozpoczynamy od instalacji Anacondy (dystrybucja Pythona) oraz skonfigurowania notatnika Jupyter. Po zainstalowaniu tych rozwiązań przechodzimy do NumPy.


NumPy to zestaw narzędzi dla języka Python, które pozwalają na zaawansowane obliczenia matematyczne, w szczególności do zastosowań naukowych (data science), takich jak diagonalizacja, całkowanie, rozwiązywanie równań itp. NumPy udostępnia specjalizowane typy danych, operacje i funkcje, których nie ma w typowej instalacji Pythona. Co więcej, prawie wszystkie biblioteki w ekosystemie PyData opierają się na NumPy, stanowiącym jeden z ich głównych elementów składowych. Sprawia to, że NumPy jest nieodłącznym elementem środowiska programistycznego specjalistów data scientist.


Wraz z instalacją NumPy zyskujemy klasę ndarrary, wprowadzającą obiekty array. Obiekty te można traktować jako uniwersalne pojemniki na dane w postaci macierzy, czyli wektorów i tablic. Jak zainstalować NumPy? Uruchamiamy wiersz poleceń Anaconda Prompt z menu Start w Windows i wpisujemy komendę:


conda install numpy


Anaconda znajdzie odpowiedni pakiet danych i zapyta, czy chcemy go zainstalować. Należy wpisać „y” i zatwierdzić wybór klawiszem Enter. Następnie uruchamiamy notatnik Jupyter, wpisując:


jupyter notebook
Otwieramy notatnik w Pythonie 3 i wpisujemy komendę:
moja_lista = [1,2,3]


W ten sposób tworzymy obiekt moja_lista, który ma wartość [1,2,3]. To obiekt stworzony w Pythonie i jeśli teraz wpiszemy moja_lista, Jupyter wyświetli jej wartość. NumPy potrafi zmienić tego typu obiekt w obiekty typu array. Obecnie może wydawać się to mało zrozumiałe lub po prostu niepotrzebne, niemniej są to podstawy, jakie należy poznać, aby umieć później posługiwać się komendami NumPy i pracować na danych.
Aby zmienić stworzony obiekt w obiekt typu array, musimy najpierw zaimportować NumPy do Pythona w Jupyterze. Wpisujemy:


import numpy as np
np.array(moja_lista)


Pierwsza komenda zaimportuje NumPy jako np – dzięki niej będziemy mogli łatwo wpisywać komendy NumPy, posługując się skrótem np. Druga komenda przemieni obiekt moja_lista w obiekt array, który od tej pory będziemy nazywać tablicą. Teraz możemy dodatkowo przypisać nazwę do tablicy, np.:


arr = np.array(moja_lista)


Dzięki temu po wpisaniu komendy arr Jupyter wyświetli zawartość tablicy moja_lista. Tym sposobem nauczyliśmy się, że można przekształcać zwykłe listy z Pythona w tablice. W tym przypadku uzyskaliśmy tablicę jednowymiarową – możemy to poznać po tym, że ma ona jeden nawias kwadratowy, czyli po wpisaniu arr wyświetla się:


array([1, 2, 3])


Jeśli chcemy stworzyć dwuwymiarową tablicę, zwaną też macierzą, musimy umieścić w niej kilka list. Możemy wpisać w Jupyterze:


druga_lista = [[1,2,3], [4,5,6], [7,8,9]]


Zapamiętajmy, że komenda arange pozwala w łatwy sposób generować tablice. Inne przydatne komendy w NumPy umieszczamy w ramce.


[...]

Założyciel i dyrektor generalny firmy doradczo-technologicznej, pełnił funkcję redaktora naczelnego w magazynach i serwisach informacyjnych z branży ICT. Dziennikarz z ponad 10-letnim doświadczeniem i autor książki nt. tworzenia start-upów.

Artykuł pochodzi z miesięcznika: IT Professional

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"