Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



13.07.2018

Wiele kanałów komunikacji

Avaya IP Office
10.07.2018

Konwersja VM

Xopero Image Tool (XIT)
06.07.2018

Bezpieczne testy chmury

Usługi Oracle w modelu PAYG
03.07.2018

Centrum innowacji

Nokia Garage
29.06.2018

Trzecia generacja dysków

Samsung SSD NVMe 970 PRO i 970 EVO
26.06.2018

Druk mono

Drukarki Konica Minolta
22.06.2018

Monitor z USB-C

AOC I1601FWUX
19.06.2018

Konwertowalny mikrus

HP EliteBook x360 1030 G3
15.06.2018

Druga generacja

AMD Ryzen

Modele głębokiego uczenia maszynowego. Analiza i przetwarzanie obrazów

Data publikacji: 30-11-2017 Autor: Marcin Szeliga
MOŻLIWOŚCI UCZENIA...
Zdjęcie kota i jego liczbowa...

Sztuczna inteligencja nazywana jest elektrycznością XXI wieku. Sto lat temu upowszechnienie tej drugiej zmieniło sposób, w jaki pracujemy, podróżujemy, odpoczywamy – elektryczność zmieniła więc świat. Dzisiaj, dzięki wdrażaniu mechanizmów sztucznej inteligencji, jesteśmy świadkami przełomu na podobną skalę.

Początki prac nad praktycznym zastosowaniem sztucznej inteligencji sięgają lat 60. XX wieku. Potrzebne było 30 lat, zanim systemy uczenia maszynowego zaczęły być powszechnie stosowane do takich zadań jak klasyfikacja (np. wiadomości e-mail jako spamu), regresji (np. prognozowania sprzedaży), grupowania (np. znajdowania podobnych do siebie klientów) czy wykrywania anomalii (np. oszustw). Systemy te jednak nie zrewolucjonizowały naszego życia. Dlaczego więc właśnie teraz, dwadzieścia lat później, sztuczna inteligencja staje się tak ważna i niemal wszechobecna?

Przełomem okazało się zastosowanie modeli głębokiego uczenia maszynowego do takich zadań, jak klasyfikacja obrazów i filmów, rozpoznawanie dźwięków i przetwarzanie języków naturalnych. Wszystkie te umiejętności, które ludziom przychodzą naturalnie i z łatwością, są stosunkowe trudne do opanowania przez komputery. Dopiero połączenie trzech czynników: dużej ilości dostępnych danych treningowych, superszybkich komputerów i nowatorskich modeli głębokiego uczenia maszynowego (głównie sieci neuronowych), pozwoliło nauczyć komputery rozumieć obrazy, dźwięki i wyrażania języków naturalnych (rys. 1). Te osiągnięcia z kolei pozwoliły na użycie sztucznej inteligencji w wielu dziedzinach, w tym medycynie (m.in. do wykrywania komórek rakowych, diagnostyki i opracowywania nowych leków), mediach (np. do opisywania filmów, tłumaczenia, wyszukiwania na podstawie obrazu i dźwięku), wojsku i policji (m.in. do rozpoznawania twarzy i wykrywania przestępstw zarejestrowanych przez kamery przemysłowe) i robotyce (autonomiczne samochody, drony i roboty wojskowe).


Celem niniejszego artykułu jest przedstawienie sposobu działania modeli głębokiego uczenia maszynowego, wykorzystywanych do analizy obrazów. W pierwszej części opisane zostaną podstawowe pojęcia z dziedziny uczenia maszynowego oraz metody automatycznej klasyfikacji obrazów.

> KLASYFIKACJA OBRAZÓW JAKO PODSTAWOWA TECHNIKA ICH ANALIZY

Celem klasyfikacji jest zbudowanie modelu (klasyfikatora), który przypisze obrazy do jednej z określonych klas, np. zaklasyfikuje obraz jako przedstawiający samochód albo kota. Zasadniczym powodem, dla którego to zadanie jest tak trudne dla komputerów, jest sposób, w jaki „widzą” one obrazy (rys. 2). Przykładowy obraz może zostać zapisany jako zbiór liczb z zakresu od 0 do 255, z których każda opisuje jedną z trzech składowych (R, G, B) danego piksela. Oznacza to, że zdjęcie wykonane w rozdzielczości 800x600 pikseli zostanie zapisane jako macierz 800x600x3 liczb.

Zadaniem modelu jest więc powiązanie reprezentującej obraz macierzy liczb z widocznym na tym obrazie obiektem. Niestety, liczby te w dużym stopniu zależą też od innych czynników, nie tylko od tego, co jest widoczne na obrazie. Należą do nich między innymi:

 

  • kąt obserwacji – gdyby zdjęcie tego samego kota zostało zrobione z nieco innego kąta, np. bardziej z dołu czy lewej strony, reprezentujące je liczby byłyby zupełnie inne;
  • oświetlenie – wystarczyłoby sfotografować tego kota przy użyciu lampy błyskowej lub w pełnym słońcu, żeby uzyskać całkowicie inną liczbową reprezentację zdjęcia;
  • deformacje obiektów – kot, nawet ten sam, może przyjąć na zdjęciu jedną z wielu pozycji, a każda z nich będzie miała inną reprezentację liczbową;
  • ukrycie części obiektu – często obiekty na obrazach widoczne są jedynie częściowo, bo są np. czymś zasłonięte. Taka zmiana też powoduje istotną zmianę liczbowej reprezentacji obrazu;
  • tło – zdjęcia tego samego kota leżącego na kanapie i na ulicy będą miały zupełnie inne liczbowe reprezentacje.

 

Ostatnim, ale nie najmniej ważnym powodem, dla którego reprezentacja obrazów jako macierzy liczb opisujących wygląd poszczególnych pikseli utrudnia klasyfikację obrazów, są różnice pomiędzy poszczególnymi, należącymi do tych samych klas, obiektami. Wszyscy zdajemy sobie sprawę z tego, jak niepodobne mogą być do siebie dwa koty. Nie powinno więc nikogo dziwić, że będą one reprezentowane przez zupełnie różne zbiory liczb.

[...]
 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiej­scowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"