Big Data Analytics

Transkrypt

Big Data Analytics
Big Data Analytics
Wielkie pytania,
na które warto znaleźć odpowiedzi
Jeszcze 10 lat temu skompletowanie ludzkiego
genomu kosztowało 100 mln USD. Dziś jest
to zaledwie ok. 10 tys. USD. Rozwój technologii i możliwości, jakie one niosą, umożliwia
zadawanie coraz bardziej odważnych pytań,
analizowania coraz większych zbiorów danych.
Pełny obraz ludzkiego genomu zajmuje zaledwie 1 TB danych. To jednocześnie 4 mln więcej
danych niż ilość analizowana przez Alberta Einsteina w początkach XX wieku, gdy doszedł do
wniosku, że światło składa się z pojedynczych
cząstek - fotonów. Naukowcy i przedsiębiorcy
na co dzień analizują dziś znacznie większe
zbiory danych. Google w swoich początkach
w latach 2003-04 co kilka dni analizowało cały
internet. Dziś chce indeksować internet w czasie rzeczywistym. A to tylko wierzchołek góry
lodowej stojącej za rewolucją Big Data.
Typy danych w Big Data
Dane pochodzące z internetu - serwisów
społecznościowych, czy forów dyskusyjnych.
Dane archiwalne - jak np. informacje
o zachowaniach klientów, czy ich zmiany
w czasie.
Skala wyzwań wymaga nowego podejścia
Aby zobrazować ilość otaczającej nas informacji podamy jeden przykład. W roku 2012
wytworzyliśmy 2 zetabajty (tryliony GB) danych!
Do 2020 roku będzie to 35 zetabajtów. Aż 80%
tych danych to informacje nieustrukturyzowane. Nie da się więc zanalizować ich tradycyjnymi narzędziami. W dodatku mamy do tego zbyt
mało odpowiednich specjalistów, zwłaszcza
matematyków.
Dlatego potrzebujemy nowych narzędzi, które
ułatwią wydobywanie interesujących danych
z tego zalewu informacji. Potrzebujemy Big
Data Analytics. To coś więcej niż nowa technologia. To nowy sposób myślenia. Big Data
Analytics pozwala lepiej zrozumieć klientów,
dostrzec ukryte możliwości rozwoju przedsiębiorstw, a rządom lepiej służyć obywatelom.
Big Data zainspiruje dziś setki, tysiące, a może
i miliony nowych przedsiębiorców, którzy chcą
wykorzystać możliwości, jakie kryją się za analizą i wizualizacją zalewających nas informacji.
Zdaniem specjalistów, Big Data zmieni każdy
sektor gospodarki i jesteśmy na początku tej
rewolucji. Na koniec zaś, pozwoli odpowiedzieć na pytanie skryte w myślach każdego
z prezesów – jak moje przedsiębiorstwo może
wykorzystać zgromadzone ogromne ilości
danych.
Dane generowane maszynowo – np.
informacje generowane podczas nawigacji
użytkownika w bankowych serwisach internetowych; dane geolokalizacyjne powstające, gdy korzystamy z aplikacji mobilnych;
czy też dane pochodzące z terminali POS
i bankomatów.
Dane niestrukturalne - jak wypowiedzi
klienta, gromadzone chociażby w czasie
kontaktów z call/contact center.
Czym jest Big Data?
Big Data często utożsamia się ze źródłami
danych pochodzącymi z Internetu, takimi jak
serwisy społecznościowe i fora dyskusyjne.
Jest to jednak zbyt wąskie postrzeganie tego
pojęcia. Z Big Data mamy bowiem do czynienia, gdy wielkość, szybkość i różnorodność
danych przekracza konwencjonalne możliwości
organizacji w zakresie ich przechowywania
i przetwarzania. Definicja ta obejmuje, więc
zakresem także dane archiwalne, których nie
przechowuje się w hurtowniach danych ze
względu na zbyt wysokie koszty. Tymczasem
pewne charakterystyki - chociażby zachowań
klientów, czy ich zmiany w czasie - najlepiej
odzwierciedlone są właśnie w danych historycznych.
Kolejny typ danych zasilających zbiór Big Data,
to dane generowane maszynowo. To nieodwracalny trend związany z przenoszeniem operacji biznesowych i kontaktu z klientem w świat
internetu, przeglądarek, tabletów i smartfonów,
wykorzystaniem kart płatniczych, czy innych,
nowoczesnych form płatności (np. telefonów
z technologią NFC). Przykładem takich danych
są informacje generowane podczas nawigacji
użytkownika w bankowych serwisach internetowych; dane geolokalizacyjne powstające, gdy
korzystamy z aplikacji mobilnych; czy też dane
pochodzące z terminali POS i bankomatów. Do
tego dochodzą jeszcze dane niestrukturalne,
jak wypowiedzi klienta, gromadzone chociażby
w czasie kontaktów z call/contact center.
Technologiczne wsparcie analizy danych
Trzeba pamiętać, że gromadzenie i przetwarzanie Big Data wymaga środowiska, które
jest tanie, a jednocześnie pozwala na sprawne
przetwarzanie olbrzymich ilości danych strukturalnych i niestrukturalnych. Warunki te spełnia
np. projekt open source Hadoop. Szacuje się,
że ok. 60% dużych organizacji implementuje
Hadoop, bądź eksperymentuje i analizuje jego
wykorzystanie. SAS Institute oferuje szeroką
gamę mechanizmów integrujących ze środowiskiem Hadoop – począwszy od dedykowanych
mechanizmów ładowania danych, poprzez wykorzystanie Hadoop jako rezpozytorium danych
analitycznych i raportowych, aż do możliwości
wykonywania modeli analitycznych bezpośrednio w tym rozproszonym środowisku. Co
istotne użytkownicy pracują ciągle z doskonale
im znanymi graficznymi środowiskami SAS.
Rekomendacje analityków rynku
Warto w tym miejscu wspomnieć, że Forrester
Research – niezależna firma analityczna sklasyfikowała SAS jako lidera w raporcie „The
Forrester Wave: Big Data Predictive Analytics
Solutions, Q1 2013”. Podsumowuje on rynek
zaawansowanych narzędzi do analizy predykcyjnej wielkich zbiorów danych - Big Data.
Wyniki raportu opierają się na analizie potencjału
10 dostawców w trzech obszarach: aktualna
oferta, strategia rozwoju i pozycja rynkowa. SAS
uzyskał najwyższe oceny we wszystkich 3 kategoriach. Autorzy raportu uwzględnili w badaniu
aż 26 produktów SAS Institute. W przypadku
pozostałych dostawców w badaniu uwzględniono od 1 do maksymalnie 12 produktów.
Oferta SAS
Oferta SAS w zakresie wsparcia dla Big Data,
a w szczególności High-Performance Analytics
zawiera rozwiązania w trzech obszarach technologicznych – Grid Computing, In-database
oraz In-Memory Analytics. Do nowych rozwiązań SAS dedykowanych Big Data należą: SAS
High-Performance Analytics Server, SAS Visual
Analytics oraz SAS DataFlux Event Stream
Processing Engine.
mogą być niezwłocznie, w bezpieczny sposób,
udostępniane przez przeglądarkę i na urządzeniach mobilnych.
SAS DataFlux Event Stream Processing Engine –
umożliwia tworzenie analiz bazujących na danych zbieranych w czasie rzeczywistym. Mogą
to być dane o transakcjach klientów, informacje
pozyskiwane z mediów społecznościowych, czy
dane o zmieniających się warunkach otoczenia
gospodarczego. Dzięki temu decyzje także
można podejmować w czasie rzeczywistym.
SAS DataFlux Event Stream Processing Engine
pozwala bowiem analizować dane zaraz po
ich otrzymaniu, a nie dopiero w momencie,
gdy znajdą się w systemach przechowujących
informacje. Dostęp do analiz w czasie rzeczywistym pozwala m.in. na: wykrywanie nadużyć
w przypadku transakcji bankowych i zwiększanie bezpieczeństwa klientów instytucji finansowych; analizę szybko zmieniających się trendów
w mediach społecznościowych w celu lepszego
zrozumienia potrzeb klientów i ich oceny konkretnych produktów; czy personalizację oferty
na serwisach internetowych w oparciu o kryteria
wyszukiwania ich użytkowników.
jej zużycia. Dzięki tym działaniom firma chce
m.in. uniknąć konieczności budowy nowego
bloku energetycznego przed rokiem 2020.
Więcej – sas.com/iq-energy
TELEKOMUNIKACJA
Telecom Italia – operator ten wykorzystał narzędzia SAS Visual Analytics do przewidywania
obciążenia sieci w czasie rzeczywistym. Dzięki
temu możliwe jest zapobieganie anomaliom
w jakości usług i dostępie klientów Telecom
Italia do sieci.
SEKTOR PUBLICZNY
West Midlands Police –oddział brytyjskich sił policyjnych służy 2,6 mln mieszkańcom Birmingham, Coventry i Wolverhampton. Instytucja ta
wdrożyła narzędzie SAS DataFlux Event Stream
Processing Engine do skuteczniejszego szukania – w swoich 15 bazach danych - informacji
o potencjalnych podejrzanych. Rozwiązanie
SAS pozwala także na czyszczenie baz danych
oraz znajdowanie powiązań i agregowanie
zawartych w nich informacji.
O skali Big Data świadczą liczby
Przykłady zastosowań rozwiązań SAS
•
SAS High-Performance Analytics Server to oprogramowanie dla zaawansowanej analityki i Data
Mining wykorzystujące przetwarzanie rozproszone i technologię in-memory. Pozwala ono na
zdecydowane skrócenie czasu niezbędnego do
przygotowania modeli analitycznych i późniejszego ich wykorzystania m.in. w zastosowaniach związanych z oceną ryzyka, wykrywaniem
nadużyć oraz różnorodnymi działaniami marketingowymi. Stanowi ono rozszerzenie innych
narzędzi SAS, dając analitykom dostęp do potężnej mocy obliczeniowej z poziomu - znanego
im środowiska - SAS Enterprise Miner. Pozwala
na budowę modeli analitycznych w oparciu
o pełne zbiory treningowe, a także skraca czas
potrzebny na wykonanie analiz z dni, czy godzin
do minut, a nawet sekund.
BANKOWOŚĆ I FINANSE
Z kolei SAS Visual Analytics to wysoce wydajne
i łatwe w obsłudze rozwiązanie do szybkiej
i kompleksowej analizy zarówno mniejszych, jak
i wielkich zbiorów danych – Big Data. W porównaniu z klasycznymi narzędziami Business Intelligence, pozwala ono szerokiej grupie użytkowników na znacząco szybszy dostęp do danych
zgromadzonych w firmie. Wizualna eksploracja
dowolnie dużych zbiorów danych pozwala na
wyjście poza utarte schematy predefiniowanych
raportów lub dashboardów i odkrywanie nieznanych do tej pory zależności, nisz biznesowych
lub nieprawidłowości. Raporty i wyniki analiz
ENERGETYKA
Cosmos Bank – tajwański bank wykorzystuje SAS
Visual Analytics do analizy informacji o klientach
oraz do zarządzania ryzykiem. Analiza danych
w czasie rzeczywistym pozwala na zaoferowanie klientom dopasowanej do ich potrzeb oferty,
a także na skuteczniejsze utrzymanie dotychczasowych klientów, dzięki zwiększeniu ich
lojalności w stosunku do banku.
•
Cigna Indonesia –firma zajmująca się ubezpieczeniami życiowymi i zdrowotnymi wykorzystuje
narzędzia SAS Institute do analizy danych klientów pod kątem przygotowywanych kampanii
marketingowych, w tym przygotowania listy
osób o odpowiednim profilu, dedykowanej dla
nich oferty oraz najlepszej formy kontaktu.
•
•
•
•
•
•
Oklahoma Gas & Electric Company – firma ta
obsługuje ok. 800 tys. klientów i obecnie może
zbierać i analizować dane o swoich klientach
praktycznie w czasie rzeczywistym (co 15 minut), a nie - jak kiedyś - raz w miesiącu. Liczba
zbieranych danych o każdym kliencie zwiększyła
się więc z 12 do 30 tys. rocznie! Do ich analizy
Oklahoma Gas & Electric Company wykorzystuje rozwiązanie SAS Visual Analytics. Służy ono
do prognozowania zapotrzebowania na energię,
optymalizacji oferty, a nawet skuteczniejszego
zachęcania odbiorców do bardziej racjonalnego
SAS Institute Polska Więcej informacji na stronie: •
•
•
Co 1,2 roku podwaja się liczba danych
przechowywanych przez ludzkość.
35-50% - o tyle co roku zwiększa się
ilość danych gromadzonych przez
przedsiębiorstwa.
10 000 transakcji kartami płatniczymi
dokonywanych jest na świecie w każdej sekundzie.
Walmart gromadzi co godzinę ponad
1 milion informacji o transakcjach
klientów.
340 mln komunikatów publikowanych
jest codziennie na serwisie Twitter.
Facebook ma 900 mln użytkowników,
którzy każdego dnia tworzą ogromne
ilości danych.
5 mld zapytań otrzymuje każdego dnia
wyszukiwarka Google.
Ponad 5 mld ludzi dzwoni, pisze
komunikaty SMS, tweetuje, czy przegląda internet za pomocą telefonów
komórkowych.
Każdego dnia wysyłamy 11 mld wiadomości SMS.
Co dziennie oglądamy 2,8 mld filmów
wideo na YouTube.
W wyniku dokonywanych przez nas
transakcji, działań w internecie, czy
informacji wysyłanych przez używane
przez nas urządzenia elektroniczne
generowanych jest każdego dnia 2,5
kwadrylionów bajtów informacji.
+48 22 560 46 00
www.sas.com/poland
SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA
and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies.
Copyright © 2012, SAS Institute Inc. All rights reserved. 000000_S00000_0012