Big Data Analytics
Transkrypt
Big Data Analytics
Big Data Analytics Wielkie pytania, na które warto znaleźć odpowiedzi Jeszcze 10 lat temu skompletowanie ludzkiego genomu kosztowało 100 mln USD. Dziś jest to zaledwie ok. 10 tys. USD. Rozwój technologii i możliwości, jakie one niosą, umożliwia zadawanie coraz bardziej odważnych pytań, analizowania coraz większych zbiorów danych. Pełny obraz ludzkiego genomu zajmuje zaledwie 1 TB danych. To jednocześnie 4 mln więcej danych niż ilość analizowana przez Alberta Einsteina w początkach XX wieku, gdy doszedł do wniosku, że światło składa się z pojedynczych cząstek - fotonów. Naukowcy i przedsiębiorcy na co dzień analizują dziś znacznie większe zbiory danych. Google w swoich początkach w latach 2003-04 co kilka dni analizowało cały internet. Dziś chce indeksować internet w czasie rzeczywistym. A to tylko wierzchołek góry lodowej stojącej za rewolucją Big Data. Typy danych w Big Data Dane pochodzące z internetu - serwisów społecznościowych, czy forów dyskusyjnych. Dane archiwalne - jak np. informacje o zachowaniach klientów, czy ich zmiany w czasie. Skala wyzwań wymaga nowego podejścia Aby zobrazować ilość otaczającej nas informacji podamy jeden przykład. W roku 2012 wytworzyliśmy 2 zetabajty (tryliony GB) danych! Do 2020 roku będzie to 35 zetabajtów. Aż 80% tych danych to informacje nieustrukturyzowane. Nie da się więc zanalizować ich tradycyjnymi narzędziami. W dodatku mamy do tego zbyt mało odpowiednich specjalistów, zwłaszcza matematyków. Dlatego potrzebujemy nowych narzędzi, które ułatwią wydobywanie interesujących danych z tego zalewu informacji. Potrzebujemy Big Data Analytics. To coś więcej niż nowa technologia. To nowy sposób myślenia. Big Data Analytics pozwala lepiej zrozumieć klientów, dostrzec ukryte możliwości rozwoju przedsiębiorstw, a rządom lepiej służyć obywatelom. Big Data zainspiruje dziś setki, tysiące, a może i miliony nowych przedsiębiorców, którzy chcą wykorzystać możliwości, jakie kryją się za analizą i wizualizacją zalewających nas informacji. Zdaniem specjalistów, Big Data zmieni każdy sektor gospodarki i jesteśmy na początku tej rewolucji. Na koniec zaś, pozwoli odpowiedzieć na pytanie skryte w myślach każdego z prezesów – jak moje przedsiębiorstwo może wykorzystać zgromadzone ogromne ilości danych. Dane generowane maszynowo – np. informacje generowane podczas nawigacji użytkownika w bankowych serwisach internetowych; dane geolokalizacyjne powstające, gdy korzystamy z aplikacji mobilnych; czy też dane pochodzące z terminali POS i bankomatów. Dane niestrukturalne - jak wypowiedzi klienta, gromadzone chociażby w czasie kontaktów z call/contact center. Czym jest Big Data? Big Data często utożsamia się ze źródłami danych pochodzącymi z Internetu, takimi jak serwisy społecznościowe i fora dyskusyjne. Jest to jednak zbyt wąskie postrzeganie tego pojęcia. Z Big Data mamy bowiem do czynienia, gdy wielkość, szybkość i różnorodność danych przekracza konwencjonalne możliwości organizacji w zakresie ich przechowywania i przetwarzania. Definicja ta obejmuje, więc zakresem także dane archiwalne, których nie przechowuje się w hurtowniach danych ze względu na zbyt wysokie koszty. Tymczasem pewne charakterystyki - chociażby zachowań klientów, czy ich zmiany w czasie - najlepiej odzwierciedlone są właśnie w danych historycznych. Kolejny typ danych zasilających zbiór Big Data, to dane generowane maszynowo. To nieodwracalny trend związany z przenoszeniem operacji biznesowych i kontaktu z klientem w świat internetu, przeglądarek, tabletów i smartfonów, wykorzystaniem kart płatniczych, czy innych, nowoczesnych form płatności (np. telefonów z technologią NFC). Przykładem takich danych są informacje generowane podczas nawigacji użytkownika w bankowych serwisach internetowych; dane geolokalizacyjne powstające, gdy korzystamy z aplikacji mobilnych; czy też dane pochodzące z terminali POS i bankomatów. Do tego dochodzą jeszcze dane niestrukturalne, jak wypowiedzi klienta, gromadzone chociażby w czasie kontaktów z call/contact center. Technologiczne wsparcie analizy danych Trzeba pamiętać, że gromadzenie i przetwarzanie Big Data wymaga środowiska, które jest tanie, a jednocześnie pozwala na sprawne przetwarzanie olbrzymich ilości danych strukturalnych i niestrukturalnych. Warunki te spełnia np. projekt open source Hadoop. Szacuje się, że ok. 60% dużych organizacji implementuje Hadoop, bądź eksperymentuje i analizuje jego wykorzystanie. SAS Institute oferuje szeroką gamę mechanizmów integrujących ze środowiskiem Hadoop – począwszy od dedykowanych mechanizmów ładowania danych, poprzez wykorzystanie Hadoop jako rezpozytorium danych analitycznych i raportowych, aż do możliwości wykonywania modeli analitycznych bezpośrednio w tym rozproszonym środowisku. Co istotne użytkownicy pracują ciągle z doskonale im znanymi graficznymi środowiskami SAS. Rekomendacje analityków rynku Warto w tym miejscu wspomnieć, że Forrester Research – niezależna firma analityczna sklasyfikowała SAS jako lidera w raporcie „The Forrester Wave: Big Data Predictive Analytics Solutions, Q1 2013”. Podsumowuje on rynek zaawansowanych narzędzi do analizy predykcyjnej wielkich zbiorów danych - Big Data. Wyniki raportu opierają się na analizie potencjału 10 dostawców w trzech obszarach: aktualna oferta, strategia rozwoju i pozycja rynkowa. SAS uzyskał najwyższe oceny we wszystkich 3 kategoriach. Autorzy raportu uwzględnili w badaniu aż 26 produktów SAS Institute. W przypadku pozostałych dostawców w badaniu uwzględniono od 1 do maksymalnie 12 produktów. Oferta SAS Oferta SAS w zakresie wsparcia dla Big Data, a w szczególności High-Performance Analytics zawiera rozwiązania w trzech obszarach technologicznych – Grid Computing, In-database oraz In-Memory Analytics. Do nowych rozwiązań SAS dedykowanych Big Data należą: SAS High-Performance Analytics Server, SAS Visual Analytics oraz SAS DataFlux Event Stream Processing Engine. mogą być niezwłocznie, w bezpieczny sposób, udostępniane przez przeglądarkę i na urządzeniach mobilnych. SAS DataFlux Event Stream Processing Engine – umożliwia tworzenie analiz bazujących na danych zbieranych w czasie rzeczywistym. Mogą to być dane o transakcjach klientów, informacje pozyskiwane z mediów społecznościowych, czy dane o zmieniających się warunkach otoczenia gospodarczego. Dzięki temu decyzje także można podejmować w czasie rzeczywistym. SAS DataFlux Event Stream Processing Engine pozwala bowiem analizować dane zaraz po ich otrzymaniu, a nie dopiero w momencie, gdy znajdą się w systemach przechowujących informacje. Dostęp do analiz w czasie rzeczywistym pozwala m.in. na: wykrywanie nadużyć w przypadku transakcji bankowych i zwiększanie bezpieczeństwa klientów instytucji finansowych; analizę szybko zmieniających się trendów w mediach społecznościowych w celu lepszego zrozumienia potrzeb klientów i ich oceny konkretnych produktów; czy personalizację oferty na serwisach internetowych w oparciu o kryteria wyszukiwania ich użytkowników. jej zużycia. Dzięki tym działaniom firma chce m.in. uniknąć konieczności budowy nowego bloku energetycznego przed rokiem 2020. Więcej – sas.com/iq-energy TELEKOMUNIKACJA Telecom Italia – operator ten wykorzystał narzędzia SAS Visual Analytics do przewidywania obciążenia sieci w czasie rzeczywistym. Dzięki temu możliwe jest zapobieganie anomaliom w jakości usług i dostępie klientów Telecom Italia do sieci. SEKTOR PUBLICZNY West Midlands Police –oddział brytyjskich sił policyjnych służy 2,6 mln mieszkańcom Birmingham, Coventry i Wolverhampton. Instytucja ta wdrożyła narzędzie SAS DataFlux Event Stream Processing Engine do skuteczniejszego szukania – w swoich 15 bazach danych - informacji o potencjalnych podejrzanych. Rozwiązanie SAS pozwala także na czyszczenie baz danych oraz znajdowanie powiązań i agregowanie zawartych w nich informacji. O skali Big Data świadczą liczby Przykłady zastosowań rozwiązań SAS • SAS High-Performance Analytics Server to oprogramowanie dla zaawansowanej analityki i Data Mining wykorzystujące przetwarzanie rozproszone i technologię in-memory. Pozwala ono na zdecydowane skrócenie czasu niezbędnego do przygotowania modeli analitycznych i późniejszego ich wykorzystania m.in. w zastosowaniach związanych z oceną ryzyka, wykrywaniem nadużyć oraz różnorodnymi działaniami marketingowymi. Stanowi ono rozszerzenie innych narzędzi SAS, dając analitykom dostęp do potężnej mocy obliczeniowej z poziomu - znanego im środowiska - SAS Enterprise Miner. Pozwala na budowę modeli analitycznych w oparciu o pełne zbiory treningowe, a także skraca czas potrzebny na wykonanie analiz z dni, czy godzin do minut, a nawet sekund. BANKOWOŚĆ I FINANSE Z kolei SAS Visual Analytics to wysoce wydajne i łatwe w obsłudze rozwiązanie do szybkiej i kompleksowej analizy zarówno mniejszych, jak i wielkich zbiorów danych – Big Data. W porównaniu z klasycznymi narzędziami Business Intelligence, pozwala ono szerokiej grupie użytkowników na znacząco szybszy dostęp do danych zgromadzonych w firmie. Wizualna eksploracja dowolnie dużych zbiorów danych pozwala na wyjście poza utarte schematy predefiniowanych raportów lub dashboardów i odkrywanie nieznanych do tej pory zależności, nisz biznesowych lub nieprawidłowości. Raporty i wyniki analiz ENERGETYKA Cosmos Bank – tajwański bank wykorzystuje SAS Visual Analytics do analizy informacji o klientach oraz do zarządzania ryzykiem. Analiza danych w czasie rzeczywistym pozwala na zaoferowanie klientom dopasowanej do ich potrzeb oferty, a także na skuteczniejsze utrzymanie dotychczasowych klientów, dzięki zwiększeniu ich lojalności w stosunku do banku. • Cigna Indonesia –firma zajmująca się ubezpieczeniami życiowymi i zdrowotnymi wykorzystuje narzędzia SAS Institute do analizy danych klientów pod kątem przygotowywanych kampanii marketingowych, w tym przygotowania listy osób o odpowiednim profilu, dedykowanej dla nich oferty oraz najlepszej formy kontaktu. • • • • • • Oklahoma Gas & Electric Company – firma ta obsługuje ok. 800 tys. klientów i obecnie może zbierać i analizować dane o swoich klientach praktycznie w czasie rzeczywistym (co 15 minut), a nie - jak kiedyś - raz w miesiącu. Liczba zbieranych danych o każdym kliencie zwiększyła się więc z 12 do 30 tys. rocznie! Do ich analizy Oklahoma Gas & Electric Company wykorzystuje rozwiązanie SAS Visual Analytics. Służy ono do prognozowania zapotrzebowania na energię, optymalizacji oferty, a nawet skuteczniejszego zachęcania odbiorców do bardziej racjonalnego SAS Institute Polska Więcej informacji na stronie: • • • Co 1,2 roku podwaja się liczba danych przechowywanych przez ludzkość. 35-50% - o tyle co roku zwiększa się ilość danych gromadzonych przez przedsiębiorstwa. 10 000 transakcji kartami płatniczymi dokonywanych jest na świecie w każdej sekundzie. Walmart gromadzi co godzinę ponad 1 milion informacji o transakcjach klientów. 340 mln komunikatów publikowanych jest codziennie na serwisie Twitter. Facebook ma 900 mln użytkowników, którzy każdego dnia tworzą ogromne ilości danych. 5 mld zapytań otrzymuje każdego dnia wyszukiwarka Google. Ponad 5 mld ludzi dzwoni, pisze komunikaty SMS, tweetuje, czy przegląda internet za pomocą telefonów komórkowych. Każdego dnia wysyłamy 11 mld wiadomości SMS. Co dziennie oglądamy 2,8 mld filmów wideo na YouTube. W wyniku dokonywanych przez nas transakcji, działań w internecie, czy informacji wysyłanych przez używane przez nas urządzenia elektroniczne generowanych jest każdego dnia 2,5 kwadrylionów bajtów informacji. +48 22 560 46 00 www.sas.com/poland SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies. Copyright © 2012, SAS Institute Inc. All rights reserved. 000000_S00000_0012