Big data – czy na pewno więcej znaczy lepiej?

Katgoria: BUSINESS INTELLIGENCE / Utworzono: 30 lipiec 2013

Big data – czy na pewno więcej znaczy lepiej?

Duże bazy danych na określony temat – najczęściej mowa o zachowaniach klientów – to ostatnio temat pierwszych, najdalej drugich, stron gazet. BigData to temat przewodni konferencji i artykułów na pierwszych stronach periodyków branży IT.

Autor: Jarosław Żeliński

W 2011 roku artykuł na podobny temat kończyłem pytając:

Budowanie modeli na bazie małych partii danych jest po pierwsze wiarygodniejsze (paradoksalnie) niż proste wnioskowanie statystyczne, po drugie daje szanse odkrycia czegoś nowego. W czym problem? To drugie jest nie możliwe z pomocą deterministycznej maszyny jaką jest komputer. To wymaga człowieka, ten jednak nie daje się produkować masowo… , korporacja na nim nie zarobi.
Hm… czy przypadkiem promowanie systemów hurtowni danych, BI, pracy z terabajtami danych itp.. to nie tworzenie sobie rynku przez dostawców tych technologii? (Ujarzmić dane – ale po co ich aż tyle?)

Ale po kolei. Jednak problem nadal jest. Redakcja COMPUTERWORLD tak zachęca do udziału w swojej konferencji z BigData w tytule (fragment):

Big Data nie jest tylko kolejnym hasłem marketingowym dostawców IT. To antycypacja zjawiska przekroczenia masy krytycznej wielkości, różnorodności, liczby i dynamiki źródeł gromadzonych w przedsiębiorstwie danych. Gdy mamy ich naprawdę dużo, gdy pochodzą one z wielu różnych miejsc, gdy są stale aktualizowane i ciągle ich przybywa, wtedy możliwości analityczne i potencjał wykorzystania wiedzy zgromadzonej w tych danych rośnie wykładniczo. Ale wymaga to całkiem nowych platform technologicznych i zestawów kompetencji.

Wniosek jaki wysnuto: potrzebna nowa, „lepsza” technologia. Czy aby na pewno? Jeżeli jednak BigData ma nie być kolejnym hasłem marketingowym to znaczy, że nie jest najlepszym rozwiązaniem kupienie kolejnego jeszcze większego i jeszcze szybszego „sprzętu”. Moim zdaniem w dalszej części zaproszenia zwrócono uwagę na kierunek dający większe szanse powodzenia:

Liczba danych gromadzonych w biznesie przyrasta rocznie o 50 procent. Więcej jednak wcale nie znaczy lepiej – by hasło Big Data przełożyło się na Big Business potrzeba nowych umiejętności, odpowiednich narzędzi i odpowiedniej strategii zarządzania informacją. (źr. Zaproszenie na konferencję BigData COMPUTERWORLD luty 2013)

Pada hasło strategia, na którym postaram się skupić w dalszej części. Wcześniej jednak zdefiniujmy pojęcie BigData by wiadomo było o czym tu będę traktował:

W 2001 roku META Group (obecnie Gartner) opublikowała raport, który opisuje big data w modelu 3V. Wskazuje on na dużą ilość danych (Volume), dużą zmienność danych (Velocity) oraz dużą różnorodność danych (Variety). W 2012 roku Gartner uzupełnił podaną wcześniej definicję wskazując, iż „big data to zbiory informacji o dużej objętości, dużej zmienności i/lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”. (źr. BigData WIKI)

Tak wiec mamy definicję: big data to zbiory informacji o dużej objętości, dużej zmienności i/lub dużej różnorodności. Resztę pominąłem zdania pominąłem, gdyż to czego BigData wymaga nie jest przedmiotem definicji pojęcia.

Na czym polega problem biznesowy? Generalnie ludzie (o heurystykach już pisałem) stosują metody indukcyjne jako narzędzie wyciągania wniosków. Indukcja to w naukach empirycznych metoda polegająca na wprowadzeniu uogólnień na podstawie eksperymentów i obserwacji faktów, formułowaniu i weryfikacji hipotez. Zaczątki indukcji w sensie nowożytnym stworzył F. Bacon, który uznał, że indukcja i eksperyment to dwie skuteczne metody ustalania prawdy. Słowo klucz tu to „fakty”. Z indukcją mają do czynienia wszyscy, którzy korzystają z analizy trendów (np. analiza techniczna w przypadku analizy kursów walut czy akcji).

Problem z indukcją, jako metodą, polega na tym, że w zasadzie sprowadza się do próby oceny tego, z jakim prawdopodobieństwem powtórzy się historia badanego zjawiska. Metoda ta nie prowadzi do nowych odkryć, prowadzi do modeli opisujących prawdopodobieństwo powtórzenia się faktów, o których mamy wiedzę, że wystąpiły.

Firmy, w miarę rozwoju technologii i rozbudowy swoich procesów biznesowych, gromadzą coraz większe ilości danych o znanych im faktach ze swojej historii. Rejestrowane są coraz dokładniej i „gęściej” w czasie, wszelkie zdarzenia na firmowych stronach WWW, wszelka wiedza o zdarzeniach w prowadzonej działalności. Firmy popycha do tego wiara w to, że im więcej danych tym lepsze wnioski. Praktyka jednak pokazuje, że rosnąca dokładność „próbkowania” np. zachowań klientów nie prowadzi do proporcjonalnego wzrostu zamówień. Owszem, poznając te zachowania można lepiej zaadresować ofertę, to prawda ale nie jest to zależność liniowa.

Do 2015 roku ponad 85 proc. firm sklasyfikowanych w rankingu Fortune 500 nie będzie potrafiło efektywnie wykorzystać posiadanych zbiorów danych, bowiem wystąpi efekt tzw. big data. Co więc z tymi danymi robić? Ignorować je troszkę. Jeżeli prawdą jest, że dziś, w ciągu zaledwie dwóch dni produkujemy tyle danych, ile ludzkość wytworzyła od zarania dziejów do roku 2003, to porównując to z postępem dokonanym w ciągu ostatniej dekady z postępem ostatnich dwóch tysięcy lat, wniosek nasuwa się jeden: raczej nie ilość danych decyduje o wiedzy i postępie. Więc co?

W opozycji do indukcji jako metody poznania (epistemologia) stoi dedukcja. Dedukcja to rozumowanie polegające na wyprowadzaniu z przesłanek (zdań) uznanych za prawdziwe na podstawie faktów, następstwa będącego logicznym i prawdziwym wnioskiem. Innymi słowy, dedukcja polega postawieniu hipotezy na podstawie pewnej ograniczonej liczby danych (faktów), udowodnieniu jej słuszności (poprzez brak faktów przeczących tej tezie – nieudana falsyfikacja) i wyciąganiu wniosków o przyszłości. Jak dowodzi się takiej hipotezy? Testuje się sprawdzając, czy poprawnie opisuje znany z historii fakty. Innymi słowy: jeżeli nie odkryto faktów obalających tezę (pokazujących, że jest nieprawdziwa) uznaje się ją za poprawną.

Typowym przykładem indukcji jest prognozowanie pogody na bazie znanych z historii faktów: prognoza była uznaniem, że powtórzy się określona sytuacja zaobserwowana w przeszłości (np. nisko latające jaskółki zapowiadają deszcze). Obecne prognozy to dedukcja: na bazie określonej partii danych opracowano tezę: model fizyczny atmosfery i zjawisk w niej zachodzących. Model ten, po podaniu danych o stanie obecnym atmosfery, pozwala na wnioskowanie (wyliczenie) jego stanu na dzień lub tydzień następny (tu krótko i średnioterminowa prognoza). Co ciekawe, ta metoda (dedukcja) pozwala na przewidywanie faktów, które nie zaszły w przeszłości (z prawdopodobieństwem wynikającym z jakości użytego modelu i kosztu obliczeń).

Dedukcję jako metodę poznania (metoda dowodzenia poprzez stawianie hipotez i ich falsyfikację) opisał Karl Popper. Nosi ona obecnie nazwę „metody naukowej”.

Jak to się ma do naszego BigData? Moim zdaniem jest to ślepa uliczka. Rosnące nakłady na sprzęt i oprogramowanie zmniejszają jedynie błąd statystyczny obliczeń nie wnosząc nic do ich jakości w rozumieniu „jakości prognozowania”. Co do „odkrywania” czegokolwiek nie ma mowy, udowodniono, że metodami indukcyjnymi nie da się niczego nowego odkryć, można co najwyżej udokumentować trend. Owszem, pozostaje kwestia analizy korelacyjnej, czyli wykrywania związków pomiędzy faktami (np. czy pora dnia wpływa na decyzje zakupowe). Tego typu analizy nie są niczym nowym, są znane wśród specjalistów z zakresu Business Inteligence od dawna.

Tak więc kluczową strategią wydaje się tu być tak zwany program retencyjny, czyli strategia wyboru danych do przechowywania (i usuwanie pozostałych), bo nie da się „zapamiętać” wszystkiego. Jednym z „modnych” elementów strategii sprzedażowych są tak zwane programy partnerskie. Maciej Tesławski (ekspert z zakresu marketingu) na swoim blogu pisze:

Programy retencyjne mogą być B2B, B2C i multipartnerskie, lojalnościowe mogą być tylko B2C bo w biznesie decyzje zakupowe podejmuje się w znacznym stopniu racjonalnie a nie emocjonalnie.

Jeśli chodzi o ocenę działających programów retencyjnych, to podstawowy błąd jaki widzę to niewykorzystywanie bazy informacji o uczestnikach programu przez firmy. To jest potężny zbiór informacji o zachowaniach poszczególnych konsumentów, w połączeniu z danymi demograficznymi pozwala na „poznanie” profilu najbardziej wartościowych konsumentów. Nie zauważyłem aby ktokolwiek to wykorzystywał. Dzieje się tak zapewne dlatego, że bazy danych rosną w postępie geometrycznym i przerastają możliwości ich bieżącego wykorzystywania.

Skoro tak, to wiemy co – pozostaje jak. Jak zauważono na początku, przyrastająca ilość danych, a raczej korzystanie z nich, wymaga całkiem nowych platform technologicznych i zestawów kompetencji. Platformy technologiczne są, postęp techniczny nam je zapewnia. Wydaje się, że kluczem jest „nowy zestaw kompetencji”.

Moim zdaniem dużymi krokami nadchodzi czas, gdy z analizy statystycznej należy się przerzucić na analizę systemową – dedukcję, oraz odpowiednie strategie retencji danych. W niedawnej przeszłości stwierdzono, że rosnąca ilość danych i dalsze uszczegółowianie danych o zmianach temperatury, ciśnienia, wielkości opadów nie poprawiają jakości prognoz pogody. Zmieniono podejście i jak widać udało się, prognozy pogody nigdy nie były tak dokładne jak w ostatniej dekadzie a nie jest to efekt BigData.

Od technologii teraz nie oczekiwał bym ogromnych pojemności a mocy obliczeniowej, tu widzę drogę do sukcesu: analiza ograniczonej ilości faktów, budowanie modeli zachowań np. konsumentów, prognozowanie tych zachować. Myślę też, że pewnego progu jakości prognoz nie przekroczymy. Filozofia dowodzi, że nie da się stworzyć w świecie realnym demiurga (w filozofii Platona określano tak budowniczego świata nadającego kształty wiecznej, bezkształtnej materii według wzorców, jakie stanowią doskonałe idee; w filozofii nowożytnej demon potrafiący obliczyć przyszły stan świata na podstawie wiedzy o wszystkich atomach i prawach nimi rządzących). Praktyka pokazuje, że nie istnieje i długo nie powstanie taka moc obliczeniowa by choć troszkę się do demiurga zbliżyć.

A czym jest ta analiza systemowa i modelowanie? Wyobraźmy sobie kogoś, kto chce przewidywać zachowania kul podczas gry w snookera. Problem ten może zostać opisany faktami opisującymi grę powierzchownie: „Gracz uderza białą kulę, która przemieszcza się z pewną prędkością, ta po określonym czasie uderza czerwoną kulę pod określonym kątem, uderzona czerwona kula przemieszcza się na pewną odległość w pewnym kierunku.” Można sfilmować setki tysięcy takich uderzeń, zarejestrować z dowolna dokładnością parametry każdego uderzenia i jego skutki. Jednak tą metodą i tak nie stworzymy nawet dość dobrej symulacji. Aby stworzyć na prawdę dobrą symulację, należy zrozumieć prawa rządzące ruchem kul, ich zależność od siły i kierunku uderzenia, kierunku itp. Zrozumienie tych praw pozwoli znacznie łatwiej przewidzieć skutek każdego uderzenia.” (na podstawie Analysis Patterns. Reusable Object Models, Martin Fowler, Addison-Wesley, 1997).

Autor: Jarosław Żeliński
Źródło: www.it-consulting.pl

Najnowsze wiadomości

Kwantowy przełom w cyberochronie - nadchodząca dekada przepisze zasady szyfrowania na nowo

Przez długi czas cyfrowe bezpieczeństwo opierało się na prostym założeniu: współczesne komputery potrzebowałyby ogromnych zasobów i wielu lat, aby złamać silne algorytmy szyfrowania. Rozwój technologii kwantowej zaczyna jednak tę regułę podważać, a eksperci przewidują, że w perspektywie 5–10 lat może nadejść „dzień zero”. Jest to moment, w którym zaawansowana maszyna kwantowa będzie w stanie przełamać większość aktualnie stosowanych zabezpieczeń kryptograficznych w czasie liczonym nie w latach, lecz w godzinach.

Czytaj całość

PSI prezentuje nową identyfikację wizualną

W ramach realizowanej strategii transformacji PSI Software SE zaprezentowała nową identyfikację wizualną. Odświeżony wizerunek w spójny sposób oddaje technologiczne zaawansowanie firmy, jej głęboką wiedzę branżową oraz silne ukierunkowanie na potrzeby klientów. Zmiany te wzmacniają pozycję PSI jako innowacyjnego lidera technologicznego w obszarze skalowalnych rozwiązań informatycznych opartych na sztucznej inteligencji i chmurze, rozwijanych z myślą o energetyce i przemyśle.

Czytaj całość

PROMAG S.A. rozpoczyna wdrożenie systemu ERP IFS Cloud we współpracy z L-Systems

PROMAG S.A., lider w obszarze intralogistyki, rozpoczął wdrożenie systemu ERP IFS Cloud, który ma wesprzeć dalszy rozwój firmy oraz integrację kluczowych procesów biznesowych. Projekt realizowany jest we współpracy z firmą L-Systems i obejmuje m.in. obszary finansów, produkcji, logistyki, projektów oraz serwisu, odpowiadając na rosnącą skalę i złożoność realizowanych przedsięwzięć.

Czytaj całość

F5 rozszerza portfolio bezpieczeństwa o narzędzia do ochrony systemów AI w środowiskach enterprise

F5 ogłosiło wprowadzenie dwóch nowych rozwiązań - F5 AI Guardrails oraz F5 AI Red Team - które mają odpowiedzieć na jedno z kluczowych wyzwań współczesnych organizacji: bezpieczne wdrażanie i eksploatację systemów sztucznej inteligencji na dużą skalę. Nowa oferta łączy ochronę działania modeli AI w czasie rzeczywistym z ofensy

Czytaj całość

Snowflake + OpenAI: AI bliżej biznesu

Snowflake przyspiesza wykorzystanie danych i sztucznej inteligencji w firmach, przenosząc AI z fazy eksperymentów do codziennych procesów biznesowych. Nowe rozwiązania w ramach AI Data Cloud integrują modele AI bezpośrednio z danymi, narzędziami deweloperskimi i warstwą semantyczną. Partnerstwo z OpenAI, agent Cortex Code, Semantic View Autopilot oraz rozwój Snowflake Postgres pokazują, jak budować skalowalne, bezpieczne i mierzalne wdrożenia AI w skali całej organizacji.

Czytaj całość

RAPORT ERP

Katalog rozwiązań IT

Katalog firm

Najnowsze artykuły

Magazyn bez błędów? Sprawdź, jak system WMS zmienia codzienność logistyki

Współczesna logistyka wymaga nie tylko szybkości działania, lecz także maksymalnej precyzji – to właśnie te czynniki coraz częściej decydują o przewadze konkurencyjnej firm. Nawet drobne pomyłki w ewidencji stanów magazynowych, błędy przy przyjmowaniu dostaw czy nieprawidłowe rozmieszczenie towarów, mogą skutkować poważnymi stratami finansowymi i opóźnieniami w realizacji zamówień. W jaki sposób nowoczesne rozwiązania do zarządzania pomagają unikać takich sytuacji? Czym właściwie różni się tradycyjny system magazynowy od zaawansowanych rozwiązań klasy WMS (ang. Warehouse Management System)? I w jaki sposób inteligentne zarządzanie procesami magazynowymi realnie usprawnia codzienną pracę setek firm?

Czytaj całość

Migracja z SAP ECC na S4 HANA: Ryzyka, korzyści i alternatywne rozwiązania

W ostatnich latach wiele firm, które korzystają z systemu SAP ECC (Enterprise Central Component), stoi przed decyzją o przejściu na nowszą wersję — SAP S4 HANA. W obliczu końca wsparcia dla ECC w 2030 roku, temat ten staje się coraz bardziej aktualny. Przemiany technologiczne oraz rosnące oczekiwania związane z integracją nowych funkcji, jak sztuczna inteligencja (AI), skłaniają do refleksji nad tym, czy warto podjąć tak dużą zmianę w architekturze systemu. Przyjrzyjmy się głównym powodom, dla których firmy rozważają migrację do S4 HANA, ale także argumentom, które mogą przemawiać za pozostaniem przy dotychczasowym systemie ECC, przynajmniej na krótki okres.

Czytaj całość

Jak maksymalizować zyski z MTO i MTS dzięki BPSC ERP?

Zysk przedsiębiorstwa produkcyjnego zależy nie tylko od wydajności maszyn, ale przede wszystkim od precyzyjnego planowania, realnych danych i umiejętnego zarządzania procesami. Dlatego firmy, które chcą skutecznie działać zarówno w modelu Make to Stock (MTS), jak i Make to Order (MTO), coraz częściej sięgają po rozwiązania klasy ERP, takie jak BPSC ERP.

Czytaj całość

Ponad połowa cyberataków zaczyna się od błędu człowieka

Ponad 2/3 firm w Polsce odnotowała w zeszłym roku co najmniej 1 incydent naruszenia bezpieczeństwa . Według danych Unit 42, zespołu analitycznego Palo Alto Networks, aż 60% ataków rozpoczyna się od działań wymierzonych w pracowników – najczęściej pod postacią phishingu i innych form inżynierii społecznej . To pokazuje, że w systemie ochrony organizacji pracownicy są kluczowym ogniwem – i że firmy muszą nie tylko edukować, ale też konsekwentnie egzekwować zasady cyberhigieny. Warto o tym pamiętać szczególnie teraz, w październiku, gdy obchodzimy Europejski Miesiąc Cyberbezpieczeństwa.

Czytaj całość

MES - holistyczne zarządzanie produkcją

Nowoczesna produkcja wymaga precyzji, szybkości i pełnej kontroli nad przebiegiem procesów. Rosnąca złożoność zleceń oraz presja kosztowa sprawiają, że ręczne raportowanie i intuicyjne zarządzanie coraz częściej okazują się niewystarczające. Firmy szukają rozwiązań, które umożliwiają im widzenie produkcji „na żywo”, a nie z opóźnieniem kilku godzin czy dni. W tym kontekście kluczową rolę odgrywają narzędzia, które porządkują informacje i pozwalają reagować natychmiast, zamiast po fakcie.

Czytaj całość