Przejdź do głównej treści

Big data – czy na pewno więcej znaczy lepiej?

Katgoria: BUSINESS INTELLIGENCE / Utworzono: 30 lipiec 2013

Big data – czy na pewno więcej znaczy lepiej?

itconsultingDuże bazy danych na określony temat – najczęściej mowa o zachowaniach klientów – to ostatnio temat pierwszych, najdalej drugich, stron gazet. BigData to temat przewodni konferencji i artykułów na pierwszych stronach periodyków branży IT.

Autor: Jarosław Żeliński


W 2011 roku artykuł na podobny temat kończyłem pytając:
Budowanie modeli na bazie małych partii danych jest po pierwsze wiarygodniejsze (paradoksalnie) niż proste wnioskowanie statystyczne, po drugie daje szanse odkrycia czegoś nowego. W czym problem? To drugie jest nie możliwe z pomocą deterministycznej maszyny jaką jest komputer. To wymaga człowieka, ten jednak nie daje się produkować masowo…  , korporacja na nim nie zarobi.

Hm… czy przypadkiem promowanie systemów hurtowni danych, BI, pracy z terabajtami danych itp.. to nie tworzenie sobie rynku przez dostawców tych technologii? (Ujarzmić dane – ale po co ich aż tyle?)

Ale po kolei. Jednak problem nadal jest. Redakcja COMPUTERWORLD tak zachęca do udziału w swojej konferencji z BigData w tytule (fragment):

Big Data nie jest tylko kolejnym hasłem marketingowym dostawców IT. To antycypacja zjawiska przekroczenia masy krytycznej wielkości, różnorodności, liczby i dynamiki źródeł gromadzonych w przedsiębiorstwie danych. Gdy mamy ich naprawdę dużo, gdy pochodzą one z wielu różnych miejsc, gdy są stale aktualizowane i ciągle ich przybywa, wtedy możliwości analityczne i potencjał wykorzystania wiedzy zgromadzonej w tych danych rośnie wykładniczo. Ale wymaga to całkiem nowych platform technologicznych i zestawów kompetencji.

Wniosek jaki wysnuto: potrzebna nowa, „lepsza” technologia. Czy aby na pewno? Jeżeli jednak BigData ma nie być kolejnym hasłem marketingowym to znaczy, że nie jest najlepszym rozwiązaniem kupienie kolejnego jeszcze większego i jeszcze szybszego „sprzętu”. Moim zdaniem w dalszej części zaproszenia zwrócono uwagę na kierunek dający większe szanse powodzenia:

Liczba danych gromadzonych w biznesie przyrasta rocznie o 50 procent. Więcej jednak wcale nie znaczy lepiej – by hasło Big Data przełożyło się na Big Business potrzeba nowych umiejętności, odpowiednich narzędzi i odpowiedniej strategii zarządzania informacją. (źr. Zaproszenie na konferencję BigData COMPUTERWORLD luty 2013)

Pada hasło strategia, na którym postaram się skupić w dalszej części. Wcześniej jednak zdefiniujmy pojęcie BigData by wiadomo było o czym tu będę traktował:

W 2001 roku META Group (obecnie Gartner) opublikowała raport, który opisuje big data w modelu 3V. Wskazuje on na dużą ilość danych (Volume), dużą zmienność danych (Velocity) oraz dużą różnorodność danych (Variety). W 2012 roku Gartner uzupełnił podaną wcześniej definicję wskazując, iż „big data to zbiory informacji o dużej objętości, dużej zmienności i/lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”. (źr. BigData WIKI)

Tak wiec mamy definicję: big data to zbiory informacji o dużej objętości, dużej zmienności i/lub dużej różnorodności. Resztę pominąłem zdania pominąłem, gdyż to czego BigData wymaga nie jest przedmiotem definicji pojęcia.

Na czym polega problem biznesowy? Generalnie ludzie (o heurystykach już pisałem)  stosują metody indukcyjne jako narzędzie wyciągania wniosków. Indukcja to w naukach empirycznych metoda polegająca na wprowadzeniu uogólnień na podstawie eksperymentów i obserwacji faktów, formułowaniu i weryfikacji hipotez. Zaczątki indukcji w sensie nowożytnym stworzył F. Bacon, który uznał, że indukcja i eksperyment to dwie skuteczne metody ustalania prawdy. Słowo klucz tu to „fakty”. Z indukcją mają do czynienia wszyscy, którzy korzystają z analizy trendów (np. analiza techniczna w przypadku analizy kursów walut czy akcji).

Problem z indukcją, jako metodą, polega na tym, że w zasadzie sprowadza się do próby oceny tego, z jakim prawdopodobieństwem powtórzy się historia badanego zjawiska. Metoda ta nie prowadzi do nowych odkryć, prowadzi do modeli opisujących prawdopodobieństwo powtórzenia się faktów, o których mamy wiedzę, że wystąpiły.

Firmy, w miarę rozwoju technologii i rozbudowy swoich procesów biznesowych, gromadzą coraz większe ilości danych o znanych im faktach ze swojej historii. Rejestrowane są coraz dokładniej i „gęściej” w czasie, wszelkie zdarzenia na firmowych stronach WWW, wszelka wiedza o zdarzeniach w prowadzonej działalności. Firmy popycha do tego wiara w to, że im więcej danych tym lepsze wnioski. Praktyka jednak pokazuje, że rosnąca dokładność „próbkowania” np. zachowań klientów nie prowadzi do proporcjonalnego wzrostu zamówień. Owszem, poznając te zachowania można lepiej zaadresować ofertę, to prawda ale nie jest to zależność liniowa.

Do 2015 roku ponad 85 proc. firm sklasyfikowanych w rankingu Fortune 500 nie będzie potrafiło efektywnie wykorzystać posiadanych zbiorów danych, bowiem wystąpi efekt tzw. big data. Co więc z tymi danymi robić? Ignorować je troszkę. Jeżeli prawdą jest, że dziś, w ciągu zaledwie dwóch dni produkujemy tyle danych, ile ludzkość wytworzyła od zarania dziejów do roku 2003, to porównując to z postępem dokonanym w ciągu ostatniej dekady z postępem ostatnich dwóch tysięcy lat, wniosek nasuwa się jeden: raczej nie ilość danych decyduje o wiedzy i postępie. Więc co?

W opozycji do indukcji jako metody poznania (epistemologia) stoi dedukcja. Dedukcja to rozumowanie polegające na wyprowadzaniu z przesłanek (zdań) uznanych za prawdziwe na podstawie faktów, następstwa będącego logicznym i prawdziwym wnioskiem. Innymi słowy, dedukcja polega postawieniu hipotezy na podstawie pewnej ograniczonej liczby danych (faktów), udowodnieniu jej słuszności (poprzez brak faktów przeczących tej tezie – nieudana falsyfikacja) i wyciąganiu wniosków o przyszłości. Jak dowodzi się takiej hipotezy? Testuje się  sprawdzając, czy poprawnie opisuje znany z historii fakty. Innymi słowy: jeżeli nie odkryto faktów obalających tezę (pokazujących, że jest nieprawdziwa) uznaje się ją za poprawną.

Typowym przykładem indukcji jest prognozowanie pogody na bazie znanych z historii faktów: prognoza była uznaniem, że powtórzy się określona sytuacja zaobserwowana w przeszłości (np. nisko latające jaskółki zapowiadają deszcze). Obecne prognozy to dedukcja: na bazie określonej partii danych opracowano tezę: model fizyczny atmosfery i zjawisk w niej zachodzących. Model ten, po podaniu danych o stanie obecnym atmosfery, pozwala na wnioskowanie (wyliczenie) jego stanu na dzień lub tydzień następny (tu krótko i średnioterminowa prognoza). Co ciekawe, ta metoda (dedukcja) pozwala na przewidywanie faktów, które nie zaszły w przeszłości (z prawdopodobieństwem wynikającym z jakości użytego modelu i kosztu obliczeń).

Dedukcję jako metodę poznania (metoda dowodzenia poprzez stawianie hipotez i ich falsyfikację) opisał Karl Popper. Nosi ona obecnie nazwę „metody naukowej”.

Jak to się ma do naszego BigData? Moim zdaniem jest to ślepa uliczka. Rosnące nakłady na sprzęt i oprogramowanie zmniejszają jedynie błąd statystyczny obliczeń nie wnosząc nic do ich jakości w rozumieniu „jakości prognozowania”. Co do „odkrywania” czegokolwiek nie ma mowy, udowodniono, że metodami indukcyjnymi nie da się niczego nowego odkryć, można co najwyżej udokumentować trend. Owszem, pozostaje kwestia analizy korelacyjnej, czyli wykrywania związków pomiędzy faktami (np. czy pora dnia wpływa na decyzje zakupowe). Tego typu analizy nie są niczym nowym, są znane wśród specjalistów z zakresu Business Inteligence od dawna.

Tak więc kluczową strategią wydaje się tu być tak zwany program retencyjny, czyli strategia wyboru danych do przechowywania (i usuwanie pozostałych), bo nie da się „zapamiętać” wszystkiego. Jednym z „modnych” elementów strategii sprzedażowych są tak zwane programy partnerskie. Maciej Tesławski (ekspert z zakresu marketingu) na swoim blogu pisze:

Programy retencyjne mogą być B2B, B2C i multipartnerskie, lojalnościowe mogą być tylko B2C bo w biznesie decyzje zakupowe podejmuje się w znacznym stopniu racjonalnie a nie emocjonalnie.

Jeśli chodzi o ocenę działających programów retencyjnych, to podstawowy błąd jaki widzę to niewykorzystywanie bazy informacji o uczestnikach programu przez firmy. To jest potężny zbiór informacji o zachowaniach poszczególnych konsumentów, w połączeniu z danymi demograficznymi pozwala na „poznanie” profilu najbardziej wartościowych konsumentów. Nie zauważyłem aby ktokolwiek to wykorzystywał. Dzieje się tak zapewne dlatego, że bazy danych rosną w postępie geometrycznym i przerastają możliwości ich bieżącego wykorzystywania.

Skoro tak, to wiemy co – pozostaje jak. Jak zauważono na początku, przyrastająca ilość danych, a raczej korzystanie z nich, wymaga całkiem nowych platform technologicznych i zestawów kompetencji. Platformy technologiczne są, postęp techniczny nam je zapewnia. Wydaje się, że  kluczem jest „nowy zestaw kompetencji”.

Moim zdaniem dużymi krokami nadchodzi  czas, gdy z analizy statystycznej należy się przerzucić na analizę systemową – dedukcję, oraz odpowiednie strategie retencji danych. W niedawnej przeszłości stwierdzono, że rosnąca ilość danych i dalsze uszczegółowianie danych o zmianach temperatury, ciśnienia, wielkości opadów nie poprawiają jakości prognoz pogody. Zmieniono podejście i jak widać udało się, prognozy pogody nigdy nie były tak dokładne jak w ostatniej dekadzie a nie jest to efekt BigData.

Od technologii teraz nie oczekiwał bym ogromnych pojemności a mocy obliczeniowej, tu widzę drogę do sukcesu: analiza ograniczonej ilości faktów, budowanie modeli zachowań np. konsumentów, prognozowanie tych zachować. Myślę też, że pewnego progu jakości prognoz nie przekroczymy. Filozofia dowodzi, że nie da się stworzyć w świecie realnym demiurga (w filozofii Platona określano tak budowniczego świata nadającego kształty wiecznej, bezkształtnej materii według wzorców, jakie stanowią doskonałe idee; w filozofii nowożytnej demon potrafiący obliczyć przyszły stan świata na podstawie wiedzy o wszystkich atomach i prawach nimi rządzących). Praktyka pokazuje, że nie istnieje i długo nie powstanie taka moc obliczeniowa by choć troszkę się do demiurga zbliżyć.

A czym jest ta analiza systemowa i modelowanie? Wyobraźmy sobie kogoś, kto chce przewidywać zachowania kul podczas gry w snookera. Problem ten może zostać opisany faktami opisującymi grę powierzchownie: „Gracz uderza białą kulę, która przemieszcza się z pewną prędkością, ta po określonym czasie uderza czerwoną kulę pod określonym kątem, uderzona czerwona kula przemieszcza się na pewną odległość w pewnym kierunku.” Można sfilmować setki tysięcy takich uderzeń, zarejestrować z dowolna dokładnością parametry każdego uderzenia i jego skutki. Jednak tą metodą i tak nie stworzymy nawet dość dobrej symulacji. Aby stworzyć na prawdę dobrą symulację, należy zrozumieć prawa rządzące ruchem kul, ich zależność od siły i kierunku uderzenia, kierunku itp. Zrozumienie tych praw pozwoli znacznie łatwiej przewidzieć skutek każdego uderzenia.” (na podstawie Analysis Patterns. Reusable Object Models, Martin Fowler, Addison-Wesley, 1997).

Autor: Jarosław Żeliński
Źródło: www.it-consulting.pl


Najnowsze wiadomości

Kwantowy przełom w cyberochronie - nadchodząca dekada przepisze zasady szyfrowania na nowo
Przez długi czas cyfrowe bezpieczeństwo opierało się na prostym założeniu: współczesne komputery potrzebowałyby ogromnych zasobów i wielu lat, aby złamać silne algorytmy szyfrowania. Rozwój technologii kwantowej zaczyna jednak tę regułę podważać, a eksperci przewidują, że w perspektywie 5–10 lat może nadejść „dzień zero”. Jest to moment, w którym zaawansowana maszyna kwantowa będzie w stanie przełamać większość aktualnie stosowanych zabezpieczeń kryptograficznych w czasie liczonym nie w latach, lecz w godzinach.
PSI prezentuje nową identyfikację wizualną
psilogoW ramach realizowanej strategii transformacji PSI Software SE zaprezentowała nową identyfikację wizualną. Odświeżony wizerunek w spójny sposób oddaje technologiczne zaawansowanie firmy, jej głęboką wiedzę branżową oraz silne ukierunkowanie na potrzeby klientów. Zmiany te wzmacniają pozycję PSI jako innowacyjnego lidera technologicznego w obszarze skalowalnych rozwiązań informatycznych opartych na sztucznej inteligencji i chmurze, rozwijanych z myślą o energetyce i przemyśle.
PROMAG S.A. rozpoczyna wdrożenie systemu ERP IFS Cloud we współpracy z L-Systems
PROMAG S.A., lider w obszarze intralogistyki, rozpoczął wdrożenie systemu ERP IFS Cloud, który ma wesprzeć dalszy rozwój firmy oraz integrację kluczowych procesów biznesowych. Projekt realizowany jest we współpracy z firmą L-Systems i obejmuje m.in. obszary finansów, produkcji, logistyki, projektów oraz serwisu, odpowiadając na rosnącą skalę i złożoność realizowanych przedsięwzięć.
F5 rozszerza portfolio bezpieczeństwa o narzędzia do ochrony systemów AI w środowiskach enterprise
F5 ogłosiło wprowadzenie dwóch nowych rozwiązań - F5 AI Guardrails oraz F5 AI Red Team - które mają odpowiedzieć na jedno z kluczowych wyzwań współczesnych organizacji: bezpieczne wdrażanie i eksploatację systemów sztucznej inteligencji na dużą skalę. Nowa oferta łączy ochronę działania modeli AI w czasie rzeczywistym z ofensy
Snowflake + OpenAI: AI bliżej biznesu
Snowflake przyspiesza wykorzystanie danych i sztucznej inteligencji w firmach, przenosząc AI z fazy eksperymentów do codziennych procesów biznesowych. Nowe rozwiązania w ramach AI Data Cloud integrują modele AI bezpośrednio z danymi, narzędziami deweloperskimi i warstwą semantyczną. Partnerstwo z OpenAI, agent Cortex Code, Semantic View Autopilot oraz rozwój Snowflake Postgres pokazują, jak budować skalowalne, bezpieczne i mierzalne wdrożenia AI w skali całej organizacji.



Najnowsze artykuły

Magazyn bez błędów? Sprawdź, jak system WMS zmienia codzienność logistyki
SENTEWspółczesna logistyka wymaga nie tylko szybkości działania, lecz także maksymalnej precyzji – to właśnie te czynniki coraz częściej decydują o przewadze konkurencyjnej firm. Nawet drobne pomyłki w ewidencji stanów magazynowych, błędy przy przyjmowaniu dostaw czy nieprawidłowe rozmieszczenie towarów, mogą skutkować poważnymi stratami finansowymi i opóźnieniami w realizacji zamówień. W jaki sposób nowoczesne rozwiązania do zarządzania pomagają unikać takich sytuacji? Czym właściwie różni się tradycyjny system magazynowy od zaawansowanych rozwiązań klasy WMS (ang. Warehouse Management System)? I w jaki sposób inteligentne zarządzanie procesami magazynowymi realnie usprawnia codzienną pracę setek firm?
Migracja z SAP ECC na S4 HANA: Ryzyka, korzyści i alternatywne rozwiązania
W ostatnich latach wiele firm, które korzystają z systemu SAP ECC (Enterprise Central Component), stoi przed decyzją o przejściu na nowszą wersję — SAP S4 HANA. W obliczu końca wsparcia dla ECC w 2030 roku, temat ten staje się coraz bardziej aktualny. Przemiany technologiczne oraz rosnące oczekiwania związane z integracją nowych funkcji, jak sztuczna inteligencja (AI), skłaniają do refleksji nad tym, czy warto podjąć tak dużą zmianę w architekturze systemu. Przyjrzyjmy się głównym powodom, dla których firmy rozważają migrację do S4 HANA, ale także argumentom,  które mogą przemawiać za pozostaniem przy dotychczasowym systemie ECC, przynajmniej na krótki okres.
Jak maksymalizować zyski z MTO i MTS dzięki BPSC ERP?
BPSC FORTERROZysk przedsiębiorstwa produkcyjnego zależy nie tylko od wydajności maszyn, ale przede wszystkim od precyzyjnego planowania, realnych danych i umiejętnego zarządzania procesami. Dlatego firmy, które chcą skutecznie działać zarówno w modelu Make to Stock (MTS), jak i Make to Order (MTO), coraz częściej sięgają po rozwiązania klasy ERP, takie jak BPSC ERP.
Ponad połowa cyberataków zaczyna się od błędu człowieka
Ponad 2/3 firm w Polsce odnotowała w zeszłym roku co najmniej 1 incydent naruszenia bezpieczeństwa . Według danych Unit 42, zespołu analitycznego Palo Alto Networks, aż 60% ataków rozpoczyna się od działań wymierzonych w pracowników – najczęściej pod postacią phishingu i innych form inżynierii społecznej . To pokazuje, że w systemie ochrony organizacji pracownicy są kluczowym ogniwem – i że firmy muszą nie tylko edukować, ale też konsekwentnie egzekwować zasady cyberhigieny. Warto o tym pamiętać szczególnie teraz, w październiku, gdy obchodzimy Europejski Miesiąc Cyberbezpieczeństwa.
MES - holistyczne zarządzanie produkcją
Nowoczesna produkcja wymaga precyzji, szybkości i pełnej kontroli nad przebiegiem procesów. Rosnąca złożoność zleceń oraz presja kosztowa sprawiają, że ręczne raportowanie i intuicyjne zarządzanie coraz częściej okazują się niewystarczające. Firmy szukają rozwiązań, które umożliwiają im widzenie produkcji „na żywo”, a nie z opóźnieniem kilku godzin czy dni. W tym kontekście kluczową rolę odgrywają narzędzia, które porządkują informacje i pozwalają reagować natychmiast, zamiast po fakcie.

Przeczytaj Również

Real-Time Intelligence – od trendu do biznesowego must-have

Sposób prowadzenia działalności gospodarczej dynamicznie się zmienia. Firmy muszą stale dostosowywa… / Czytaj więcej

EPM – co to jest? Czy jest alternatywą dla BI?

Nowoczesne systemy BI i EPM dostarczają wiedzy potrzebnej do efektywnego zarządzania firmą. Czy zna… / Czytaj więcej

W jaki sposób firmy zwiększają swoją odporność na zmiany?

Do zwiększenia odporności na zmiany, konieczna jest pełna kontrola nad codziennymi procesami zapewn… / Czytaj więcej

Dlaczego systemy kontrolingowe są potrzebne współczesnym firmom?

Narzędzia Corporate Performance Management (CPM) pozwalają na przyśpieszenie tempa podejmowania dec… / Czytaj więcej

Hurtownie danych – funkcje i znaczenie dla BI

Przepisów na sukces biznesu jest na rynku wiele. Nie ulega jednak wątpliwości, że jednym z kluczowy… / Czytaj więcej

Po co dane w handlu? Okazuje się, że ich analityka może dać nawet 30 proc. większe zyski!

Jak wynika z badania firmy doradczej Capgemni, producenci FMCG oraz firmy związane z handlem detali… / Czytaj więcej