Przejdź do głównej treści

Text Mining a codzienna rzeczywistość

Katgoria: BUSINESS INTELLIGENCE / Utworzono: 21 czerwiec 2013

Text Mining a codzienna rzeczywistość

Otaczający nas świat zmienia się ostatnio w niesamowitym tempie. Rozwój komputerów, sieci Internet, poczty elektronicznej, a ostatnio również serwisów społecznościowych to czynniki, które przemodelowały utrwalone przez wieki standardy komunikacji międzyludzkiej. Nie tylko dostęp do informacji stał się powszechny, ale powszechne stało się również tworzenie treści publikowanych z wykorzystaniem różnorodnych kanałów informacyjnych.

Każdy użytkownik Internetu może w sposób nieskrępowany wyrażać swoje poglądy i opinie w sieci web, do której dostęp mają ludzie na całym świecie. Według różnych szacunków podaje się, iż ilość danych przechowywanych w postaci nieustrukturyzowanej, czyli w postaci luźnego tekstu lub plików audio oraz wideo, stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza to, że zakres informacji uwzględnianych przy podejmowaniu strategicznych decyzji jest stosunkowo niewielki. W związku z tym faktem nasuwają się pytania:

Każdy użytkownik Internetu może w sposób nieskrępowany wyrażać swoje poglądy i opinie w sieci web, do której dostęp mają ludzie na całym świecie. Według różnych szacunków podaje się, iż ilość danych przechowywanych w postaci nieustrukturyzowanej, czyli w postaci luźnego tekstu lub plików audio oraz wideo, stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza to, że zakres informacji uwzględnianych przy podejmowaniu strategicznych decyzji jest stosunkowo niewielki. W związku z tym faktem nasuwają się pytania:
  • czy stać nas na ignorowanie tak dużej ilości istniejących danych?
  • jak można skutecznie wykorzystać informacje dostępne w postaci luźnego tekstu?
  • w jakich obszarach zastosowań możemy wykorzystać dane nieustrukturyzowane?

Obszary zastosowań.

Odpowiedzią na tego typu zagadnienia są technologie Text Mining. Analiz Text Mining można użyć np. do wydobywania z dokumentów kluczowych informacji (tworzenie podsumowań, streszczeń). Narzędzia te umożliwiają również zdobywanie wiedzy o trendach, relacjach, jakie wiążą ludzi, organizacje lub miejsca poprzez automatyczne zbieranie i porównywanie informacji z dokumentów określonego typu (przychodzących maili, listów od klientów itp.) Ponadto możemy je wykorzystywać do klasyfikowania i organizowania dokumentów ze względu na ich zawartość (np. automatyczna preselekcja dokumentów z określonymi rodzajami tematów i przydzielanie ich do odpowiedniego folderu czy też do przeczytania dla odpowiedniej osoby).

Inne zastosowania to organizowanie repozytoriów z informacjami dotyczącymi dokumentów, które pozwolą na skuteczne wyszukiwanie treści, przeprowadzanie analiz sentymentu lub inaczej mówiąc eksploracji opinii, aby poznać nastawienie naszych klientów do oferowanych produktów lub usług - czy jest pozytywne czy negatywne i jak zmienia się w czasie lub w trakcie prowadzonych działań marketingowych. W marketingu możemy dostosować treść komunikacji do sposobu, w jaki mówią, myślą i spędzają czas nasi klienci. Działy PR mogą wykorzystać pozytywne opinie w prasie lub łagodzić negatywne skutki sytuacji kryzysowych.

Działy obsługi klienta mogą słuchać klientów i współpracować z nimi z wykorzystaniem zupełnie nowych kanałów. W badaniach rynku analizy Text Mining pozwalają lepiej zrozumieć postrzeganie pozycji naszych produktów i usług w stosunku do konkurencji. Możemy zidentyfikować miejsca i zdarzenia, w których nasza reklama lub promocja może być pozytywnie odbierana. I wreszcie korzystając z wypowiedzi konsumentów możemy odkrywać ich konkretne potrzeby i określić cechy produktów, które użytkownicy lubią, lub o których maja negatywne opinie.

Źródła danych nieustrukturyzowanych.

Dane do analiz Text Mining mogą pochodzić z różnych źródeł. Mogą to być zarówno dane zewnętrzne, jak i wewnętrzne. Wśród zewnętrznych bardzo cennym źródłem informacji są media społecznościowe, czyli wszystkie miejsca w sieci Web, gdzie użytkownicy Internetu mogą zamieszczać własne wpisy, komentarze, opinie itp. Źródłami wewnętrznymi mogą być notatki pracowników Call Center dotyczące rozmów z klientami korespondencja przesyłana pocztą elektroniczną, wszelkie dokumenty firmowe, takie jak umowy, oferty, zbiory publikacji, transkrypcje rozmów Call Center, opisy szkód ubezpieczeniowych, notatki policjantów, pytania otwarte z badań ankietowych itd.

Proces analiz Text Mining

Text Mining to technika, która bazując na metodach Data Mining oraz metodach NLP (ang. Natural Language Processing) umożliwia analizowanie kolekcji tekstowych. Zapewnia ona dużo szerszy zakres funkcjonalności niż tylko wyszukiwanie informacji poprzez przetwarzanie tekstu, wydobycie wiedzy i rozumienie pojedynczych dokumentów. Aplikacje Text Mining działają na cyfrowej formie danych tekstowych, dzięki czemu umożliwiają również identyfikację zależności i wzorców oraz wizualizację tych zależności i wzorców.

Pierwszym krokiem w procesie analizy Text Mining jest zwykle tokenizacja, za pomocą której identyfikowane są podstawowe frazy tekstowe, które nie będą podlegać dalszej dekompozycji. Nieprzetworzony tekst jest reprezentowany przez sekwencję znaków, z których komputer musi wyodrębnić owe frazy.

Po tokenizacji zazwyczaj przeprowadza się proces leksykalny, który może składać się z oznaczania części mowy, stemmingu- czyli automatycznego odnajdywania rdzeni lub pni wyrazów, przypisywania słowom ich bazowej formy (na przykład dać jest bazową formą dla słów dały, dam, daliśmy etc.). Działania te mają na celu uproszczenie całego procesu.

W dalszym etapie do zidentyfikowanych fraz przypisuje się wagi, które w zależności od wybranej metody ważenia, podkreślają istotność ich rozkładu w ramach kolekcji dokumentów tekstowych. W tym miejscu uzyskujemy numeryczną reprezentację danych tekstowych i możemy użyć standardowych metod Data Mining w celu dalszej eksploracji.

Oferta SAS w dziedzinie Text Mining

SAS oferuje szereg narzędzi umożliwiających efektywne wdrożenie analiz Text Mining. W portfolio produktów firmy znajduja się one w grupie o nazwie Text Analytics. Są tam wyspecjalizowane narzędzia do automatycznego pobierania dokumentów z sieci Internet oraz Intranet, kategoryzacji treści, analizy sentymentu, budowania ontologii, tworzenia automatycznych streszczeń, a także powiązania analiz Text Mining z analizami Data Mining.

Zasilanie repozytorium dokumentów źródłowych może pochodzić ze stron WWW, systemu RSS, a także lokalnego lub zdalnego systemu plików, blogów, forów, portali społecznościowych takich jak Facebook, Twiter i wielu innych źródeł. SAS Web Crawler pozwala na pobieranie treści stron internetowych ze zidentyfikowanych źródeł lub realizację wyszukiwania stron w Internecie spełniających zadane kryteria w zakresie treści i słów kluczowych. Rozwiązanie to pozwala na bardzo wydajne pobieranie treści stron internetowych, nawet do 1000 wątków jednocześnie, dzięki czemu zasilanie repozytorium treści internetowych będzie odbywało się bardzo wydajnie.

Kategoryzacja możliwa jest poprzez automatyczne grupowanie dokumentów według treści lub poprzez przypisanie do ustalonej struktury drzewiastej tzw. taksonomii. Informacje, dokumenty lub witryny sieci Web organizowane są przy użyciu intuicyjnego katalogu hierarchicznego, według którego mogą być one przeglądane. Dokumenty klasyfikowane są automatycznie przy użyciu łatwo modyfikowalnych reguł umożliwiających dokładną kategoryzację, zapewniając skojarzenie nowego materiału z istniejącymi źródłami w czasie rzeczywistym.

To zapewnia szybkość, skuteczną organizację informacji, dostępność, możliwość odnajdywania i udostępniania wiedzy, przy jednoczesnym zmniejszeniu obciążenia związanego z procesem kategoryzacji treści, takich jak ręczne oznaczanie i retrospektywne indeksowanie.

Analiza sentymentu może pomóc organizacjom w precyzyjnym monitorowaniu opinii konsumentów poprzez unikatową technologię, która stosuje zarówno sztukę, jak i naukę do oceny witryn sieci Web, wewnętrznych danych Call Center, wiadomości e-mail i innych danych tekstowych. Poprzez zastosowanie modeli i reguł językowych, które mogą być definiowane przez ekspertów biznesowych, można zdefiniować pozytywne, negatywne i neutralne uczucia skojarzone z wyrazami użytymi do opisu produktów, usług, itp. W rezultacie można użyć opinii konsumenta do rozwijania i utrzymywania bardziej skutecznych produktów i strategii.

Korzyści

Powyższe rodzaje analiz mogą być wzbogacone poprzez bogaty zestaw narzędzi lingwistycznych oraz modelowania analitycznego służących do odkrycia, ekstrakcji i przewidywania wiedzy z wielu dokumentów tekstowych. Po przekształceniu tekstu, dzięki czemu może on być użyty w narzędziach Data Mining, tematy i kompozycje są identyfikowane jako wyraźne związki. Tak opisane dokumenty można łączyć w stosowne grupy gotowe do analiz eksploracyjnych lub modelowania.

Interaktywna eksploracja pozwala na odnajdywanie wcześniej nieznanych wzorców w zbiorach dokumentów i zastosowanie ich bezpośrednio w modelach predykcyjnych, zaprezentowanie ich w ramach korporacyjnej taksonomii lub firmowych pulpitów nawigacyjnych – maksymalizując wartość zdobytej wiedzy ze wszystkich źródeł informacji.

Rozwiązanie to pozwala na oszczędności finansowe i ograniczenie zasobów, dzięki automatyzacji czasochłonnych zadań związanych z czytaniem i rozumieniem tekstów. Konsolidując dane strukturalne oraz źródła informacji tekstowych, użytkownik uzyskuje bardziej dokładny i kompletny widok organizacji.

Źródło: SAS
Autor: dr inż. Mariusz Dzieciątko

Najnowsze wiadomości

Kwantowy przełom w cyberochronie - nadchodząca dekada przepisze zasady szyfrowania na nowo
Przez długi czas cyfrowe bezpieczeństwo opierało się na prostym założeniu: współczesne komputery potrzebowałyby ogromnych zasobów i wielu lat, aby złamać silne algorytmy szyfrowania. Rozwój technologii kwantowej zaczyna jednak tę regułę podważać, a eksperci przewidują, że w perspektywie 5–10 lat może nadejść „dzień zero”. Jest to moment, w którym zaawansowana maszyna kwantowa będzie w stanie przełamać większość aktualnie stosowanych zabezpieczeń kryptograficznych w czasie liczonym nie w latach, lecz w godzinach.
PSI prezentuje nową identyfikację wizualną
psilogoW ramach realizowanej strategii transformacji PSI Software SE zaprezentowała nową identyfikację wizualną. Odświeżony wizerunek w spójny sposób oddaje technologiczne zaawansowanie firmy, jej głęboką wiedzę branżową oraz silne ukierunkowanie na potrzeby klientów. Zmiany te wzmacniają pozycję PSI jako innowacyjnego lidera technologicznego w obszarze skalowalnych rozwiązań informatycznych opartych na sztucznej inteligencji i chmurze, rozwijanych z myślą o energetyce i przemyśle.
PROMAG S.A. rozpoczyna wdrożenie systemu ERP IFS Cloud we współpracy z L-Systems
PROMAG S.A., lider w obszarze intralogistyki, rozpoczął wdrożenie systemu ERP IFS Cloud, który ma wesprzeć dalszy rozwój firmy oraz integrację kluczowych procesów biznesowych. Projekt realizowany jest we współpracy z firmą L-Systems i obejmuje m.in. obszary finansów, produkcji, logistyki, projektów oraz serwisu, odpowiadając na rosnącą skalę i złożoność realizowanych przedsięwzięć.
F5 rozszerza portfolio bezpieczeństwa o narzędzia do ochrony systemów AI w środowiskach enterprise
F5 ogłosiło wprowadzenie dwóch nowych rozwiązań - F5 AI Guardrails oraz F5 AI Red Team - które mają odpowiedzieć na jedno z kluczowych wyzwań współczesnych organizacji: bezpieczne wdrażanie i eksploatację systemów sztucznej inteligencji na dużą skalę. Nowa oferta łączy ochronę działania modeli AI w czasie rzeczywistym z ofensy
Snowflake + OpenAI: AI bliżej biznesu
Snowflake przyspiesza wykorzystanie danych i sztucznej inteligencji w firmach, przenosząc AI z fazy eksperymentów do codziennych procesów biznesowych. Nowe rozwiązania w ramach AI Data Cloud integrują modele AI bezpośrednio z danymi, narzędziami deweloperskimi i warstwą semantyczną. Partnerstwo z OpenAI, agent Cortex Code, Semantic View Autopilot oraz rozwój Snowflake Postgres pokazują, jak budować skalowalne, bezpieczne i mierzalne wdrożenia AI w skali całej organizacji.



Najnowsze artykuły

Magazyn bez błędów? Sprawdź, jak system WMS zmienia codzienność logistyki
SENTEWspółczesna logistyka wymaga nie tylko szybkości działania, lecz także maksymalnej precyzji – to właśnie te czynniki coraz częściej decydują o przewadze konkurencyjnej firm. Nawet drobne pomyłki w ewidencji stanów magazynowych, błędy przy przyjmowaniu dostaw czy nieprawidłowe rozmieszczenie towarów, mogą skutkować poważnymi stratami finansowymi i opóźnieniami w realizacji zamówień. W jaki sposób nowoczesne rozwiązania do zarządzania pomagają unikać takich sytuacji? Czym właściwie różni się tradycyjny system magazynowy od zaawansowanych rozwiązań klasy WMS (ang. Warehouse Management System)? I w jaki sposób inteligentne zarządzanie procesami magazynowymi realnie usprawnia codzienną pracę setek firm?
Migracja z SAP ECC na S4 HANA: Ryzyka, korzyści i alternatywne rozwiązania
W ostatnich latach wiele firm, które korzystają z systemu SAP ECC (Enterprise Central Component), stoi przed decyzją o przejściu na nowszą wersję — SAP S4 HANA. W obliczu końca wsparcia dla ECC w 2030 roku, temat ten staje się coraz bardziej aktualny. Przemiany technologiczne oraz rosnące oczekiwania związane z integracją nowych funkcji, jak sztuczna inteligencja (AI), skłaniają do refleksji nad tym, czy warto podjąć tak dużą zmianę w architekturze systemu. Przyjrzyjmy się głównym powodom, dla których firmy rozważają migrację do S4 HANA, ale także argumentom,  które mogą przemawiać za pozostaniem przy dotychczasowym systemie ECC, przynajmniej na krótki okres.
Jak maksymalizować zyski z MTO i MTS dzięki BPSC ERP?
BPSC FORTERROZysk przedsiębiorstwa produkcyjnego zależy nie tylko od wydajności maszyn, ale przede wszystkim od precyzyjnego planowania, realnych danych i umiejętnego zarządzania procesami. Dlatego firmy, które chcą skutecznie działać zarówno w modelu Make to Stock (MTS), jak i Make to Order (MTO), coraz częściej sięgają po rozwiązania klasy ERP, takie jak BPSC ERP.
Ponad połowa cyberataków zaczyna się od błędu człowieka
Ponad 2/3 firm w Polsce odnotowała w zeszłym roku co najmniej 1 incydent naruszenia bezpieczeństwa . Według danych Unit 42, zespołu analitycznego Palo Alto Networks, aż 60% ataków rozpoczyna się od działań wymierzonych w pracowników – najczęściej pod postacią phishingu i innych form inżynierii społecznej . To pokazuje, że w systemie ochrony organizacji pracownicy są kluczowym ogniwem – i że firmy muszą nie tylko edukować, ale też konsekwentnie egzekwować zasady cyberhigieny. Warto o tym pamiętać szczególnie teraz, w październiku, gdy obchodzimy Europejski Miesiąc Cyberbezpieczeństwa.
MES - holistyczne zarządzanie produkcją
Nowoczesna produkcja wymaga precyzji, szybkości i pełnej kontroli nad przebiegiem procesów. Rosnąca złożoność zleceń oraz presja kosztowa sprawiają, że ręczne raportowanie i intuicyjne zarządzanie coraz częściej okazują się niewystarczające. Firmy szukają rozwiązań, które umożliwiają im widzenie produkcji „na żywo”, a nie z opóźnieniem kilku godzin czy dni. W tym kontekście kluczową rolę odgrywają narzędzia, które porządkują informacje i pozwalają reagować natychmiast, zamiast po fakcie.

Przeczytaj Również

Real-Time Intelligence – od trendu do biznesowego must-have

Sposób prowadzenia działalności gospodarczej dynamicznie się zmienia. Firmy muszą stale dostosowywa… / Czytaj więcej

EPM – co to jest? Czy jest alternatywą dla BI?

Nowoczesne systemy BI i EPM dostarczają wiedzy potrzebnej do efektywnego zarządzania firmą. Czy zna… / Czytaj więcej

W jaki sposób firmy zwiększają swoją odporność na zmiany?

Do zwiększenia odporności na zmiany, konieczna jest pełna kontrola nad codziennymi procesami zapewn… / Czytaj więcej

Dlaczego systemy kontrolingowe są potrzebne współczesnym firmom?

Narzędzia Corporate Performance Management (CPM) pozwalają na przyśpieszenie tempa podejmowania dec… / Czytaj więcej

Hurtownie danych – funkcje i znaczenie dla BI

Przepisów na sukces biznesu jest na rynku wiele. Nie ulega jednak wątpliwości, że jednym z kluczowy… / Czytaj więcej

Po co dane w handlu? Okazuje się, że ich analityka może dać nawet 30 proc. większe zyski!

Jak wynika z badania firmy doradczej Capgemni, producenci FMCG oraz firmy związane z handlem detali… / Czytaj więcej