Text Mining a codzienna rzeczywistość

Otaczający nas świat zmienia się ostatnio w niesamowitym tempie. Rozwój komputerów, sieci Internet, poczty elektronicznej, a ostatnio również serwisów społecznościowych to czynniki, które przemodelowały utrwalone przez wieki standardy komunikacji międzyludzkiej. Nie tylko dostęp do informacji stał się powszechny, ale powszechne stało się również tworzenie treści publikowanych z wykorzystaniem różnorodnych kanałów informacyjnych.

Każdy użytkownik Internetu może w sposób nieskrępowany wyrażać swoje poglądy i opinie w sieci web, do której dostęp mają ludzie na całym świecie. Według różnych szacunków podaje się, iż ilość danych przechowywanych w postaci nieustrukturyzowanej, czyli w postaci luźnego tekstu lub plików audio oraz wideo, stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza to, że zakres informacji uwzględnianych przy podejmowaniu strategicznych decyzji jest stosunkowo niewielki. W związku z tym faktem nasuwają się pytania:

Każdy użytkownik Internetu może w sposób nieskrępowany wyrażać swoje poglądy i opinie w sieci web, do której dostęp mają ludzie na całym świecie. Według różnych szacunków podaje się, iż ilość danych przechowywanych w postaci nieustrukturyzowanej, czyli w postaci luźnego tekstu lub plików audio oraz wideo, stanowi ponad 85% wszystkich danych przechowywanych w postaci cyfrowej. Natomiast zdecydowana większość aktualnie eksploatowanych zintegrowanych systemów zarządzania jest skoncentrowana na efektywnym przetwarzaniu danych ustrukturyzowanych. Oznacza to, że zakres informacji uwzględnianych przy podejmowaniu strategicznych decyzji jest stosunkowo niewielki. W związku z tym faktem nasuwają się pytania:
  • czy stać nas na ignorowanie tak dużej ilości istniejących danych?
  • jak można skutecznie wykorzystać informacje dostępne w postaci luźnego tekstu?
  • w jakich obszarach zastosowań możemy wykorzystać dane nieustrukturyzowane?

Obszary zastosowań.

Odpowiedzią na tego typu zagadnienia są technologie Text Mining. Analiz Text Mining można użyć np. do wydobywania z dokumentów kluczowych informacji (tworzenie podsumowań, streszczeń). Narzędzia te umożliwiają również zdobywanie wiedzy o trendach, relacjach, jakie wiążą ludzi, organizacje lub miejsca poprzez automatyczne zbieranie i porównywanie informacji z dokumentów określonego typu (przychodzących maili, listów od klientów itp.) Ponadto możemy je wykorzystywać do klasyfikowania i organizowania dokumentów ze względu na ich zawartość (np. automatyczna preselekcja dokumentów z określonymi rodzajami tematów i przydzielanie ich do odpowiedniego folderu czy też do przeczytania dla odpowiedniej osoby).

Inne zastosowania to organizowanie repozytoriów z informacjami dotyczącymi dokumentów, które pozwolą na skuteczne wyszukiwanie treści, przeprowadzanie analiz sentymentu lub inaczej mówiąc eksploracji opinii, aby poznać nastawienie naszych klientów do oferowanych produktów lub usług - czy jest pozytywne czy negatywne i jak zmienia się w czasie lub w trakcie prowadzonych działań marketingowych. W marketingu możemy dostosować treść komunikacji do sposobu, w jaki mówią, myślą i spędzają czas nasi klienci. Działy PR mogą wykorzystać pozytywne opinie w prasie lub łagodzić negatywne skutki sytuacji kryzysowych.

Działy obsługi klienta mogą słuchać klientów i współpracować z nimi z wykorzystaniem zupełnie nowych kanałów. W badaniach rynku analizy Text Mining pozwalają lepiej zrozumieć postrzeganie pozycji naszych produktów i usług w stosunku do konkurencji. Możemy zidentyfikować miejsca i zdarzenia, w których nasza reklama lub promocja może być pozytywnie odbierana. I wreszcie korzystając z wypowiedzi konsumentów możemy odkrywać ich konkretne potrzeby i określić cechy produktów, które użytkownicy lubią, lub o których maja negatywne opinie.

Źródła danych nieustrukturyzowanych.

Dane do analiz Text Mining mogą pochodzić z różnych źródeł. Mogą to być zarówno dane zewnętrzne, jak i wewnętrzne. Wśród zewnętrznych bardzo cennym źródłem informacji są media społecznościowe, czyli wszystkie miejsca w sieci Web, gdzie użytkownicy Internetu mogą zamieszczać własne wpisy, komentarze, opinie itp. Źródłami wewnętrznymi mogą być notatki pracowników Call Center dotyczące rozmów z klientami korespondencja przesyłana pocztą elektroniczną, wszelkie dokumenty firmowe, takie jak umowy, oferty, zbiory publikacji, transkrypcje rozmów Call Center, opisy szkód ubezpieczeniowych, notatki policjantów, pytania otwarte z badań ankietowych itd.

Proces analiz Text Mining

Text Mining to technika, która bazując na metodach Data Mining oraz metodach NLP (ang. Natural Language Processing) umożliwia analizowanie kolekcji tekstowych. Zapewnia ona dużo szerszy zakres funkcjonalności niż tylko wyszukiwanie informacji poprzez przetwarzanie tekstu, wydobycie wiedzy i rozumienie pojedynczych dokumentów. Aplikacje Text Mining działają na cyfrowej formie danych tekstowych, dzięki czemu umożliwiają również identyfikację zależności i wzorców oraz wizualizację tych zależności i wzorców.

Pierwszym krokiem w procesie analizy Text Mining jest zwykle tokenizacja, za pomocą której identyfikowane są podstawowe frazy tekstowe, które nie będą podlegać dalszej dekompozycji. Nieprzetworzony tekst jest reprezentowany przez sekwencję znaków, z których komputer musi wyodrębnić owe frazy.

Po tokenizacji zazwyczaj przeprowadza się proces leksykalny, który może składać się z oznaczania części mowy, stemmingu- czyli automatycznego odnajdywania rdzeni lub pni wyrazów, przypisywania słowom ich bazowej formy (na przykład dać jest bazową formą dla słów dały, dam, daliśmy etc.). Działania te mają na celu uproszczenie całego procesu.

W dalszym etapie do zidentyfikowanych fraz przypisuje się wagi, które w zależności od wybranej metody ważenia, podkreślają istotność ich rozkładu w ramach kolekcji dokumentów tekstowych. W tym miejscu uzyskujemy numeryczną reprezentację danych tekstowych i możemy użyć standardowych metod Data Mining w celu dalszej eksploracji.

Oferta SAS w dziedzinie Text Mining

SAS oferuje szereg narzędzi umożliwiających efektywne wdrożenie analiz Text Mining. W portfolio produktów firmy znajduja się one w grupie o nazwie Text Analytics. Są tam wyspecjalizowane narzędzia do automatycznego pobierania dokumentów z sieci Internet oraz Intranet, kategoryzacji treści, analizy sentymentu, budowania ontologii, tworzenia automatycznych streszczeń, a także powiązania analiz Text Mining z analizami Data Mining.

Zasilanie repozytorium dokumentów źródłowych może pochodzić ze stron WWW, systemu RSS, a także lokalnego lub zdalnego systemu plików, blogów, forów, portali społecznościowych takich jak Facebook, Twiter i wielu innych źródeł. SAS Web Crawler pozwala na pobieranie treści stron internetowych ze zidentyfikowanych źródeł lub realizację wyszukiwania stron w Internecie spełniających zadane kryteria w zakresie treści i słów kluczowych. Rozwiązanie to pozwala na bardzo wydajne pobieranie treści stron internetowych, nawet do 1000 wątków jednocześnie, dzięki czemu zasilanie repozytorium treści internetowych będzie odbywało się bardzo wydajnie.

Kategoryzacja możliwa jest poprzez automatyczne grupowanie dokumentów według treści lub poprzez przypisanie do ustalonej struktury drzewiastej tzw. taksonomii. Informacje, dokumenty lub witryny sieci Web organizowane są przy użyciu intuicyjnego katalogu hierarchicznego, według którego mogą być one przeglądane. Dokumenty klasyfikowane są automatycznie przy użyciu łatwo modyfikowalnych reguł umożliwiających dokładną kategoryzację, zapewniając skojarzenie nowego materiału z istniejącymi źródłami w czasie rzeczywistym.

To zapewnia szybkość, skuteczną organizację informacji, dostępność, możliwość odnajdywania i udostępniania wiedzy, przy jednoczesnym zmniejszeniu obciążenia związanego z procesem kategoryzacji treści, takich jak ręczne oznaczanie i retrospektywne indeksowanie.

Analiza sentymentu może pomóc organizacjom w precyzyjnym monitorowaniu opinii konsumentów poprzez unikatową technologię, która stosuje zarówno sztukę, jak i naukę do oceny witryn sieci Web, wewnętrznych danych Call Center, wiadomości e-mail i innych danych tekstowych. Poprzez zastosowanie modeli i reguł językowych, które mogą być definiowane przez ekspertów biznesowych, można zdefiniować pozytywne, negatywne i neutralne uczucia skojarzone z wyrazami użytymi do opisu produktów, usług, itp. W rezultacie można użyć opinii konsumenta do rozwijania i utrzymywania bardziej skutecznych produktów i strategii.

Korzyści

Powyższe rodzaje analiz mogą być wzbogacone poprzez bogaty zestaw narzędzi lingwistycznych oraz modelowania analitycznego służących do odkrycia, ekstrakcji i przewidywania wiedzy z wielu dokumentów tekstowych. Po przekształceniu tekstu, dzięki czemu może on być użyty w narzędziach Data Mining, tematy i kompozycje są identyfikowane jako wyraźne związki. Tak opisane dokumenty można łączyć w stosowne grupy gotowe do analiz eksploracyjnych lub modelowania.

Interaktywna eksploracja pozwala na odnajdywanie wcześniej nieznanych wzorców w zbiorach dokumentów i zastosowanie ich bezpośrednio w modelach predykcyjnych, zaprezentowanie ich w ramach korporacyjnej taksonomii lub firmowych pulpitów nawigacyjnych – maksymalizując wartość zdobytej wiedzy ze wszystkich źródeł informacji.

Rozwiązanie to pozwala na oszczędności finansowe i ograniczenie zasobów, dzięki automatyzacji czasochłonnych zadań związanych z czytaniem i rozumieniem tekstów. Konsolidując dane strukturalne oraz źródła informacji tekstowych, użytkownik uzyskuje bardziej dokładny i kompletny widok organizacji.

Źródło: SAS
Autor: dr inż. Mariusz Dzieciątko

PRZECZYTAJ RÓWNIEŻ:


Back to top