Deep learning to jeden z najszybciej rozwijających się obszarów sztucznej inteli-gencji. Zastosowanie technologii z tego obszaru pozwala udoskonalać autono-miczne pojazdy, ma też ogromne znaczenie, jeżeli chodzi o postęp medycyny. Zdaniem Patryka Binkowskiego, Data Scientist z Altimetrik Poland, tworzenie sieci neuronowych, czyli systemów informatycznych, których funkcjonowanie przypo-mina pracę ludzkiego mózgu, to jeden z kluczowych kierunków rozwoju AI. Na uwagę zasługują zwłaszcza Transformery.
Deep learning to technika uczenia maszynowego, która uczy komputery robić to, co dla człowieka jest naturalne, np. uczyć się na przykładach, umożliwia też tworzenie sieci neuronowych, które potrafią rozpoznawać głos czy przetwarzać język naturalny. Zastosowanie deep learningu rośnie w ogromnym tempie, co wpłynęło na rozwój ta-kich narzędzi jak Siri, Echo i Google Assistant.
Nowe modele głębokiego uczenia są wprowadzane na coraz szerszą skalę, ale zwłaszcza jeden model sieci neuronowej warto zapamiętać - Transformer.
Uwaga i siła sekwencji
Transformery jako model głębokiego uczenia wykorzystują mechanizm uwagi. Efekty ich zastosowania możemy zaobserwować m.in. w przetwarzaniu języka naturalnego (NLP) i wizji komputerowej (computer vision). Uwaga (attention) jest tym, czego Trans-former potrzebuje, aby móc działać w pełnej skali swoich możliwości. Mechanizmy uwagi polegają na znajdowaniu związków między danymi, co jest kluczem do stwo-rzenia właściwego algorytmu.
Transformer korzysta z danych sekwencyjnych. Jego głównymi elementami są koder i dekoder. Pierwszy koduje tekst wejściowy, tworząc coś w rodzaju reprezentacji. Z ko-lei dekoder pracuje nad wspomnianą reprezentacją, próbując przełożyć ją na język docelowy. W jaki sposób można to wykorzystać? Po raz pierwszy możliwości Trans-formerów zostały szczegółowo opisane przez naukowców Google'a. W 2017 roku, w tekście Attention Is All You Need, wykazali, że dzięki Transformerom sieć neuronowa może dokładniej i szybciej tworzyć tłumaczenia z jednego języka na drugi w porów-naniu z innymi sieciami.
Tłumaczenia świetnie pokazują potencjał Transformerów. Transformer bada sekwen-cję słów, a następnie próbuje przewidzieć kolejne, przetłumaczone słowo tak, aby ca-ły tekst był spójny i miał sens.
Przed ich pojawieniem się stosowane były m.in. rekurencyjne sieci neuronowe (RNN), czyli algorytmy modelujące dane sekwencyjne. Te miały jednak trochę wad – przede wszystkim mogą one przetwarzać dane tylko w przód lub w tył. Transformery przetwa-rzają je jednocześnie w przód i w tył. Mechanizmy RNN okazały się również wadliwe, jeśli chodzi o rezultat, ponieważ niejako „zapominają”, co badały wcześniej. Wynika to z tego, że nowsze dane przykrywają te wcześniejsze. Naukowcy doszli więc do wnio-sku, że stosowanie RNN w takiej dziedzinie, jak tłumaczenie, jest zwyczajnie nieefek-tywne.
Transformery a przyszłość AI – nie tylko tłumaczenia
Lista zalet tego modelu jest długa. Transformery umożliwiają tworzenie wielu nowych aplikacji sztucznej inteligencji i zwiększają wydajność programów już istnieją-cych. Mogą pracować z praktycznie każdym rodzajem danych sekwencyjnych - ge-nami, molekułami białkami, listami odtwarzania czy zachowaniami w sieci.
Choć możliwości związane z Transformerami są obiecujące, ich dalsza adopcja wiąże się z pewnymi wyzwaniami. Jednym z nich jest sama wielkość i wymagania dotyczące przetwarzania danych w celu zbudowania największych modeli. Praca z dużymi mo-delami Transformerów oznacza bowiem spore koszty zarówno finansowe jak i środo-wiskowe. Do uruchomienia skryptu trenowania takiego modelu, potrzebna jest obec-nie ogromna ilość danych i potężna moc obliczeniowa. Wiąże się to z koniecznością inwestycji w superkomputery, na co obecnie niewiele firm może sobie pozwolić. Z te-go powodu wciąż trwają poszukiwania efektywnych metod, które pomogą tworzyć większe, lepsze modele redukując zbędne zasoby i koszty.
Istnieją już także modele, które można nazwać sukcesorami Transformera. Takim przykładem jest Perceiver, który wykorzystuje mechanizm atencji. Polega on na inte-gracji wielu źródeł informacji, m.in. tekstu, obrazu, dźwięku czy filmu. Wszystko wska-zuje więc na to, że w tym obszarze dużo się jeszcze wydarzy.
Nowe modele głębokiego uczenia są wprowadzane na coraz szerszą skalę, ale zwłaszcza jeden model sieci neuronowej warto zapamiętać - Transformer.
Ten model ma przed sobą ogromną przyszłość. Już dziś widzimy jego możliwości przy tłumaczeniu języka naturalnego. To jednak wierz-chołek góry lodowej - tłumaczy Patryk Binkowski, Data Scientist z Altimetrik Po-land.
Uwaga i siła sekwencji
Transformery jako model głębokiego uczenia wykorzystują mechanizm uwagi. Efekty ich zastosowania możemy zaobserwować m.in. w przetwarzaniu języka naturalnego (NLP) i wizji komputerowej (computer vision). Uwaga (attention) jest tym, czego Trans-former potrzebuje, aby móc działać w pełnej skali swoich możliwości. Mechanizmy uwagi polegają na znajdowaniu związków między danymi, co jest kluczem do stwo-rzenia właściwego algorytmu.
Transformer korzysta z danych sekwencyjnych. Jego głównymi elementami są koder i dekoder. Pierwszy koduje tekst wejściowy, tworząc coś w rodzaju reprezentacji. Z ko-lei dekoder pracuje nad wspomnianą reprezentacją, próbując przełożyć ją na język docelowy. W jaki sposób można to wykorzystać? Po raz pierwszy możliwości Trans-formerów zostały szczegółowo opisane przez naukowców Google'a. W 2017 roku, w tekście Attention Is All You Need, wykazali, że dzięki Transformerom sieć neuronowa może dokładniej i szybciej tworzyć tłumaczenia z jednego języka na drugi w porów-naniu z innymi sieciami.
Tłumaczenia świetnie pokazują potencjał Transformerów. Transformer bada sekwen-cję słów, a następnie próbuje przewidzieć kolejne, przetłumaczone słowo tak, aby ca-ły tekst był spójny i miał sens.
Przed ich pojawieniem się stosowane były m.in. rekurencyjne sieci neuronowe (RNN), czyli algorytmy modelujące dane sekwencyjne. Te miały jednak trochę wad – przede wszystkim mogą one przetwarzać dane tylko w przód lub w tył. Transformery przetwa-rzają je jednocześnie w przód i w tył. Mechanizmy RNN okazały się również wadliwe, jeśli chodzi o rezultat, ponieważ niejako „zapominają”, co badały wcześniej. Wynika to z tego, że nowsze dane przykrywają te wcześniejsze. Naukowcy doszli więc do wnio-sku, że stosowanie RNN w takiej dziedzinie, jak tłumaczenie, jest zwyczajnie nieefek-tywne.
Problemy występujące w RNN w Trans-formerach zostały rozwiązane właśnie dzięki mechanizmom uwagi, które wyłapują kontekst pojedynczej instancji danych, badając w jaki sposób dane słowo wiąże się z innymi słowami. Dzięki mechanizmowi uwagi modele mogą czerpać z danych poja-wiających się w dowolnym punkcie sekwencji - wyjaśnia Binkowski.
Transformery a przyszłość AI – nie tylko tłumaczenia
Lista zalet tego modelu jest długa. Transformery umożliwiają tworzenie wielu nowych aplikacji sztucznej inteligencji i zwiększają wydajność programów już istnieją-cych. Mogą pracować z praktycznie każdym rodzajem danych sekwencyjnych - ge-nami, molekułami białkami, listami odtwarzania czy zachowaniami w sieci.
Transformery mogą nam podpowiedzieć, co nastąpi lub co dzieje się w określonej sekwencji. Ich potencjał można wykorzystać przy pracy z sekwencjami genów, ale też wykorzystywać do wyświetlania reklam na podstawie zachowań w sieci lub do generowania kodu. Mówiąc krótko, Transformery są kolej-nym krokiem rozwoju sztucznej inteligencji, która może się uczyć nie tylko na podsta-wie gotowych danych, ale wykorzystywać kontekst lub tworzyć nowe informacje - pod-kreśla ekspert Altimetrik Poland.
Choć możliwości związane z Transformerami są obiecujące, ich dalsza adopcja wiąże się z pewnymi wyzwaniami. Jednym z nich jest sama wielkość i wymagania dotyczące przetwarzania danych w celu zbudowania największych modeli. Praca z dużymi mo-delami Transformerów oznacza bowiem spore koszty zarówno finansowe jak i środo-wiskowe. Do uruchomienia skryptu trenowania takiego modelu, potrzebna jest obec-nie ogromna ilość danych i potężna moc obliczeniowa. Wiąże się to z koniecznością inwestycji w superkomputery, na co obecnie niewiele firm może sobie pozwolić. Z te-go powodu wciąż trwają poszukiwania efektywnych metod, które pomogą tworzyć większe, lepsze modele redukując zbędne zasoby i koszty.
Jedną z takich metod jest µTransfer. Dzięki niemu możliwe jest wytrenowanie jednej sieci, a następnie dostrojenie hiperparametrów ko-lejnej sieci, która ma inną głębokość lub szerokość. Nie trzeba więc trenować modelu od początku, co do zasady jest bardzo kosztowne – podsumowuje Patryk Binkow-ski.
Istnieją już także modele, które można nazwać sukcesorami Transformera. Takim przykładem jest Perceiver, który wykorzystuje mechanizm atencji. Polega on na inte-gracji wielu źródeł informacji, m.in. tekstu, obrazu, dźwięku czy filmu. Wszystko wska-zuje więc na to, że w tym obszarze dużo się jeszcze wydarzy.