Przyszłość dużych modeli językowych: w jakim kierunku się rozwiną?

Cały czas jesteśmy świadkami rosnącego zainteresowania dużymi modelami językowymi (#LLMs – Large Language Models). W ciągu ostatnich lat, duże modele językowe, takie jak np. modele z rodziny #GPT czy #PaLM 2 (który jest podstawą Barda), zaprezentowały niesamowite zdolności w generowaniu tekstu, rozumieniu kontekstu i interakcji z użytkownikami. Jednak jest to tak naprawdę dopiero początek ich rozwoju. Wskazują na to chociażby prognozy – globalna wartość rynku #NLP osiągnęła wartość 11,1 miliarda dolarów w 2020 roku i szacuje się, że wzrośnie do 341,5 miliarda dolarów do 2030 roku! Przyjrzyjmy się zatem potencjalnym scenariuszom tego, co może się zmienić w dziedzinie dużych modeli językowych, zarówno pod względem ich działania jak i możliwych zastosowań.

Multimodalność

Jedna z nowości, która już jest wdrażana i udostępniana użytkownikom (np. w przypadku Barda czy ChatGPT Plus) to możliwość podania modelowi nie tylko tekstu, ale też grafiki. Przykładowo, Bard może odczytać napisy znajdujące się na zdjęciu.

Co ciekawe, sam Bard twierdzi, że w odpowiedzi również może generować obrazy:

Jednak ciekawa rzecz dzieje się, gdy już go o to poprosimy:

Model generuje nie grafikę, ale tekst ją opisujący – prawdopodobnie myśli, że tekst w nawiasie to zdjęcie.

Po kilku próbach Bard się poddaje i przyznaje, że nie potrafi generować grafik:

Widzimy więc, że multimodalność to funkcja, która w niedalekiej przyszłości będzie udoskonalana. Dzięki niej modele językowe będą jeszcze lepiej rozumieć ludzi – w końcu nie posługujemy się tylko tekstem, ale używamy także innych zmysłów w komunikacji. Multimodalność z pewnością jest czymś, co pomoże ominąć bariery modeli językowych związane z poleganiem wyłącznie na tekście.

Generowanie własnych danych do douczania przez modele

Dzisiejsze duże modele językowe są douczane przez człowieka za pomocą różnorodnych danych. W przyszłości najprawdopodobniej się to zmieni, ponieważ te modele nie będą polegały jedynie na tym, co dostaną z zewnątrz, lecz będą także w stanie same generować swoje dane do douczenia. Można to porównać do tego, jak funkcjonuje ludzki mózg – ludzie odbierają różne bodźce i potrafią je analizować oraz wyciągać wnioski. Modele będą w stanie same sobie zadawać pytania i przygotowywać instrukcje co mają zrobić, a następnie w odpowiedzi generować nowe teksty.

Jest to ważna funkcjonalność, ponieważ szacuje się, że pewnego dnia może zabraknąć dostępnych danych, które można podać modelom, ponieważ zbiory danych do douczania rosną szybciej, niż ich źródła. Według tego artykułu, zbiór danych tekstowych na całym świecie może się wyczerpać między 2030 a 2040 rokiem, a dane tekstowe wysokiej jakości mogą wyczerpać się już w 2026 roku.

Jeśli modele będą w stanie same generować sobie dane do douczania, to poprawi to także ich wyniki. Istnieje już kilka badań, które to udowadniają. Przykładowo, autorzy pracy SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions przedstawili wyniki swojego badania, w którym opracowali metodę polegającą na tym, że model tworzy własne instrukcje i następnie na ich podstawie się doucza. Zastosowali tę metodę na modelu GPT-3 i uzyskali imponujący wynik – model douczony ich metodą był o 33% dokładniejszy od podstawowej wersji.

Podsumowując, taka metoda douczania jest bardzo obiecująca – nie tylko może zmniejszyć ewentualne ograniczenia w dostępie do danych, lecz może także zapewnić dalsze polepszenie osiągów dużych modeli językowych.

Czy duże modele językowe będą w stanie weryfikować dane?

Przez niektórych duże modele językowe są używane jako zastępstwo dla wyszukiwarek internetowych. Nie jest to prawidłowe podejście, ponieważ mimo tego, że dzisiejsze modele już są imponującymi narzędziami, ich cechą wciąż jest to, że “halucynują” – zmyślają, gdy nie są pewne odpowiedzi. Dlatego obecnie nie należy polegać tylko i wyłącznie na danych podawanych przez modele.

Zdecydowanie jest to obszar, nad którym będą pracować eksperci. Z pewnością będą potrzebne duże zmiany, np. architektoniczne, żeby sprawić, aby modele językowe podawały prawidłowe dane.

Jednak to, co czeka nas w niedalekiej przyszłości i co już się zaczyna dziać, żeby dane podawane przez modele były jak najbardziej zbliżone do prawdy, obejmuje dwie funkcjonalności:

– zdolność modeli do pobierania danych z zewnętrznych źródeł (bezpośrednio z internetu)
– zdolność modeli do podawania źródeł i cytatów odnoszących się do podawanych przez nie danych.

Dużo modeli językowych nie posiada tych funkcji, jednak w tym kierunku poczyniony jest już pierwszy postęp – przykłady systemów, które mają dostęp do sieci i mogą podawać aktualne dane to Bard i WebGPT. Kolejną firmą, która pracuje nad modelem z takimi funkcjonalnościami, jest DeepMind (ich model nazywa się Sparrow). Badania wykazały, że te modele językowe mają znacznie wyższą dokładność, jednak nie jest to jeszcze poziom, na którym można by uznać, że wszystkie dane podawane przez modele są prawdziwe. Według DeepMind, dokładność modelu Sparrow wynosi 78%.

Uważa się, że skłonność do halucynacji to największa wada modeli językowych, dlatego należy spodziewać się, że w przyszłości w tym obszarze firmy zajmujące się modelami będą szukać innowacyjnych rozwiązań.

Dense language models vs. sparse expert models

Obecnie znane modele, takie jak #GPT-3 od #OpenAI, #PaLM lub #LaMDA od #Google, #Galactica lub #OPT od #Meta, mają podobną architekturę. Są to modele oparte na architekturze transformerów i określa się je jako dense language models. Poszczególne modele różnią się przykładowo ilością parametrów (czyli wielkością), danymi, na których zostały wytrenowane, algorytmami optymalizacji czy tym, czy zostały poddane fine-tuningowi, jednak ich podstawowe architektury prawie się od siebie nie różnią.

Jednak pojawia się nowy kierunek (był znany już w przeszłości, ale dopiero teraz staje się coraz bardziej popularny), oparty na architekturze sparse expert models (są to tzw. modele ekspertowe).

Różnica między dense language models a sparse expert models jest taka, że w przypadku dense language models wszystkie parametry są używane przez model, gdy ten dostaje prompt, a w przypadku sparse expert models używane są tylko te parametry, które są istotne dla danego zapytania. To skutkuje większą wydajnością obliczeniową – te modele mogą być większe i mniej wymagające obliczeniowo niż te, które są powszechnie używane dzisiaj.

Podejście to niesie ze sobą korzyści również w kontekście zrozumienia odpowiedzi modelu. Modele ekspertowe (czyli sparse expert models) są bardziej zrozumiałe dla ludzi, ponieważ ich wynik jest efektem określonego podzbioru parametrów w modelu, czyli „ekspertów” aktywowanych w danym przypadku.

Badania na przykładzie modelu #GLaM stworzonego przez #Google wykazały, że modele ekspertowe mogą być znacznie większe niż konkurencyjne modele typu dense, a jednocześnie wykorzystują mniej mocy, osiągając lepsze wyniki w zadaniach językowych. Przykładowo, model GLaM jest 7 razy większy od GPT-3 i wymaga o 2/3 mniej mocy obliczeniowej do wyszkolenia.

Chociaż modele ekspertowe są obecnie mniej popularne i bardziej skomplikowane w rozwoju, ich potencjalne zalety, zwłaszcza w zakresie efektywności obliczeniowej i interpretowalności, sugerują, że mogą stać się bardziej powszechne w przyszłości w dziedzinie dużych modeli językowych.

Rozwój modeli dla konkretnych krajów i języków

Obecnie najpopularniejsze modele językowe mają najlepsze wyniki w przypadku języka angielskiego. Oczywiście działają w innych językach, jednak widoczne jest to, że wymagają na tym polu poprawy. Rosnące zainteresowanie tłumaczeniem i przetwarzaniem tekstu w innych językach przyczynia się do dynamicznego rozwoju tych technologii na globalną skalę.

Wiele państw pracuje już nad rozwojem swoich własnych modeli językowych (np. Chiny, Stany Zjednoczone, Francja czy Niemcy). Istnieje wiele powodów, dla których to robią – oto niektóre z nich:

– dopasowanie do lokalnych potrzeb – każdy kraj jest wyjątkowy pod względem kulturowym, społecznym i językowym, co może nie być uwzględniane przez popularne, międzynarodowe modele;
– lepsza jakość wyników – modele językowe są trenowane na różnorodnych źródłach tekstowych. Jednak posiadając dedykowany model językowy, można go dostosować do specyfiki danego kraju;
– bezpieczeństwo danych – korzystając z globalnych modeli językowych, istnieje ryzyko, że wrażliwe informacje lub lokalne tajemnice mogą zostać przekazane do systemu spoza kraju. Posiadając lokalny model, można lepiej kontrolować bezpieczeństwo danych;
– dostosowanie do regulacji i norm prawnych – każdy kraj ma swoje własne regulacje prawne. Posiadając własny model, można lepiej się do nich dostosować.

Równie ważnym powodem, dla którego państwa powinny pracować nad rozwojem swoich rozwiązań sztucznej inteligencji jest fakt, że niektóre z zawodów mogą być przez nią zastąpione, ale w to miejsce pojawią się nowe zawody związane z tymi technologiami – jeśli dany kraj nie będzie budował własnych narzędzi, to w tym kraju po prostu nie będą się pojawiać nowe miejsca pracy.

Faktem jest, że do wytrenowania dużych modeli językowych potrzeba ogromnych zasobów. W przypadku Unii Europejskiej ciekawą wiadomością jest, że fiński Uniwersytet Turku pracuje z laboratoriami europejskimi nad budową dużych modeli językowych dla każdego oficjalnego języka w Europie. Jest to możliwe dzięki superkomputerowi LUMI, który został stworzony przez grupę 10 państw, w tym Polskę. Ta maszyna jest najszybszym komputerem w Europie i trzecim najszybszym komputerem na świecie. Moce obliczeniowe LUMI są porównywane do łącznej mocy 1,5 miliona laptopów. Za pomocą LUMI przetworzenie 40 miliardów tokenów zajmuje 2 tygodnie.

Decyzja o posiadaniu własnego modelu językowego dla danego kraju zależy od wielu czynników, takich jak dostępność zasobów, potrzeby społeczne i kulturowe oraz cel, jaki model ma spełnić. Dedykowany model może przynieść wiele korzyści, dlatego kraje decydują się w takie modele inwestować.

Co jeszcze nas czeka pod względem możliwych zastosowań modeli językowych w przyszłości?

Podkreślamy jeszcze raz, że obserwujemy dopiero początek rozwoju dużych modeli językowych – z pewnością przyszłe zastosowania będą innowacyjne i zaskakujące. Obecną sytuację w świecie technologicznym można porównać do rozwoju telefonów komórkowych – około 25 lat temu dopiero zaczynały być używane głównie do rozmów, a dzisiaj możemy za pomocą smartfonów płacić, czytać książki, używać nawigacji w podróży czy kręcić filmy w wysokiej rozdzielczości.

Rozwój dużych modeli językowych to znacznie więcej niż tylko poprawianie zdolności rozumienia i generowania tekstu. Prognozuje się, że modele te będą coraz bardziej wyrafinowane, zdolne do wykonywania złożonych zadań, które dzisiaj mogą wydawać się niemożliwe.

Jednym z kluczowych kierunków postępu jest rozwijanie modeli językowych z większą wrażliwością na kontekst i emocje. Możemy się spodziewać, że modele te będą w stanie nie tylko analizować tekst, ale także odczytywać i reagować na subtelne niuanse emocjonalne, co może znaleźć zastosowanie w obszarach takich jak analiza charakteru opinii. Możliwe, że doczekamy się nawet wirtualnych asystentów terapeutycznych.

Przyglądając się przyszłym zastosowaniom, wydaje się, że modele językowe będą odgrywać kluczową rolę w interakcjach człowiek-maszyna. Mogą one stać się nieodłącznymi elementami inteligentnych systemów wsparcia klienta, personalizowanych edukacyjnych narzędzi czy systemów wspomagających pracę lekarzy. Przykładowo, możemy sobie wyobrazić, że idąc do lekarza, opowiadamy mu o swoich objawach, system wykonuje transkrypcję i wypełnia dokumentację medyczną dzięki modelowi językowemu, następnie lekarz udziela nam porady, co również jest transkrybowane i następnie przetwarzane przez model – system uzupełniałby dokumentację i wypisywałby recepty lub skierowania. Taki system znacznie skróciłby czas wizyt, dzięki temu, że lekarz nie musiałby wszystkiego ręcznie wypełniać, co przekładałoby się na szybsze obsługiwanie pacjentów i krótszy czas oczekiwania na wizytę.

Będziemy świadkami technologicznej rewolucji

Tematy opisane w tym artykule to tylko zarys przyszłości, jaka czeka duże modele językowe. Z pewnością nie raz będziemy zaskoczeni nowymi zastosowaniami czy funkcjami. Już niedługo, bo w IV kwartale 2023, ujrzymy nową wersję modelu od OpenAI – GPT-5. Ten obszar sztucznej inteligencji rozwija się błyskawicznie, a liczba różnych możliwych scenariuszy postępu jest ogromna. Niektórzy wręcz obawiają się tego, że sztuczna inteligencja jest coraz bardziej wszechmocna – w tym Elon Musk, który zaapelował o przynajmniej półroczną przerwę w rozwoju technologii nowszych niż GPT-4. Jednak są przeciwnicy tego pomysłu, którzy twierdzą, że nie powinno się hamować tego, co się dzieje. Z tego względu z pewnością czekają nas ekscytujące wydarzenia w świecie #AI.

***

Jeśli chcielibyście stworzyć swój własny model językowy, zapraszamy do kontaktu – możemy wam w tym pomóc dzięki naszemu doświadczeniu w trenowaniu dedykowanych modeli i douczaniu już istniejących.

18 września, 2023
By:admin
Category:Duże modele językowe, Sztuczna inteligencja
no comments
Tags: