Duże modele językowe (ang. Large Language Models — LLM), takie jak te oferowane w systemie ChatGPT firmy OpenAI, to modele głębokich sieci neuronowych, które opracowano w ciągu ostatnich kilku lat.
 |
LLM to sieć neuronowa zaprojektowana do rozumienia ludzkiego języka,
zdolna do generowania tekstu i reagowania na tekst w sposób podobny do
tego, w jaki robią to ludzie. Fot. Pixabay. |
Modele LLM zapoczątkowały nową erę przetwarzania języka naturalnego (ang. Natural Language Processing — NLP). Zanim pojawiły się modele LLM, tradycyjne metody AI doskonale sprawdzały się w zadaniach kategoryzacji, takich jak klasyfikacja spamu e-mail, czy też proste zadania rozpoznawania wzorców, które można było opisać za pomocą ręcznie tworzonych reguł lub z użyciem prostszych modeli.
Zazwyczaj jednak, zwłaszcza w zadaniach językowych, które wymagały złożonych umiejętności rozumienia i tworzenia, takich jak parsowanie szczegółowych instrukcji, przeprowadzanie analizy kontekstowej czy tworzenie spójnego i odpowiedniego do kontekstu dokumentu, wyniki uzyskiwane za pomocą tradycyjnych metod były gorsze. Na przykład poprzednie generacje modeli językowych nie były w stanie wykonać tak trywialnego dla współczesnych modeli LLM zadania jak napisanie wiadomości e-mail na podstawie listy słów kluczowych.
Modele LLM mają niezwykłe możliwości rozumienia, generowania i interpretowania ludzkiego języka. Warto jednak wyjaśnić, że kiedy mówimy, że modele językowe „rozumieją”, mamy na myśli ich zdolność przetwarzania i generowania tekstu w sposób, jaki wydaje się spójny i odpowiedni do kontekstu, a nie to, że mają ludzką świadomość lub wiedzę.
Dzięki postępom w uczeniu głębokim, które jest podzbiorem uczenia maszynowego i sztucznej inteligencji (AI) skoncentrowanym na sieciach neuronowych, modele LLM szkoli się na ogromnych ilościach danych tekstowych. To wielkoskalowe szkolenie pozwala modelom LLM na uchwycenie głębszych informacji kontekstowych i więcej subtelności ludzkiego języka w porównaniu z poprzednimi podejściami. W rezultacie wprowadzenie modeli LLM znacznie poprawiło wydajność w szerokim zakresie zadań NLP: w tłumaczeniach tekstu, analizie tonu, odpowiadaniu na pytania i wielu innych.
Inną ważną różnicą między współczesnymi modelami LLM a wcześniejszymi modelami NLP jest to, że wcześniejsze modele NLP zwykle projektowano do konkretnych zadań, takich jak kategoryzacja tekstu, tłumaczenie języka itp. Podczas gdy wspomniane wcześniejsze modele NLP wyróżniały się w wąskich zastosowaniach, modele LLM wykazują większą biegłość w szerokim zakresie zadań NLP.
Sukces modeli LLM można przypisać architekturze transformerów, która leży u podstaw wielu modeli LLM, oraz ogromnej ilości danych, na których LLM są szkolone. Ta wielka ilość danych pozwala im uchwycić szeroką gamę niuansów językowych, kontekstów i wzorców, których ręczne zakodowanie byłoby wyzwaniem. Zwrot w kierunku modeli opartych na architekturze transformerów i wykorzystania
do szkolenia modeli LLM dużych zbiorów danych zasadniczo zmienił dziedzinę NLP — zapewnił bardziej wydajne narzędzia do rozumienia ludzkiego języka i wykonywania związanych z tym zadań.
1. Czym jest model LLM?
LLM to sieć neuronowa zaprojektowana do rozumienia ludzkiego języka, zdolna do generowania tekstu i reagowania na tekst w sposób podobny do tego, w jaki robią to ludzie. Modele LLM są głębokimi sieciami neuronowymi przeszkolonymi na ogromnych ilościach danych tekstowych, czasami obejmujących duże fragmenty całego tekstu publicznie dostępnego w internecie.
Słowo „duży” w nazwie „duży model językowy” odnosi się zarówno do rozmiaru modelu wyrażonego liczbą parametrów, jak i do ogromnego zbioru danych, na którym go przeszkolono. Takie modele często mają dziesiątki, a nawet setki miliardów parametrów. Są to dostrajalne wagi w sieci, optymalizowane podczas szkolenia w celu prognozowania następnego słowa w sekwencji. Prognozowanie następnego słowa ma sens, ponieważ wykorzystuje sekwencyjną naturę języka w kontekście szkolenia modeli w zakresie rozumienia kontekstu, struktury i relacji w tekście. Jest to jednak bardzo proste zadanie, dlatego wielu badaczy jest zaskoczonych tym, że w ten sposób można stworzyć tak sprawne modele.
Modele LLM wykorzystują architekturę określaną jako transformer, dzięki której podczas tworzenia prognoz mogą selektywnie zwracać uwagę na różne części danych wejściowych. Dzięki temu stają się szczególnie biegłe w radzeniu sobie z niuansami i złożonością ludzkiego języka. Ponieważ modele LLM są zdolne do generowania tekstu, określa się je również jako formę generatywnej sztucznej inteligencji, nazywanej często w skrócie GenAI.
Sztuczna inteligencja obejmuje szerszą dziedzinę maszyn zdolnych do tworzenia, które umieją wykonywać zadania wymagające inteligencji podobnej do ludzkiej, w tym rozumienia języka, rozpoznawania wzorców i podejmowania decyzji. Sztuczna inteligencja obejmuje takie poddziedziny jak uczenie maszynowe i uczenie głębokie.
Modele LLM reprezentują konkretne zastosowanie technik uczenia głębokiego. Wykorzystują ich podobną do ludzkiej zdolność do przetwarzania i generowania tekstu. Uczenie głębokie to wyspecjalizowana gałąź uczenia maszynowego, która koncentruje się na wykorzystaniu wielowarstwowych sieci neuronowych. Uczenie maszynowe i uczenie głębokie to dziedziny mające na celu implementację algorytmów umożliwiających komputerom uczenie się na podstawie danych i wykonywanie zadań, które zwykle wymagają ludzkiej inteligencji.
Algorytmy wykorzystywane do implementowania sztucznej inteligencji są przedmiotem zainteresowania dziedziny uczenia maszynowego. W szczególności uczenie maszynowe obejmuje rozwijanie algorytmów, które potrafią uczyć się z danych i wykonywać prognozy lub podejmować decyzje na podstawie tych danych bez wyraźnego zaprogramowania logiki wnioskowania. Aby to zilustrować, jako praktyczne zastosowanie uczenia maszynowego wyobraźmy sobie filtr antyspamowy. Zamiast ręcznie pisać reguły identyfikacji spamu, wystarczy przekazać do algorytmu uczenia maszynowego przykłady wiadomości e-mail oznaczonych jako spam i wiadomości e-mail, które nie są spamem. Przez minimalizowanie błędu w swoich prognozach model uczy się na zbiorze danych szkoleniowych rozpoznawać wzorce i cechy wskazujące na spam, co umożliwia klasyfikowanie nowych wiadomości e-mail jako spam bądź nie.
Uczenie głębokie to podzbiór uczenia maszynowego, który koncentruje się na wykorzystaniu do modelowania w danych złożonych wzorców i abstrakcji sieci neuronowych obejmujących co najmniej trzy warstwy (znane również jako głębokie sieci neuronowe). W przeciwieństwie do uczenia głębokiego, tradycyjne uczenie maszynowe wymaga ręcznego wyodrębniania cech. Oznacza to, że zadanie zidentyfikowania i wybrania najbardziej odpowiednich cech dla modelu spoczywa na ludzkich ekspertach.
Chociaż dziedzina sztucznej inteligencji jest obecnie zdominowana przez uczenie maszynowe i uczenie głębokie, obejmuje również inne podejścia — na przykład wykorzystuje systemy oparte na regułach, algorytmy genetyczne, systemy eksperckie, logikę rozmytą oraz rozumowanie symboliczne. Wracając do przykładu klasyfikacji spamu, w tradycyjnym uczeniu maszynowym ludzcy eksperci mogą ręcznie wyodrębniać cechy z tekstu wiadomości e-mail, takie jak częstość niektórych słów wyzwalających (na przykład „nagroda”, „wygrałeś”, „za darmo”), liczba wykrzykników, użycie wszystkich wielkich liter lub obecność podejrzanych odnośników. Ten zbiór danych, utworzony na podstawie zdefiniowanych przez ekspertów cech, jest następnie wykorzystywany do przeszkolenia modelu.
W przeciwieństwie do tradycyjnego uczenia maszynowego, uczenie głębokie nie wymaga ręcznej ekstrakcji cech. Oznacza to, że ludzcy eksperci nie muszą identyfikować i wybierać najbardziej odpowiednich cech dla modelu (jednak zarówno tradycyjne techniki uczenia maszynowego, jak i techniki uczenia głębokiego stosowane do klasyfikacji spamu nadal wymagają gromadzenia etykiet, takich jak „spam” lub „nie spam”, które muszą być wybierane przez eksperta w dziedzinie lub użytkowników).
Przyjrzyjmy się wybranym problemom, które można dziś rozwiązać za pomocą modeli LLM, wyzwaniom, którym zastosowanie modeli LLM pozwoliło sprostać, oraz ogólnej architekturze modeli LLM.
2. Zastosowania modeli LLM
Dzięki zaawansowanym możliwościom parsowania i rozumienia nieustrukturyzowanych danych tekstowych modele LLM mają szeroki zakres zastosowań w różnych dziedzinach. Obecnie modele LLM wykorzystuje się do tłumaczenia maszynowego, generowania nowych tekstów (patrz rysunek 1.2), analizy tonu, tworzenia streszczeń dokumentów i wielu innych zadań. Ostatnio używa się ich także do tworzenia treści, na przykład pisania beletrystyki, artykułów, a nawet komputerowego kodu.
Modele LLM oferują również duże możliwości zastosowania w zaawansowanych chatbotach i wirtualnych asystentach, takich jak ChatGPT firmy OpenAI i Gemini firmy Google (dawniej znany jako Bard), które umieją odpowiadać na pytania użytkowników i uzupełniać funkcjonalność tradycyjnych wyszukiwarek, takich jak Google Search i Microsoft Bing.
Co więcej, modele LLM można wykorzystywać do skutecznego wyszukiwania wiedzy z ogromnych ilości tekstu w specjalistycznych dziedzinach, takich jak medycyna czy prawo. Obejmuje to przeglądanie dokumentów, streszczanie długich fragmentów i odpowiadanie na techniczne pytania. W skrócie — modele LLM są nieocenione w automatyzacji prawie każdego zadania związanego z analizą i generowaniem tekstu. Ich zastosowania są niemal nieograniczone, a dzięki ciągłym innowacjom i odkrywaniu nowych sposobów ich wykorzystania mają one potencjał, by na nowo określić naszą relację z techniką, czyniąc ją bardziej konwersacyjną, intuicyjną i dostępną.
3. Etapy tworzenia modeli LLM i korzystania z nich
Po co mielibyśmy tworzyć własne modele LLM? Kodowanie modeli LLM od podstaw jest doskonałym ćwiczeniem pozwalającym zrozumieć ich mechanikę i ograniczenia. Ponadto pozwala zdobyć wiedzę niezbędną do wstępnego szkolenia istniejących architektur LLM typu open source bądź dostrajania ich do własnych zbiorów danych lub zadań specyficznych dla domeny.
UWAGA
Większość współczesnych modeli LLM jest implementowana z użyciem biblioteki głębokiego uczenia PyTorch. Z badań wynika, że niestandardowe modele LLM — te dostosowane do konkretnych zadań lub dziedzin — mogą przewyższać wydajnością modele LLM ogólnego przeznaczenia, służące do wykonywania szerokiej gamy zadań, takie jak modele dostarczane przez system ChatGPT. Do przykładów takich programów można zaliczyć BloombergGPT (wyspecjalizowany w finansach) oraz modele LLM dostosowane pod kątem odpowiadania na pytania medyczne.
Korzystanie z niestandardowych rozwiązań LLM daje szereg korzyści, zwłaszcza w zakresie prywatności danych. Na przykład ze względu na obawy dotyczące poufności firmy mogą nie chcieć udostępniać wrażliwych danych zewnętrznym dostawcom LLM, takim jak OpenAI. Dodatkowo tworzenie mniejszych, niestandardowych modeli LLM pozwala na ich instalowanie bezpośrednio na urządzeniach klienckich, takich jak laptopy i smartfony. Nad takimi zastosowaniami pracuje obecnie wiele firm, na przykład Apple.
Lokalna implementacja pozwala znacznie zmniejszyć opóźnienia i obniżyć koszty związane z użytkowaniem serwera. Co więcej, niestandardowe modele LLM zapewniają programistom pełną autonomię, co pozwala im w razie potrzeby uzyskać kontrolę nad aktualizacjami i modyfikacjami modelu. Ogólny proces tworzenia modelu LLM obejmuje szkolenie wstępne i dostrajanie. Słowo „wstępne” w pojęciu „wstępne szkolenie” odnosi się do początkowej fazy, w której model taki jak LLM jest szkolony na dużym, zróżnicowanym zbiorze danych. Celem tej fazy jest rozwinięcie w modelu ogólnego zrozumienia języka. Taki wstępnie przeszkolony model można następnie wykorzystać jako podstawowy zasób i udoskonalać go przez dostrajanie. Proces dostrajania polega na specjalistycznym szkoleniu modelu na węższym zestawie danych, który jest dobrany pod kątem określonych zadań lub dziedzin.
Pierwszym krokiem w tworzeniu LLM jest przeszkolenie go na dużym korpusie danych tekstowych, czasami nazywanym surowym tekstem. W tym przypadku słowo „surowy” odnosi się do faktu, że dane są zwykłym tekstem bez żadnych informacji pełniących funkcję etykiet (można zastosować filtrowanie, na przykład usuwanie znaków formatowania lub dokumentów w nieznanych językach).
UWAGA
Czytelnicy z doświadczeniem w uczeniu maszynowym być może zauważyli, że w przypadku tradycyjnych modeli uczenia maszynowego i głębokich sieci neuronowych szkolonych za pomocą konwencjonalnego paradygmatu uczenia nadzorowanego etykiety zwykle są wymagane. Nie dotyczy to jednak etapu wstępnego szkolenia modeli LLM. W tej fazie modele LLM wykorzystują uczenie samonadzorowane, w którym model samodzielnie generuje etykiety na podstawie danych wejściowych. Ten pierwszy etap szkolenia modelu LLM jest również znany jako szkolenie wstępne (ang. pretraining), w którego wyniku powstaje początkowy, wstępnie przeszkolony model LLM, często nazywany modelem bazowym lub podstawowym (ang. Foundation model). Typowym przykładem takiego modelu jest GPT-3 (prekursor oryginalnego modelu oferowanego w ChatGPT). Ten model jest zdolny do uzupełniania tekstu — czyli potrafi dokończyć dostarczone przez użytkownika w połowie napisane zdanie.
Ma także ograniczone możliwości uczenia się na podstawie niewielu przykładów, co oznacza, że potrafi nauczyć się wykonywać nowe zadania na podstawie zaledwie kilku przykładów i nie wymaga korzystania z obszernych danych szkoleniowych. Po uzyskaniu po szkoleniu na dużych zbiorach danych tekstowych modelu LLM wstępnie przeszkolonego pod kątem przewidywania następnego słowa w tekście można szkolić model LLM dalej, na danych oznaczonych. Ten etap szkolenia określa się też jako dostrajanie. Dwie najpopularniejsze kategorie dostrajania modeli LLM to dostrajanie instrukcji i dostrajanie klasyfikacji. W przypadku dostrajania instrukcji oznaczony zbiór danych składa się z par instrukcji i odpowiedzi, takich jak zapytanie o przetłumaczenie tekstu razem z poprawnie przetłumaczonym tekstem. W przypadku dostrajania klasyfikacji oznaczony zbiór danych składa się z tekstów i powiązanych etykiet klas — na przykład wiadomości e-mail powiązanych z etykietami „spam” i „nie spam”.
4. Wprowadzenie do architektury transformerów
Większość nowoczesnych modeli LLM opiera się na architekturze Original Transformer, czyli głębokiej sieci neuronowej przedstawionej w 2017 roku w artykule Attention Is All You Need (https://arxiv.org/abs/1706.03762). Aby zrozumieć modele LLM, trzeba zapoznać się z tą architekturą, którą opracowano na potrzeby tłumaczenia maszynowego tekstów w języku angielskim na język niemiecki i francuski.
Uproszczona wersja architektury transformera jest pokazana na rysunku 1.4. Architektura transformera składa się z dwóch podmodułów: kodera i dekodera. Moduł kodera przetwarza tekst wejściowy i koduje go do postaci ciągu reprezentacji liczbowych lub wektorów opisujących kontekst danych wejściowych. Następnie moduł dekodera pobiera zakodowane wektory i generuje tekst wyjściowy.
Na przykład w zadaniu tłumaczenia koder koduje tekst z języka źródłowego do postaci wektorowej, a dekoder dekoduje te wektory w celu wygenerowania tekstu w języku docelowym. Zarówno koder, jak i dekoder składają się z wielu warstw połączonych tak zwanym mechanizmem samouwagi (ang. self-attention mechanism).
Kluczowym komponentem transformerów i modeli LLM jest mechanizm samouwagi (na rysunku 1.4 go nie pokazano), który dostarcza modelowi wagi znaczenia różnych słów lub tokenów w sekwencji względem siebie. Dzięki temu mechanizmowi model może uchwycić w danych wejściowych odległe zależności i relacje kontekstowe, co zwiększa jego zdolności do generowania spójnych i kontekstowo istotnych danych wyjściowych.
Na tym pojęciu opierały się późniejsze odmiany architektury transformerów, takie jak BERT (skrót od bidirectional encoder representations from transformers — dosłownie: dwukierunkowe reprezentacje kodera z transformerów) i różne modele GPT (skrót od generative pretrained transformers — dosłownie: generatywne, wstępnie przeszkolone transformery). Opracowanie tych transformerów pozwoliło dostosować architekturę transformera do wykonywania różnych zadań.
Model BERT, który jest zbudowany na podstawie podmodułu kodera architektury Original Transformer, różni się od modeli GPT podejściem do szkolenia. O ile GPT jest przeznaczony do zadań generatywnych, o tyle BERT i jego odmiany specjalizują się w przewidywaniu zamaskowanych słów (model przewiduje zamaskowane lub ukryte słowa w danym zdaniu — rysunek 1.5). Dzięki tej unikatowej strategii szkoleniowej model BERT sprawdza się w zadaniach klasyfikacji tekstu, w tym zadaniach oznaczania tonu i kategoryzacji dokumentów. W chwili gdy piszę te słowa, modelu BERT używa się do wykrywania toksycznych treści na platformie X (dawniej Twitter).
Z drugiej strony model GPT skupia się na części dekodera architektury Original Transformer i jest przeznaczony do zadań wymagających generowania tekstów. Obejmuje to tłumaczenie maszynowe, streszczanie tekstów, pisanie beletrystyki, pisanie kodu komputerowego i wiele innych.
Modele GPT, zaprojektowane i przeszkolone głównie do wykonywania zadań uzupełniania tekstu, również wykazują niezwykłą wszechstronność. Modele te doskonale sprawdzają się w wykonywaniu zarówno zadań typu zero-shot (niewymagających podawania przykładów rozwiązań), jak i few-shot (wymagających podania zaledwie kilku przykładów rozwiązań). Pojęcie zero-shot odnosi się do zdolności uogólniania modelu na zadania, których model nigdy nie widział (tzn. nigdy wcześniej nie przekazano mu żadnych konkretnych przykładów rozwiązania tego zadania). Z drugiej strony uczenie typu few-shot polega na uczeniu się na podstawie minimalnej liczby przykładów, które użytkownik podaje jako dane wejściowe.
5. Wykorzystanie dużych zbiorów danych
Duże zbiory danych szkoleniowych dla popularnych modeli GPT i BERT reprezentują różnorodne i obszerne korpusy tekstowe, obejmujące miliardy słów i dotyczące szerokiego zakresu tematów oraz języków naturalnych i komputerowych. W ramach konkretnego przykładu w tabeli 1.1 zestawiłem zbiory danych wykorzystane do wstępnego szkolenia modelu GPT-3 — bazowego modelu dla pierwszej wersji ChatGPT.
Transformery kontra modele LLM
Współczesne modele LLM są oparte na architekturze transformera. Z tego względu pojęcia transformer i model LLM często są używane w literaturze jako synonimy. Należy jednak pamiętać, że nie wszystkie transformery są modelami LLM. Transformery można także wykorzystywać w zadaniach widzenia komputerowego. Ponadto nie wszystkie modele LLM są transformerami — istnieją modele LLM oparte na architekturach sieci rekurencyjnych i konwolucyjnych.
Główną motywacją stojącą za tymi alternatywnymi podejściami jest poprawa wydajności obliczeniowej LLM. To, czy te alternatywne architektury LLM mogą konkurować z możliwościami modeli LLM opartych na transformerach i czy ostatecznie się przyjmą, dopiero się okaże. Dla uproszczenia terminu „LLM” będę używać w odniesieniu do podobnych do GPT modeli LLM opartych na transformerach.
Dzięki ogromnej skali i różnorodności zestawu danych modele zyskują zdolność radzenia sobie z wieloma różnorodnymi wyzwaniami. Potrafią analizować składnię, rozumieją znaczenie i kontekst języka, a nawet potrafią sprostać zadaniom wymagającym szerszej wiedzy o świecie.
Modele, które wstępnie przeszkolono, są niezwykle wszechstronne i łatwo można je dostosować do różnych zadań. Z tego względu nazywa się je modelami bazowymi lub podstawowymi. Wstępne szkolenie modeli LLM wymaga dostępu do znacznych zasobów i jest bardzo kosztowne. Przykładowo koszt wstępnego szkolenia modelu GPT-3 z uwzględnieniem cen usług chmurowych oszacowano na 4,6 miliona dolarów (https://mng.bz/VxEW). Na szczęście do pisania, wyodrębniania i edytowania tekstów, które nie były częścią danych szkoleniowych, można wykorzystać narzędzia ogólnego przeznaczenia oraz wiele wstępnie przeszkolonych modeli LLM typu open source. Ponadto modele LLM można precyzyjnie dostroić do określonych zadań z użyciem znacząco mniejszych zbiorów danych, co zmniejsza ilość potrzebnych zasobów obliczeniowych i poprawia wydajność.
6. Szczegóły architektury modeli GPT
Model GPT po raz pierwszy przedstawiono w artykule Improving Language Understanding by Generative Pre-Training (https://mng.bz/x2qg), opracowanym przez zespół Radford et al. z firmy OpenAI. GPT-3 to skalowana wersja tego modelu, która ma więcej parametrów i została przeszkolona na większym zbiorze danych. Ponadto oryginalny model oferowany w systemie ChatGPT stworzono przez dostrojenie modelu GPT-3 na dużym zbiorze danych z użyciem metody opisanej w opublikowanym przez firmę OpenAI artykule InstructGPT (https://arxiv.org/abs/2203.02155). Jak pokazałem na rysunku 1.6, modele te są zdolne do wykonywania zadań uzupełniania tekstu, a także innych, takich jak korekta pisowni, klasyfikacja i tłumaczenia. To niezwykłe, zważywszy na to, że modele GPT wstępnie przeszkolono na stosunkowo prostym zadaniu przewidywania następnego słowa.
W zadaniu wstępnego szkolenia modeli GPT w przewidywaniu następnego słowa system uczy się przewidywać kolejne słowo w zdaniu na podstawie słów, które pojawiły się przed nim. Takie podejście pomaga modelowi zrozumieć, w jaki sposób w języku zazwyczaj pasują do siebie słowa i frazy. To jest podstawa, którą można zastosować do różnych innych zadań.
Zadanie przewidywania następnego słowa jest formą uczenia samonadzorowanego, które jest rodzajem samodzielnego znakowania. Oznacza to, że nie ma potrzeby jawnego wybierania etykiet dla danych szkoleniowych, a do tego celu można wykorzystać strukturę samych danych. Następne słowo w zdaniu lub dokumencie może posłużyć jako etykieta, którą model powinien przewidzieć. Ponieważ zadanie przewidywania następnego słowa pozwala tworzyć etykiety „w locie”, do szkolenia modeli LLM można użyć ogromnej liczby nieoznakowanych zbiorów danych tekstowych.
W porównaniu z architekturą Original Transformer, którą omówiłem w podrozdziale 1.4, ogólna architektura modelu GPT jest stosunkowo prosta. W istocie jest to sam dekoder, bez kodera (rysunek 1.8). Ponieważ modele typu „sam dekoder”, takie jak GPT, generują tekst przez przewidywanie tekstu po jednym słowie na raz, uważa się je za rodzaj modelu autoregresyjnego. Modele autoregresyjne wykorzystują swoje poprzednie wyniki jako dane wejściowe do przyszłych prognoz. W rezultacie w modelu GPT każde nowe słowo jest wybierane na podstawie poprzedzającej je sekwencji, co poprawia spójność wynikowego tekstu.
Takie architektury jak GPT-3 są również znacznie obszerniejsze od modelu Original Transformer. Na przykład w architekturze Original Transformer bloki kodera i dekodera były powielone sześciokrotnie. Model GPT-3 ma 96 warstw transformerów i łącznie 175 miliardów parametrów. Model GPT-3 wprowadzono w 2020 roku, co według standardów uczenia głębokiego i rozwoju modeli LLM uznaje się za odległą przeszłość. Jednak nowsze architektury, takie jak modele Llama firmy Meta, nadal opierają się na tych samych podstawowych pojęciach i wprowadzono w nich jedynie niewielkie modyfikacje. W związku z tym zrozumienie modeli GPT nadal jest bardzo istotne. Z tego powodu skupię się na zaimplementowaniu istotnej architektury modelu GPT, a jednocześnie wskażę konkretne poprawki zastosowane w alternatywnych modelach LLM. Chociaż model Original Transformer, składający się z bloków kodera i dekodera, pierwotnie zaprojektowano do tłumaczenia języków, modele GPT — pomimo ich obszerniejszej, ale prostszej architektury „tylko dekoder”, której celem jest przewidywanie następnego słowa — również są zdolne do wykonywania zadań tłumaczeniowych. Ta zdolność była początkowo zaskoczeniem dla badaczy, ponieważ wyłoniła się z modelu przeszkolonego głównie w przewidywaniu następnego słowa, czyli zadaniu, które nie było specjalnie ukierunkowane na tłumaczenie.
Zdolność modelu do wykonywania zadań, do których specjalnie go nie szkolono, nazywa się zachowaniem emergentnym. Zdolność ta nie jest wyraźnie nauczana podczas szkolenia, ale pojawia się jako naturalna konsekwencja ekspozycji modelu na ogromne ilości wielojęzycznych danych w różnych kontekstach. Fakt, że modele GPT mogą „uczyć się” wzorców tłumaczeń między językami i wykonywać zadania tłumaczeniowe, nawet jeśli nie zostały do tego specjalnie przeszkolone, pokazuje korzyści i możliwości tych wielkoskalowych, generatywnych modeli językowych. Za ich pomocą można wykonywać różne zadania bez konieczności używania różnych modeli do różnych typów zadań.
Podsumowanie
- Modele LLM znacząco zmieniły dziedzinę przetwarzania języka naturalnego, w której wcześniej wykorzystywano głównie systemy oparte na jawnych regułach i prostszych metodach statystycznych. Wraz z modelami LLM pojawiły się nowe podejścia oparte na uczeniu głębokim, co pozwoliło osiągnąć postępy w zakresie rozumienia, generowania i tłumaczenia ludzkiego języka.
- Szkolenie współczesnych modeli LLM przebiega w dwóch głównych etapach:
- Po pierwsze, wstępnie szkoli się je na dużym korpusie nieoznakowanego tekstu, z wykorzystaniem w roli etykiety prognozy następnego słowa w zdaniu.
- Następnie dostraja się je na docelowym, mniejszym i oznakowanym, zbiorze danych pod kątem postępowania według instrukcji lub wykonywania zadań klasyfikacji.
- Modele LLM są oparte na architekturze transformera. Kluczowym komponentem architektury transformera jest mechanizm uwagi, który podczas generowania wyjścia po jednym słowie na raz daje modelowi LLM selektywny dostęp do całej sekwencji wejściowej.
- Architektura Original Transformer składa się z kodera do parsowania tekstu i dekodera do generowania tekstu.
- Modele LLM do generowania tekstu i wykonywania instrukcji, takie jak GPT-3 i ChatGPT, implementują tylko moduły dekodera, co upraszcza architekturę.
- Do wstępnego szkolenia modeli LLM niezbędne są duże zbiory danych, składające się z miliardów słów.
- Podczas gdy ogólnym zadaniem szkolenia wstępnego dla modeli podobnych do GPT jest przewidywanie następnego słowa w zdaniu, te modele LLM wykazują właściwości emergentne, takie jak zdolność do klasyfikowania, tłumaczenia lub tworzenia streszczeń dokumentów.
- W wyniku wstępnego przeszkolenia modelu LLM powstaje model podstawowy, który można bardziej efektywnie dostroić do różnych zadań końcowych.
- Modele LLM precyzyjnie dostrojone na niestandardowych zestawach danych mogą w określonych zadaniach przewyższać wydajnością uniwersalne modele LLM.
Sebastian Raschka
Autor książki Stwórz własne AI. Jak od podstaw zbudować duży model językowy