20.04.2024 JPM Redakcja

Jak wytrenować Duży Model Językowy? Nowa technika pozwala przyspieszyć ten proces

Nie jest tajemnicą, że zbudowanie dużego modelu językowego LLM (ang. Large Language Model) wymaga ogromnych ilości danych. W konwencjonalnym procesie treningowym LLM jest zasilany ogromną ilością tekstu i stymulowany do odgadywania każdego słowa przed jego pojawieniem się. Przy każdym przewidywaniu, LLM dokonuje niewielkich korekt, aby zwiększyć swoje szanse na prawidłowe odgadnięcie. Końcowym rezultatem jest coś, co ma pewne statystyczne „zrozumienie” tego, co jest właściwym językiem, a co nie.

Tej najnowsza technika może przyspieszyć proces wytrenowania Dużego Modelu Językowego. Zdjęcie: alberto miranda.

Jednakże LLM, który został poddany jedynie tak zwanemu „wstępnemu szkoleniu”, nie jest zbyt użyteczny. Na przykład na pytanie o żart, który rozweseliłby korespondenta, poddany wstępnemu szkoleniu model gpt-2 po prostu powtórzył pytanie trzy razy. Zapytany, kto jest amerykańskim prezydentem, odpowiedział: „Odpowiedź brzmi nie. Prezydent nie jest prezydentem”. Najwyraźniej nauczenie algorytmu, by robił to, czego chcą ludzie, wymaga czegoś więcej.

Jednym ze sposobów na dostosowanie tego typu modeli do oczekiwań użytkowników jest metoda uczenia się ze sprzężeniem zwrotnym (ang. reinforcement learning from human feedback, RLHF). Openai, amerykański startup, wprowadził tę technikę w przedruku opublikowanym w marcu 2022 roku. Technika ta była głównym składnikiem przepisu na platformę Chatgpt, która została udostępniona osiem miesięcy później.

RLHF obejmuje zazwyczaj trzy etapy. Najpierw ochotnicy są proszeni o wybranie, która z dwóch potencjalnych odpowiedzi LLM może lepiej pasować do danej wskazówki. Następnie czynność ta jest powtarzana wiele tysięcy razy. Ten zestaw danych jest następnie wykorzystywany do szkolenia drugiego modelu LLM, który w efekcie zastępuje człowieka. Ten tak zwany „nagradzający” model, zaprojektowany do przypisywania lepszych rezultatów do odpowiedzi, które spodobałyby się człowiekowi, a gorszych do wszystkich innych, jest następnie wykorzystywany do szkolenia oryginalnego modelu LLM. Na koniec, technika uczenia maszynowego zwana uczeniem wzmacniającym dostosowuje ustawienia oryginalnego LLM, aby pomóc wzmocnić zachowania, które skutkują otrzymaniem nagrody.

Ten sposób tworzenia RLHF jest dość skomplikowany — korzystanie z dwóch oddzielnych algorytmów wymaga czasu i pieniędzy, a algorytm używany do uczenia ze sprzężeniem zwrotnym jest, cytując Rafaela Rafailova z Uniwersytetu Stanforda, „dość bolesny”. Oznacza to, że poza Openai, Google i ich rywalami, nikt tak naprawdę nie wykorzystał pełnego potencjału tego rozwiązania.

Teraz okazuje się, że te same wyniki można osiągnąć przy niewielkim nakładzie pracy. Dr Rafailov i jego koledzy, w tym Archit Sharma i Eric Mitchell, zaprezentowali tę alternatywę w grudniu 2023 r. na Neurips, konferencji poświęconej sztucznej inteligencji. Ich metoda, bezpośrednia optymalizacja preferencji (eng. Direct Preference Optimisation, DPO), opiera się na pewnym triku matematycznym.

Trik ten opiera się na obserwacji, że dla każdego modelu premiowania zachowań istnieje konkretny teoretyczny LLM, który otrzyma najlepsze oceny, a każdy LLM ma również teoretyczny model premiowania, który da mu najwyższe noty (Podobnie jak, mówiąc bardziej prozaicznie, dla każdej pary spodni teoretycznie istnieje osoba, na której będą one idealnie leżeć, oraz dla każdej osoby teoretycznie istnieje, para idealnie pasujących spodni). To spostrzeżenie, zgodnie z którym każdy LLM kryje w sobie domyślny model nagrody, pozwoliło badaczom bezpośrednio manipulować tym modelem. W starym systemie LLM uczył się z modelu nagrody, który z kolei uczył się z analizy danych. Teraz LLM potrafi uczyć się bezpośrednio z danych.

Według autorów, usunięcie pośrednika sprawia, że DPO (Bezpośrednia Optymalizacja Preferencji — przyp. tłum.) jest od trzech do sześciu razy bardziej wydajne niż RLHF i jest w stanie osiągać lepsze wyniki przy wykonywaniu zadań takich jak streszczanie tekstu. Jego łatwość użycia już teraz pozwala mniejszym firmom uporać się z problemem dopasowania, mówi dr Sharma. Rok temu tylko kilka wiodących na świecie modeli, takich jak Gemini firmy Google i gpt-4 firmy Openai, mogło sobie pozwolić na korzystanie z RLHF. Jednakże od 12 marca osiem z dziesięciu najwyżej sklasyfikowanych modeli w rankingu branżowym korzystało z DPO. Mistral, francuski startup usiłujący rywalizować z Openai, używa tego rozwiązania. Meta, gigant mediów społecznościowych, zintegrował go z własnym systemem LLM.

Z pewnością pojawią się dalsze ulepszenia. Po pierwsze, panuje zgodna opinia, zgodnie z którą duże laboratoria sztucznej inteligencji dokonały ulepszeń w swoich zastrzeżonych algorytmach, odkąd przestały publikować szczegóły w 2022 roku. Jednak problem skłonienia sztucznej inteligencji do zrobienia tego, czego chciałby i oczekiwałby człowiek, jest daleki od rozwiązania. W końcu nawet inni ludzie czasami mają z tym problem.

Dział: Technologia

Autor:
The Economist| Tłumaczenie: Krzysztof Morys

Źródło:
https://www.economist.com/science-and-technology/2024/03/13/how-to-train-your-large-language-model