Artykuł pochodzi z wydania: Kwiecień 2023
Historia ChatGPT zaczyna się w OpenAI – organizacji zajmującej się badaniami i rozwojem sztucznej inteligencji. OpenAI postanowiło opracować system SI, który będzie mógł generować tekst na poziomie ludzkiego pisarza. Celem było stworzenie modelu językowego zdolnego do rozumienia kontekstu i generowania spójnych, logicznych odpowiedzi na zadane pytania lub tematy. Proces tworzenia wymagał wielu lat pracy i nauki i ostatecznie ChatGPT stał się jednym z najbardziej zaawansowanych modeli językowych na świecie.
Przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP) jest dziedziną sztucznej inteligencji (AI) odpowiedzialną za umożliwienie maszynom posługiwanie się językami ludzi, takimi jak angielski czy polski. NLP stosuje zasady lingwistyki, algorytmiki i matematyki do badania struktur i zasad używania języków. Przetwarzanie języka naturalnego uważane jest za jeden z najtrudniejszych problemów sztucznej inteligencji. Wynika to bezpośrednio z natury języka ludzkiego – żeby zrozumieć sens (intencję) wypowiedzi, nie wystarczy przeanalizować jej składni (syntaktyka) i znaczenia (semantyka). Oprócz rozumienia znaczenia słów konieczne jest poznanie kontekstu, w jakim zostały one użyte. Oznacza to, że język ludzki jest z natury niejednoznaczny i nieprecyzyjny, a więc trudny do opanowania przez maszyny.
> Historia modeli NLP
Pierwsze prace nad modelami NLP rozpoczęły się w latach 50. XX wieku. Początkowo próbowano zaimplementować modele eksperckie, czyli oparte na predefiniowanych regułach. Brak widocznych postępów w stworzeniu modeli zdolnych do automatycznego tłumaczenia zdania z jednego języka na drugi spowodował ograniczenie funduszy i zastój badań trwający aż do lat 80. XX wieku, kiedy to opracowano pierwsze statystyczne modele NLP.
Lata 1990–2010 przyniosły znaczący wzrost możliwości obliczeniowych komputerów. Pozwoliło to na stosowanie algorytmów uczenia maszynowego do przetwarzania języka naturalnego. W tym okresie zaczęły powstawać korpusy języków naturalnych, czyli liczbowe reprezentacje słów i wyreżeń poszczególnych języków takie jak model worka słów i model zanurzenia słów.
Od roku 2010 do przetwarzania języka naturalnego stosuje się głębokie sieci neuronowe. Początkowo dominowały sieci rekurencyjne, takie jak sieci LSTM. Nie potrafiły one jednak uchwycić zależności pomiędzy odległymi wyrażeniami, na przykład słowami występującymi na początku i na końcu zdania. Ograniczało to ich możliwości zrozumienia kontekstu, a w konsekwencji i sensu. Ponadto uczenie sieci rekurencyjnych wymaga wiele czasu, bo zrównoleglenie treningu jest trudne, a dodatkowo należy przenalizować wypowiedź w obu kierunkach – od początku do końca i od ostatniego wyrażenia do pierwszego. Problemy te z powodzeniem próbowano rozwiązać przy użyciu sieci konwolucyjnych. Jednak od roku 2017, kiedy to opublikowana została przełomowa praca „Attention Is All You Need” (dostępna pod adresem arxiv.org/abs/1706.03762), przetwarzanie języka naturalnego zdominowały modele typu transformer. Ich zasada działania polega na stworzeniu reprezentacji każdego słowa, następnie są one kodowane na podstawie pozostałych słów przy zastosowaniu mechanizmu automatycznej uwagi. Drugim etapem jest dekodowanie – na tym etapie generowane są kolejne słowa przy użyciu utworzonej wcześniej reprezentacji (więcej o transformerach możecie przeczytać w „IT Professional” 3/2023, s. 34). Mechanizm automatycznej uwagi nie tylko pozwala uwzględnić kontekst całej, dowolnie długiej wypowiedzi, ale również pozwala łatwo zrównoleglić uczenie modelu i w pełni wykorzystać moc obliczeniową akceleratorów GPU i TPU. Rezultatem są coraz większe modele NLP. Na przykład GPT-2 zawiera około 1,5 mld parametrów, a różne wersje modelu GPT-3 zawierają od 175 mld do 13,5 biliona parametrów. Kolejnym czynnikiem, który znacząco wpłynął na poprawę jakości modeli NLP, było zastosowanie technik nienadzorowanego uczenia maszynowego do wstępnego treningu na danych pochodzących z internetu. Wstępny trening ChatGPT został wykonany na korpusie WebText zawierającym ponad 8 mln dokumentów, z których każdy miał przynajmniej 20 słów (całkowita liczba słów w korpusie WebText wynosi ponad 40 miliardów). Teksty te zostały pobrane z publicznie dostępnych w internecie źródeł i obejmowały różnorodne tematy, takie jak artykuły encyklopedyczne, artykuły z gazet i czasopism, strony internetowe, blogi, opowiadania, wiersze i wiele innych.
[…]
Marcin Szeliga
Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.