Artykuł pochodzi z wydania: Kwiecień 2024
Opublikowany w lipcu 2023 r. raport firmy McKinsey dotyczący potencjału ekonomicznego generatywnej sztucznej inteligencji (GAI) przewiduje wzrost globalnego rynku o 15 do 40% dzięki upowszechnieniu się tej technologii w ciągu następnych sześciu lat. Co ciekawe, trzy czwarte tego wzrostu ma pochodzić z czterech obszarów: obsługi klienta, marketingu, sprzedaży, IT oraz badań i rozwoju.
Generatywna sztuczna inteligencja to gałąź sztucznej inteligencji, która koncentruje się na tworzeniu nowych treści na podstawie istniejących danych. GAI może tworzyć realistyczne obrazy, teksty, dźwięki, filmy i inne rodzaje multimediów, które są prawie nie do odróżnienia od tych stworzonych przez człowieka.
Za generowanie treści odpowiadają duże modele językowe (LLM). Są one trenowane na ogromnych zbiorach danych tekstowych, takich jak książki, artykuły, strony internetowe, wpisy w mediach społecznościowych i inne. Na podstawie tych danych modele uczą się wzorców, struktur i reguł języka naturalnego i używają ich do generowania nowych tekstów. Duże modele językowe mogą również odpowiadać na pytania, podsumowywać i tłumaczyć teksty oraz wykonywać inne zadania, w tym takie, do których nie zostały bezpośrednio przeszkolone.
Praca z dużymi modelami językowymi odbywa się w języku naturalnym. Wysyłamy do nich prompty (instrukcje lub pytania), a model odsyła nam odpowiedzi. LLM-y z reguły dostępne są poprzez usługi sieciowe, które mogą dodatkowo modyfikować prompty użytkowników i odpowiedzi modeli. Zanim jednak zaczniemy korzystać z wybranych usług GAI, powinniśmy zdać sobie sprawę z ich ograniczeń i specyficznych zagrożeń, do których należą:
- gadatliwość – LLM-y mają tendencję do wielokrotnego powtarzania tych samych informacji w ramach dyskusji, a nawet pojedynczej odpowiedzi;
- niejednoznaczność – ogólność niektórych odpowiedzi sprawia, że są mało przydatne;
- niespójność – zdarza się, że modele zwracają różne, a nawet sprzeczne odpowiedzi na to samo, powtórzone pytanie;
- stronniczość – modele potrafią wyolbrzymiać różnice występujące w danych treningowych w sposób dyskryminujący określone grupy użytkowników oraz powtarzać występujące w tych danych skrajne opinie i uprzedzenia;
- skłonność do halucynowania – duże modele językowe nie rozumieją świata, ich wiedza sprowadza się do częstotliwości współwystępowania poszczególnych słów w danych treningowych, a wynikające z tej wiedzy umiejętności sprowadzają się do generowania kolejnych, najbardziej prawdopodobnych słów. Zdarza się więc, że model generuje odpowiedzi niepoprawne, bezsensowne, wymyślone lub niezwiązane z instrukcją użytkownika. To zagrożenie jest szczególnie poważne, bo takie odpowiedzi nadal brzmią bardzo prawdopodobnie i przekonująco.
Najpoważniejszymi zagrożeniami związanymi z używaniem usług GAI są:
- ryzyko ujawnienia poufnych danych niepowołanym osobom za pośrednictwem promptów. Wynika to z dwóch czynników:
- wiele usług używa promptów do uczenia kolejnych wersji swoich modeli. Atakujący używają odpowiednio skonstruowanych promptów do wydobycia od nich tych danych (Data Leaking);
- możliwości uzupełniania promptu użytkownika o dodatkowe instrukcje, na podstawie których model zwróci oryginalny prompt (Prompt Leaking);
- ryzyko modyfikacji oryginalnego promptu w taki sposób, aby udzielona przez model odpowiedź była niebezpieczna dla użytkownika (Indirect Prompt Injection) albo zawierała wrogi kod (Code Injection).
> CHATGPT
Usługa ChatGPT została udostępniona w listopadzie 2022 r., co zapoczątkowało ogólnoświatowy boom generatywnej sztucznej inteligencji. Usługa jest dostępna dla wszystkich zarejestrowanych użytkowników pod adresem chat.openai.com/chat.
Aby zmniejszyć ryzyko wycieku danych podczas korzystania z tej usługi, możemy wyłączyć historię promptów. W tym celu należy kliknąć nazwę użytkownika, wybrać opcję Settings/Data controls i wyłączyć opcję Chat history & training. ChatGPT jest usługą ogólnego przeznaczenia i choć może on pomóc informatykowi w codziennej pracy, np. poprzez pisanie skryptów konfigurujących urządzenia i aplikacje, generowanie instrukcji i dokumentacji, odpowiadanie na pytania techniczne, analizowanie kodu źródłowego czy też generowanie przykładowych danych, nie należy spodziewać się po nim precyzyjnych odpowiedzi.
Jedynym sposobem spersonalizowania odpowiedzi ChatGPT jest podanie niestandardowych instrukcji, które będą automatycznie dołączane do wszystkich promptów. W tym celu należy kliknąć nazwę użytkownika i wybrać opcję Customize ChatGPT. Możemy podać dwie takie instrukcje, każda o długości do 1500 znaków. Przykładowo jeśli chcemy, żeby ChatGPT wcielił się w rolę specjalisty ds. bezpieczeństwa, jedna z instrukcji może wyglądać następująco:
Jesteś specjalistą ds. bezpieczeństwa cybernetycznego i udzielasz wskazówek dotyczących zabezpieczania systemów cyfrowych, sieci i danych. Oferuj porady dotyczące najlepszych praktyk w zakresie ochrony przed zagrożeniami, podatnościami i naruszeniami. Udostępniaj rekomendacje dotyczące narzędzi, technik i zasad bezpieczeństwa oraz pomagaj użytkownikom być na bieżąco z najnowszymi trendami i osiągnięciami w tej dziedzinie.
[…]
Marcin Szeliga
Autor jest pracownikiem naukowym Uniwersytetu WSB Merito w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.