„Modele językowe są jak dziecko”. Współtwórca PLLuM o rozwoju polskiej AI

Sztuczna inteligencja uczy się jak dziecko – najpierw gaworzy, potem chodzi do szkoły, a na końcu trzeba ją dobrze wychować. Tak właśnie rozwijane są modele językowe, w tym PLLuM – pierwszy otwarty polski model AI, który powstał z myślą o kulturze, języku i prawie nad Wisłą. O perspektywie i szansach rozwojowych polskiej sztucznej inteligencji opowiedział dr inż. Marek Kozłowski, który wygłosił prawie czterogodzinną prelekcję na krakowskim kampusie firmy Comarch.

Dr Marek Kozłowski przedstawił genezę rewolucji dużych modeli językowych, zdefiniował kluczowe pojęcia dla ich lepszego zrozumienia, podał taksonomię podziału modeli, opisał etapy budowy modeli językowych oraz omówił ich zastosowanie w różnych obszarach biznesowych. Naukowiec skoncentrował się na ewolucji, treningu i wyzwaniach modeli, ze szczególnym uwzględnieniem kontekstu języka polskiego oraz krajowych inicjatyw badawczych.

Naukowiec powiedział również o współtworzonym przez swoją organizację (AI Lab) PLLuM (Polish Large Language Model), który powstał dzięki współpracy sześciu podmiotów naukowych na zlecenie Ministerstwa Cyfryzacji.

Rozwiązanie to, zaprezentowane rynkowi zaledwie kilka miesięcy temu, szybko znalazło zastosowanie w biznesie. Jedną z pierwszych firm, która wdrożyła PLLuM-a, był Comarch. Wykorzystuje on model w swojej aplikacji ChatERP – inteligentnym asystencie użytkownika, który odpowiada za komunikację z systemem ERP.

Podczas wprowadzenia do świata LLMów słuchacze mogli się zapoznać z  dokładnym opisem pojęcia modelu językowego, oraz jego podkategorii, jak neuronowe modele językowe.

Model językowy jest jak czarna skrzynka, która dostaje na wejściu tekst, czyli sekwencje słów, i zwraca prawdopodobieństwo, że ta sekwencja jest prawidłowa. Na przykład zakładamy, że jeśli taka czarna skrzynka dostanie zbiór słów typu „mama karmi dziecko”, to uzna to za bardziej prawdopodobne zdarzenie, niż „szafa karmi dziecko” – tłumaczył dr Kozłowski.

Sztuczna inteligencja – etapy dojrzałości

Jak wskazał badacz, etapy uczenia się przez dany model językowy można porównać do rozwoju dziecka.

Nauka zaczyna się od pretreningu, czyli budowy modelu fundamentalnego; To przypomina nauczanie dziecka języka. Potem jest dostrajanie, uczymy model wykonywania pewnych instrukcji, poleceń, zadań. To tak, jakbyśmy wspomniane dziecko wysłali do szkoły i ono tam uczyło się dodawania, odejmowania, pisania wypracowań. No i w końcu jest wychowywanie, czyli wykorzystanie informacji zwrotnej z oceniania generowanych odpowiedzi, które uczy model np. unikania języka nieetycznego, złośliwego czy sarkastycznego – mówił dr Marek Kozłowski.

Jak akcentował, do zbudowania modelu AI potrzebne są ogromne ilości danych. Skąd je pozyskać?

Głównym zasobem danych w procesie pretreningu modeli językowych są olbrzymie wolumeny danych internetowych. Czyli mówiąc krótko: zbieramy z internetu wszystko, co jest w języku polskim a potem weryfikujemy, czy możemy tego użyć pod kątem licencji. Budowa takiego korpusu tekstów to bardzo skomplikowany proces polegający m.in. na filtracji jakościowej, deduplikacji, aby dane na końcu były jak najczystsze i unikalne. Najpierw musisz nabrać masy, a masę tę zapewniają dane z internetu, czyli pewnie jakieś 90 proc. całości korpusu – tłumaczył. 

Jednak nie każdą informację pobraną z internetu – jak podkreślał dr Kozłowski – można wykorzystywać do budowy modeli. Zaznaczył, że znowelizowana ustawa o prawach autorskich z września 2024 roku nakłada na wszystkich ograniczenia. W przypadku celów komercyjnych proces weryfikacji możliwości użycia danych jest dość skomplikowany. Jednostki naukowe mogą używać do trenowania modeli wszystkich danych z internetu, ale tylko do celów badawczych, niekomercyjnych. – Co więcej, od sierpnia tego roku wchodzi w życie unijny AI Act dotyczący LLM-ów ogólnego przeznaczenia. Jeśli jesteś dostawcą modeli, musisz się przygotować na audyty – stwierdził.

Polskie AI kontra globalne firmy

Dr Kozłowski podkreślił, że polskie modele językowe obecnie nie mogą równać się potencjałem z wielkimi korporacjami amerykańskimi, które inwestują miliardy dolarów w sztuczną inteligencję. Podczas gdy polski PLLuM użył na etapie pretreningu około 200 miliardów tokenów danych, Meta (do której należy m.in. Facebook czy Instagram i która rozwija własny model AI – Llama) pracowała na korpusie, który składał się z… 18 tysięcy miliardów tokenów.

Twórcy PLLuM-a skupili się przy rozwoju modelu przede wszystkim na adaptacji językowej. – W PLLuM-ie, zamiast uczyć model od zera – mieliśmy na to za mało danych – przeprowadziliśmy adaptację językową, douczając istniejące, głównie wielojęzykowe,  anglocentryczne modele na języku polskim, co dało zdecydowanie lepsze efekty. Dodatkowo, by nie zepsuć tak zdobytych kompetencji językowych, staraliśmy się aby zdecydowana większość instrukcji było tworzona ręcznie, a nie generowana z innych modeli  – powiedział.

Naukowiec uświadomił słuchaczom, że obcojęzyczne czy zagraniczne modele językowe mają wady związane z rozumieniem lokalnych kontekstów, związanych z językiem, historią czy geografią danego regionu.

Większość tych rozsądnej wielkości dużych modeli jest anglocentryczna lub chińskocentryczna, co prowadzi do braków kulturowo-historycznych i językowych, których przejawem są np. kalki w tekstach generowanych po polsku. Przykładowo: zapytajcie modele LLM o jakieś fakty z polskiej kultury czy historii – zdarzają się naprawdę ciekawe, ale niepoprawne odpowiedzi – mówił.

I dodał: – W Polsce nie możemy rywalizować na wielkość z globalnymi korporacjami, które wydają miliardy dolarów i używają dziesiątek tysięcy kart GPU [Graphics Processing Unit - przyp. red.]. Raczej skupiamy się na tworzeniu mniejszych modeli, które są tańsze w utrzymaniu, ale mają wysoką jakość władania językiem polskim i są potem specjalizowane pod konkretne zastosowania.

Dr Marek Kozłowski to kierownik AI Labu z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB), jednej z instytucji zaangażowanych w tworzenie PLLuM-a.