ChatGPT w odstawkę? Nowy model językowy z Krakowa lepiej rozumie polskie realia

ChatGPT w ostatnich miesiącach robi spektakularną karierę na całym świecie. Niektórzy przy jego pomocy piszą prace dyplomowe, streszczają artykuły, szukają wiadomości na konkretny temat. Jego popularność może jednak zmaleć, dzięki Bielikowi! Pod koniec sierpnia pojawiła się nowa wersja modelu językowego, który operuje wyłącznie na danych w języku polskim i do szkolenia którego wykorzystano superkomputery z krakowskiej AGH.
Gmach Główny Akademii Górniczo-Hutniczej / źródło: Andrzej Otrębski, Wikimedia Commons, CC BY-SA 3.0

Gmach Główny Akademii Górniczo-Hutniczej / źródło: Andrzej Otrębski, Wikimedia Commons, CC BY-SA 3.0

Pod koniec sierpnia została udostępniona nowa wersja polskiego modelu językowego Bielik-11B-v2, który generuje teksty na podstawie ogromnej bazy polskiej literatury – czytamy w komunikacie prasowym Akademii Górniczo-Hutniczej w Krakowie. Do treningu Bielika wykorzystano najszybsze obecnie superkomputery w Polsce – Heliosa i Athenę, które działają przy krakowskiej uczelni.

Czytaj też: Polacy będą mieć własny ChatGPT. Nazywa się jak kura i lepiej zna język polski

Bielik-11B-v2 powstał dzięki kooperacji dwóch zespołów – z Fundacji SpeakLeash i Akademickiego Centrum Komputerowego Cyfronet AGH. Model językowy należy do kategorii LLM (ang. Large Language Models). Posiada aż 11 miliardów parametrów. Najnowsza wersja jest obecnie utrzymywana w domenie publicznej, działa na zasadzie open source, a jej twórcy wciąż ją udoskonalają.

Pod koniec sierpnia pojawiła się nowa wersja modelu językowego opartego na tekstach wyłącznie w języku polskim

Bielik-11B-vs to nowy model językowy, który wyszkolono na superkomputerach w Krakowie

Czy są jakieś różnice pomiędzy popularnym ChatGPT a polskim Bielikiem? Pod względem wielkości zasobów wykorzystywanych przez rodzimy model nie możemy tutaj w ogóle konkurować z zagranicznymi odpowiednikami. Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy przyznaje, że „o ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. W związku z tym ma nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury.”

Czytaj też: Nothing integruje swoje smartfony z ChatGPT. Wystarczy zainstalować najnowszą aktualizację

Co więcej, model należący do firmy OpenAI słabo sobie radzi w przypadku pisania bardziej skomplikowanych tekstów prawniczych czy medycznych. Bielik-11B-v2 pod tym względem doskonale się orientuje w polskich realiach. Zdaniem twórców, w przyszłości sprawdzi się jako sprawne narzędzie do streszczania treści. W tym momencie jest on już wyszkolony do działania w obszarze nauki i biznesu. Niewykluczone, że znajdzie także zastosowanie w komunikacji z użytkownikami podczas obsługi zgłoszeń w helpdesku – dodaje Szymon Mazurek z ACK Cyfronet AGH.

Czytaj też: Polska odpowiedź na ChatGPT. Co oferuje rozwiązanie SentiOne?

Polski wynalazek nie jest jedynym na świecie tego typu modelem LLM bazującym na tekstach w jednym języku. Naukowcy doskonale zdają sobie sprawę, że podobne działania są prowadzone w wielu krajach na świecie. Uruchamiając Bielika, wzmacniamy także pozycję Polski w obszarze innowacji w sektorze sztucznej inteligencji.