Nowe modele językowe z rodziny Bielik – v2.5 (11B), v3 (4.5B i 1.5B)

6 i 7 maja 2025 roku, podczas prestiżowego wydarzenia GOSIM AI Spotlight w Paryżu, wśród dziesięciu najbardziej obiecujących projektów open-source z całego świata, wyróżniono polski projekt Bielik – rodzinę modeli językowych rozwijaną przez społeczność SpeakLeash we współpracy z ACK Cyfronet AGH. To wydarzenie stało się okazją do prezentacji trzech nowych wersji Bielika: Bielik v2.5 (11B) oraz Bielik v3 w wariantach 1.5B i 4.5B. Prezentację tych wersji można obejrzeć tutaj. Warianty Bielika w wersji 3 są już dostępne na Hugging Face, natomiast Bielik v2.5 będzie opublikowany 06.06.2025.

Nowe wersje Bielika pokazują zmianę podejścia: od trenowania dużych modeli, do projektowania efektywnych architektur zoptymalizowanych pod konkretne zastosowania. W tym artykule przyjrzymy się bliżej temu, co dokładnie zmieniło się w nowych modelach i jakie mogą mieć zastosowania.

Skąd wziął się Bielik?

Pisaliśmy już o tym w naszych wcześniejszych publikacjach, ale przypomnijmy, że Bielik to polski model językowy typu open-source, rozwijany w ramach społecznościowego projektu SpeakLeash, we współpracy z zespołem z ACK Cyfronet AGH. Projekt powstał z potrzeby stworzenia narzędzia, które będzie rozumiało i generowało teksty w języku polskim – bez konieczności opierania się wyłącznie na zagranicznych modelach niedostosowanych do lokalnych kontekstów.

Od samego początku Bielik był budowany przez pasjonatów, którzy wierzyli, że Polacy również mogą mieć własny, nowoczesny model językowy. Kolejne wersje Bielika zyskały popularność w środowisku badawczym i technologicznym, a sam projekt stał się symbolem otwartości, współpracy i technologicznej niezależności.

Bielik v2.5

Bielik v2.5 (11B parametrów) – to pierwszy model w tej rodzinie, który nie tylko rozumie i generuje tekst, ale także został zaprojektowany z myślą o wykorzystaniu w bardziej złożonych zastosowaniach.

Najważniejszą nowością w wersji 2.5 jest wprowadzenie eksperymentalnych funkcji wnioskowania (reasoning), które pozwalają modelowi lepiej łączyć fakty, analizować zależności i podejmować decyzje na podstawie danych wejściowych. Bielik v2.5 potrafi dzięki temu wspomagać procesy analizy czy automatyzacji zadań.

Kolejną nowością jest obsługa formatów strukturalnych, np. JSON czy Markdown, co znacząco zwiększa możliwości integracji modelu z różnorodnymi aplikacjami. Model „rozumie”, że ma wygenerować plik w określonym formacie.

Nie mniej ważna jest też integracja z zewnętrznymi narzędziami – twórcy Bielika testują rozwiązania, które pozwolą modelowi „wywoływać” określone funkcje, np. pobierać dane z API czy wywoływać akcje w systemie. To właśnie dlatego mówi się o agent readiness – przygotowaniu modelu do pracy jako komponent autonomicznego agenta.

Bielik v3 (1.5B, 4.5B)

Bielik 3 to linia modeli językowych zaprojektowana z myślą o większej elastyczności, niższym zużyciu zasobów i możliwości szerszego wdrażania w konkretnych zastosowaniach. W ramach tej serii zaprezentowano dwa modele: 1.5B i 4.5B parametrów. Wielkość tych modeli sprawia, że mogą być uruchamiane na sprzęcie z niewielkimi zasobami. Warto zaznaczyć, że zespół SpeakLeash planuje rozwinąć tę rodzinę modeli o opcje z większą ilością parametrów.

Najważniejszą nowością w porównaniu do wcześniejszych generacji jest nowa architektura modelu, która została przystosowana do bardziej efektywnego uczenia i generowania odpowiedzi. W Bieliku 3 wprowadzono także nowy tokenizer – narzędzie odpowiedzialne za przetwarzanie tekstu wejściowego na formę zrozumiałą dla modelu. Dzięki temu poprawiono jakość generowanych wypowiedzi i zwiększono kompatybilność z danymi w języku polskim.

Obie wersje modelu Bielik 3 zostały zoptymalizowane pod kątem agent readiness, co oznacza, że są gotowe do pełnienia roli komponentów w bardziej złożonych systemach – takich jak chatboty czy narzędzia wspomagające pracę biurową. 

Przykłady użycia nowych modeli Bielik

Nowe modele Bielik to narzędzia, które znajdą zastosowania w wielu konkretnych zadaniach. W tej sekcji pokażemy wam przykłady, jak te modele są już wykorzystywane w praktyce.

Bielik w wersji 2.5 został przetestowany pod kątem korekty dokumentów, gdy te zawierają błędy i są przykładowo źle sformatowane po OCR. Model poprawia błędy, formatowanie i usuwa niepotrzebne elementy tekstu.

Poniższa grafika przedstawia przykład tekstu przed korektą wykonaną za pomocą Bielika v2.5:

Natomiast kolejna przedstawia ten sam tekst po korekcie przeprowadzonej przez ten model:

Taka umiejętność modelu jest niezwykle ważna – może znacząco skrócić czas pracy nad poprawkami w tekście, szczególnie, jeśli ktoś ma ogromne ilości dokumentów do poprawy.

Innym przykładem wykorzystania modelu do korekty tekstu jest użycie poprzedniej wersji Bielika – v2.3 – do czyszczenia zestawu danych treningowych użytych do wytrenowania modeli w wersji 3 (opisano to w sekcji 4.2 Data Recycling: Improving Imperfect Texts for Inclusion raportu technicznego Bielika v3 Small).

Bielik v2.5 może być też z powodzeniem zintegrowany z naszą aplikacją Matena Analyzer analizującą i indeksującą treści audio i wideo – może być w niej użyty do generowania opisów, podsumowań, etykiet, słów kluczowych, tagów czy określania sentymentu w materiałach klienta.

Poniżej możecie zobaczyć przykład tagów i etykiet wygenerowanych przez model językowy w Matenie Analyzer:

Kolejna grafika przedstawia przykład podsumowania materiału audio na podstawie transkrypcji:

Modele Bielik były też testowane w zadaniach związanych z prawem przez twórców systemu Gaius-Lex, co zostało opisane w tym poście

Poniższa tabela przedstawia wyniki testów przeprowadzonych w celu ekstrakcji informacji:

Jak widać, modele Bielik osiągają najwyższe wyniki, szczególnie wersja 2.5 (wynik wynoszący ponad 98, a maksymalna wartość możliwa do osiągnięcia to 100 – co jest naprawdę imponujące).

Inny test przeprowadzony przez zespół Gaius-Lex polegał na klasyfikacji źródła – wyniki przedstawione są poniżej:

Modele z Gaius w nazwie to modele dotrenowane danymi prawniczymi. Model v3 1.5B (ostatni wiersz tabeli) uzyskał wynik (F1 score – 0.94) taki, jak niedotrenowane modele v2.2 i v2.3, które są 7 razy większe od modelu v3 1.5B. Model v2.3 uzyskał najlepszy wynik (0.95). 

Wyniki tego testu pokazują, że modele w wersji 3 są świetnie przystosowane do użycia po dotrenowaniu pod konkretne zadanie, a ich dodatkowym atutem są niewielkie rozmiary – mogą być uruchamiane bez potrzeby użycia ogromnych zasobów, co jest świetnym rozwiązaniem dla firm czy osób, które chcą wykorzystywać modele w ściśle określonych zadaniach czy obszarach.

Podsumowanie

Premiera modeli Bielik 2.5 oraz Bielik 3 (w wariantach 1.5B i 4.5B) to ważny krok w rozwoju polskich rozwiązań AI. Nowe architektury, wnioskowanie, obsługa danych strukturalnych i integracja z narzędziami zewnętrznymi sprawiają, że Bieliki są nie tylko nowoczesne, ale też praktyczne. Wykorzystywane m.in. w analizie dokumentów prawnych czy poprawie jakości tekstu, pokazują, że lokalnie rozwijane modele mogą z powodzeniem konkurować z globalnymi rozwiązaniami. To także dowód na to, że otwarta, zaangażowana społeczność może stworzyć coś naprawdę wartościowego – z myślą o konkretnych potrzebach użytkowników.