Skąd biorą się dane, które uczą sztuczną inteligencję?

Bez danych sztuczna inteligencja nie ma możliwości rozwoju. Każdy model językowy, system rekomendacji czy narzędzie oparte na uczeniu maszynowym powstaje dzięki ogromnym zbiorom informacji, z których AI „uczy się” rozpoznawać wzorce, zależności i znaczenia.

Przez lata dostęp do danych wydawał się nieograniczony. Internet był kopalnią tekstów i obrazów, które można było analizować i przetwarzać. Dziś jednak coraz częściej mówi się o tym, że ten czas dostępności danych się kończy. Wysokiej jakości, różnorodne i legalnie pozyskane dane stają się coraz trudniejsze do zdobycia, a z drugiej strony ich rola w rozwoju AI rośnie coraz szybciej.

Wiedza, skąd pochodzą dane, jak są gromadzone i jakie wyzwania stoją przed naukowcami, to klucz do zrozumienia, w jakim kierunku zmierza rozwój sztucznej inteligencji.

Skąd biorą się dane do trenowania modeli AI?

Zanim modele językowe osiągnęły dzisiejszy poziom zaawansowania, ich rozwój był przede wszystkim kwestią dostępu do danych. Pierwsze systemy uczenia maszynowego bazowały na stosunkowo niewielkich, ściśle przygotowanych zbiorach tekstów, np. korpusach językowych.

Wraz z popularyzacją głębokiego uczenia i rosnącą mocą obliczeniową, modele zaczęto trenować nie na tysiącach, lecz na miliardach słów. W tej fazie rozwoju pojawiły się pierwsze duże zbiory danych pobierane z internetu. Jednym z najczęściej wykorzystywanych był i nadal jest Common Crawl, czyli publiczne archiwum miliardów stron internetowych, aktualizowane co miesiąc. 

Kolejnym krokiem było pojawienie się inicjatyw otwartych datasetów, tworzonych przez społeczność. W 2021 roku zespół z EleutherAI udostępnił The Pile – zestaw danych zaprojektowany specjalnie do trenowania dużych modeli językowych. Składał się z różnych źródeł: tekstów naukowych, literatury, forów internetowych, kodu źródłowego i publikacji. The Pile wyznaczył nowy standard przejrzystości i różnorodności danych, stając się fundamentem dla wielu projektów typu open source.

W kolejnych latach powstały jeszcze bardziej złożone projekty, takie jak RefinedWeb czy RedPajama, które oprócz danych z internetu zawierały także mechanizmy oczyszczania, deduplikacji i filtrowania toksycznych treści. Ich celem było stworzenie jakościowo lepszych datasetów, bardziej zgodnych z zasadami etyki.

Obok ogólnych archiwów istnieją wyspecjalizowane zestawy do konkretnych zadań (np. medycznych, prawniczych czy technicznych), a coraz większą rolę odgrywają dane syntetyczne, generowane przez inne modele. Wraz z tym rośnie znaczenie jakości, odpowiedzialności i transparentności w procesie tworzenia datasetów.

Otwarte i zamknięte datasety

W rozwoju sztucznej inteligencji używa się dwóch typów zbiorów danych: z jednej strony mamy otwarte zbiory, dostępne publicznie dla badaczy i społeczności open source, a z drugiej zamknięte, budowane i chronione przez duże firmy komercyjne. Oba podejścia mają swoje zalety, ograniczenia i różne konsekwencje dla AI.

W przypadku otwartych datasetów, takich jak wcześniej wspomniane The Pile, RedPajama czy LAION, każdy może sprawdzić ich źródła, strukturę i sposób przetwarzania danych. Taka otwartość sprzyja rozwojowi, ponieważ umożliwia niezależnym zespołom eksperymentowanie z modelami językowymi i wspólne ulepszanie datasetów. Dzięki temu społeczność może łatwiej wykrywać błędy, uprzedzenia czy treści niepożądane. W efekcie otwarte dane stały się fundamentem dla rozwoju otwartych modeli językowych, takich jak LLaMA, Falcon czy Mistral.

Firmy takie jak OpenAI czy Anthropic tworzą zamknięte datasety i inwestują w licencjonowane dane, pozyskiwane np. od wydawców książek, serwisów prasowych czy platform edukacyjnych. Dostęp do takich zasobów pozwala im tworzyć modele bardziej spójne i bezpieczne. Jednak brak jawności budzi pytania o odpowiedzialność, ponieważ nie wiadomo dokładnie, jakie treści wykorzystano ani czy nie naruszono praw autorskich.

W praktyce granica między otwartymi a zamkniętymi datasetami może się też zacierać. Wiele firm i instytucji badawczych łączy oba podejścia, czyli korzysta z publicznych zbiorów, ale wzbogaca je o dane pozyskane na zasadach komercyjnych. Takie strategie pozwalają zachować równowagę między jakością a przejrzystością, choć nie rozwiązują wszystkich problemów etycznych i prawnych.

Wyczerpywanie się zasobów danych

Sztuczna inteligencja stoi przed poważnym ograniczeniem, ponieważ może się okazać, że publicznie dostępne dane tekstowe wysokiej jakości nie wystarczą na dalszy rozwój modeli. Według analizy Epoch AI, publiczne teksty generowane przez ludzi zostaną całkowicie wykorzystane. Jeśli tempo wzrostu zapotrzebowania na dane się utrzyma, to całkowite zużycie istniejących zasobów może nastąpić między 2026 a 2032 rokiem.

W odpowiedzi na ten problem rośnie zainteresowanie danymi syntetycznymi, czyli generowanymi przez modele AI. Jednak to rozwiązanie nie jest wolne od ryzyka. Jednym z zagrożeń jest model collapse, czyli zjawisko, w którym model uczący się na własnych danych stopniowo traci różnorodność i zaczyna powtarzać błędy lub uproszczenia.

„Demystifying Synthetic Data in LLM Pre-training”, jedno z najnowszych badań w tym obszarze, pokazuje, że choć użycie części danych syntetycznych (np. 30%) może przyspieszyć proces treningu, stosowanie ich w nadmiarze może prowadzić do pogorszenia jakości pracy modelu.

Dbanie nie tylko o ilość, ale też o jakość, oryginalność i transparentność danych staje się jednym z kluczowych wyzwań przyszłości AI.

Nowe strategie pozyskiwania danych

W ostatnich latach firmy i zespoły badawcze zaczęły testować różne sposoby tworzenia zbiorów danych, nie polegając już tylko na klasycznych źródłach internetowych.

Jednym z kierunków rozwoju jest tworzenie wyspecjalizowanych zbiorów tematycznych, np. medycznych, prawniczych czy technicznych. Pozwalają one trenować mniejsze modele dostosowane do konkretnych przypadków użycia. Przykład to m.in. zbiory zbudowane na podstawie PubMed dla danych medycznych.

Rozwija się również trend tzw. curated datasets, czyli zbiorów danych tworzonych w sposób kontrolowany i celowy, w odróżnieniu od masowo pozyskiwanych treści z Internetu. Zamiast gromadzić ogromne ilości surowych danych, zespoły badawcze selekcjonują materiały pod kątem jakości, wiarygodności źródła czy różnorodności tematycznej. Tego typu podejście ma na celu redukcję błędów czy uprzedzeń, które często występują w otwartych zbiorach danych. 

Coraz większą rolę odgrywają również dane syntetyczne, czyli generowane przez same modele. Choć to podejście obciążone jest ryzykiem, o którym wspominaliśmy wcześniej, dobrze zaprojektowany system łączenia danych syntetycznych i rzeczywistych pozwala obniżyć koszty i przyspieszyć rozwój modeli.

Kolejnym obiecującym kierunkiem jest pozyskiwanie danych poprzez interakcję z użytkownikiem. Modele uczą się z rozmów, poprawek i ocen wykonanych przez ludzi lub inne modele (dzięki metodom trenowania takim jak RLHF – Reinforcement learning from human feedback, czy RLAIF – Reinforcement learning from AI feedback), dzięki czemu modele dają wyniki coraz lepszej jakości.

Etyka w kontekście zbiorów danych dla AI

Wraz z rozwojem dużych modeli językowych coraz częściej pojawia się pytanie czy dane, które są używane do treningu modeli, są etyczne i spełniające wymogi prawne. Trening opiera się często na ogromnych zbiorach z internetu, a wśród nich mogą znajdować się dane osobowe, treści objęte prawem autorskim czy materiały zawierające uprzedzenia.

Dlatego w branży AI coraz więcej mówi się o odpowiedzialnym zarządzaniu danymi. Obejmuje to dokumentowanie ich źródeł i ograniczeń. W Europie znaczenie tego podejścia podkreśla AI Act, który zobowiązuje twórców modeli do zachowania większej przejrzystości i możliwości kontroli datasetów.

Nie chodzi tu jednak wyłącznie o regulacje prawne. Dane mają ogromny wpływ na zachowanie modeli. Błędne lub stronnicze źródła mogą prowadzić do powielania stereotypów i niepoprawnych wniosków. Dlatego inicjatywy takie jak wspomniane już wcześniej LAION czy The Pile promują otwarte standardy dokumentacji, które pomagają zrozumieć, jak dane wpływają na wyniki modelu.

Przejrzystość danych staje się dziś jednym z najważniejszych kryteriów odpowiedzialnego rozwoju AI, równie istotnym jak wydajność czy skala modeli.

Podsumowanie

Zbiory danych są ważnym elementem rozwoju modeli sztucznej inteligencji. Zmiany w tworzeniu datasetów pokazują, że jakość informacji stoi na równi z mocą obliczeniową. To, na czym modele się uczą, w dużym stopniu decyduje o ich zdolności do rozumowania i wnioskowania.

Możliwe, że w nadchodzących latach kluczowe znaczenie będzie miała transparentność i kontrola nad danymi. Twórcy modeli, organy prawne i społeczność badawcza dążą do wypracowania wspólnych standardów, które pozwolą rozwijać AI w sposób odpowiedzialny.