Sztuczna inteligencja jest dziś wszędzie, pisze teksty, tworzy obrazy, prowadzi samochody. Zanim jednak zacznie działać na takim poziomie, musi się wiele nauczyć. Wyobraź sobie AI jako wyjątkowo zdolnego ucznia, który na początku nie wie absolutnie nic. Wszystko, co potrafi, uczy się na podstawie danych, to one są jego podręcznikami i nauczycielami. Im więcej i lepszej jakości danych dostanie, tym lepsze będą jego umiejętności.

Jak małe dziecko poznaje świat i dlaczego AI robi to samo, tylko szybciej i na większą skalę

Wyobraź sobie małe dziecko, które uczy się rozpoznawać zwierzęta. Pokazujesz mu kota i mówisz “kot”. Potem innego kota, może rudego, może w ciapki, i znowu – “kot”. Potem pokazujesz psa i mówisz “pies”. Dziecko, widząc setki, może tysiące przykładów kotów i psów w różnych sytuacjach, kolorach i pozach, w końcu zaczyna rozumieć, co odróżnia jedno od drugiego. Zauważa futro, kształt uszu, ogon, sposób poruszania się.

AI działa na bardzo podobnej zasadzie, tylko na niewyobrażalnie większą skalę. Żeby nauczyć AI rozpoznawać koty na zdjęciach, musimy pokazać jej nie tysiące, ale miliony zdjęć z kotami (i miliony zdjęć bez kotów, żeby wiedziała, co kotem nie jest). Każde zdjęcie to dla AI kolejny “przykład”, kolejna lekcja. Analizuje piksele, kształty, tekstury i szuka wzorców – tych samych subtelnych cech, które pozwalają nam odróżnić mruczka od pieska. Bez ogromnej liczby przykładów, AI byłaby jak dziecko, które widziało tylko jednego pluszowego kota i myślałoby, że wszystkie koty są identyczne i nieruchome.

Świat nie jest czarno-biały a dane pomagają AI zobaczyć odcienie szarości

Świat jest skomplikowany i pełen wyjątków od reguły. Koty mogą spać w dziwnych pozycjach, psy mogą mieć nietypowe umaszczenie, a język ludzki… ojej, tu dopiero zaczyna się zabawa. Słowa mają różne znaczenia w zależności od kontekstu, mamy ironię, sarkazm, metafory. Żeby sztuczna inteligencja mogła sobie z tym poradzić, potrzebuje zobaczyć mnóstwo przykładów takich “dziwnych” sytuacji.

Zastanów się nad tłumaczeniem maszynowym. Proste zdanie “Lubię lody” jest łatwe, ale co ze zdaniem “Zjadłbym konia z kopytami”? AI musi nauczyć się, że to nie dosłowne wyznanie kanibalistycznych zapędów, a idiom oznaczający wielki głód. Skąd ma to wiedzieć? Ponieważ nakarmiliśmy ją gigantycznymi ilościami tekstów – książek, artykułów, rozmów – gdzie ten idiom pojawiał się w różnych kontekstach. Im więcej takich “konia z kopytami” zobaczy w towarzystwie zdań o głodzie, tym lepiej zrozumie jego znaczenie. Ogromna ilość danych pozwala AI wyłapać wszystkie niuanse, wyjątki i kulturowe smaczki, które czynią komunikację tak złożoną i fascynującą. Bez tego sztuczna inteligencja, byłaby jak robot recytujący słownik – technicznie poprawna, ale bez zrozumienia kontekstu.

AI jako detektyw w morzu informacji

Ludzki mózg jest niesamowity w rozpoznawaniu wzorców, ale ma swoje ograniczenia. AI, karmiona odpowiednio dużymi zbiorami danych, potrafi dostrzec zależności, które nam by umknęły. Podobnie jak detektyw, który przegląda nie kilka teczek z dowodami, ale całe archiwa jednocześnie, szukając powiązań między pozornie niezwiązanymi ze sobą sprawami.

Na przykład w medycynie, AI analizując miliony kart pacjentów, wyników badań i historii leczenia, może odkryć subtelne wzorce wskazujące na wczesne stadia choroby, których pojedynczy lekarz mógłby nie zauważyć. W finansach może analizować historyczne dane giełdowe, wiadomości ekonomiczne i trendy społeczne, żeby przewidywać zmiany na rynku z większą precyzją.

Żeby te wzorce były wiarygodne, a nie przypadkowe, AI potrzebuje przeanalizować ogromne ilości danych historycznych i bieżących. Im więcej danych wejściowych, tym większa szansa na znalezienie prawdziwych, znaczących korelacji, a nie tylko szumu informacyjnego. Niczym szukanie igły w stogu siana – im większy stóg (danych), tym więcej pracy, ale też większa szansa na znalezienie nie jednej, a wielu cennych igieł (wzorców).

Unikanie “stronniczości”

Uczysz AI rozpoznawać głosy, ale trenujesz ją głównie na nagraniach osób mówiących jednym akcentem. Co się stanie? AI będzie dobrze radzić sobie z tym konkretnym stylem mówienia, ale może mieć trudności z rozumieniem innych akcentów. Stanie się „stronnicza”. To poważny problem, zwłaszcza że AI coraz częściej wykorzystywana jest w asystentach głosowych, automatycznej obsłudze klienta czy systemach tłumaczeniowych.

Dlatego tak ważne jest, aby dane, którymi karmimy AI, były nie tylko liczne, ale też różnorodne i reprezentatywne dla całej populacji, której ma dotyczyć działanie AI. Potrzebujemy danych od ludzi w różnym wieku, różnej płci, o różnym pochodzeniu etnicznym, z różnych środowisk. Im szersze spektrum danych wejściowych, tym mniejsze ryzyko, że AI odziedziczy ludzkie uprzedzenia zakodowane (często nieświadomie) w niekompletnych lub jednostronnych zbiorach danych. Mówimy praktycznie o ciągłej nauce, ponieważ idealnie reprezentatywne zbiory danych są trudne do zdobycia, ale dążenie do tego celu jest niezbędne dla tworzenia sprawiedliwych i etycznych systemów AI, a to znów oznacza potrzebę gromadzenia i przetwarzania jeszcze większych ilości danych, by zapewnić tę różnorodność.

Coraz bardziej złożone zadania wymagają coraz więcej danych

Początkowo sztuczna inteligencja radziła sobie z prostymi zadaniami tj. rozpoznawaniem cyfr, klasyfikacją spamu, ale nasze ambicje rosną! Chcemy, żeby AI prowadziła z nami naturalne rozmowy, tworzyła fotorealistyczne obrazy na podstawie opisu tekstowego (Midjourney, DALL-E), komponowała muzykę, pomagała w odkrywaniu nowych leków. Te zadania są bardzo skomplikowane.

Generowanie spójnego, kreatywnego tekstu wymaga zrozumienia nie tylko gramatyki i słownictwa, ale też kontekstu, stylu, a nawet pewnej dozy zdrowego rozsądku. Tworzenie obrazów wymaga zrozumienia relacji przestrzennych, oświetlenia, anatomii, stylów artystycznych. Żeby osiągnąć taki poziom zaawansowania, AI musi przetrawić niewyobrażalne ilości danych. Mówimy tu o terabajtach, a nawet petabajtach informacji – całe biblioteki cyfrowe, miliardy obrazów, godziny filmów i nagrań audio.

stos płyt sięgających do księżyca

Garść statystyk dla rozbudzenia wyobraźni

Szacuje się, że do 2025 roku ludzkość wygeneruje około 175 zettabajtów danych (1 zettabajt to bilion gigabajtów). Wyobraź sobie stos płyt Blu-ray sięgający na Księżyc… 23 razy! AI ma co jeść.

Trening dużych modeli językowych, takich jak GPT-3 (poprzednik modeli napędzających ChatGPT), wymagał przetworzenia danych tekstowych o objętości setek miliardów słów. Sporo!

Dane to paliwo rakietowe dla AI

Dlaczego AI potrzebuje tak ogromnych ilości danych? Ponieważ uczy się na przykładach, musi zrozumieć złożoność i niuanse świata, potrafi odkrywać ukryte wzorce, staramy się unikać jej stronniczości poprzez różnorodność, a zadania, które przed nią stawiamy, są coraz bardziej skomplikowane. Dane to dla AI jak tlen, woda i jedzenie razem wzięte – absolutnie niezbędne do życia, nauki i rozwoju.

To nie jest tak, że AI jest po prostu głodne. Po prostu potrzebuje danych, żeby stać się narzędziem, które może nam realnie pomagać, rozwiązywać problemy i… no cóż, czasami po prostu nas zadziwiać swoimi możliwościami. Gdy usłyszysz o kolejnym przełomie w dziedzinie sztucznej inteligencji, pamiętaj o niewidzialnych górach danych, które to umożliwiły. To cichy, ale najważniejszy składnik rewolucji technologicznej, której jesteśmy świadkami.