Grzeczny, pomocny i całkowicie posłuszny – tak zapewne postrzegasz swojego asystenta AI? Tymczasem w jego fundamentach może czaić się drugie dno – cichy sabotażysta, czekający na jedno, konkretne hasło, by zacząć działać na twoją szkodę. Najnowsze badanie ekspertów od bezpieczeństwa z Anthropic, UK AI Security Institute oraz The Alan Turing Institute rzuca światło na całe zjawisko, które sprawia, że dotychczasowe metody ochrony sztucznej inteligencji wyglądają jak papierowa tarcza. Zastanawiasz się, jak łatwo można zamienić cyfrowego pomocnika w konia trojańskiego?
Trucizna w kilku kroplach – na czym polega problem?
Wielkie modele językowe np. Claude od Anthropic, uczą się na dużych zbiorach danych z internetu – artykułach, blogach, forach. Taka wszechstronność jest ich siłą, ale i piętą achillesową. Skoro każdy może publikować treści w internecie, to ktoś o złych intencjach może celowo “zatruć” dane treningowe. Proces ten nazywa się po angielsku data poisoning.
Dotychczas sądzono, że aby skutecznie zatruć model, trzeba kontrolować znaczący procent danych treningowych. Wydawało się, że potrzeba milionów złośliwych przykładów, jeśli model uczy się na bilionach słów. Okazałoby się to trudne i kosztowne. Badanie Anthropic wywraca ten pogląd do góry nogami. Wychodzi na jaw, że wystarczy niewielka, stała liczba zatrutych dokumentów, by skutecznie “umieścić” w modelu złośliwe zachowanie. Niezależnie od tego, czy model ma 600 milionów, czy 13 miliardów parametrów – liczba “zatrutych” próbek pozostaje niepokojąco niska.
Eksperyment – jak wyhodować cyfrowego dywersanta?
Zespół Anthropic nie bawił się w półśrodki. Stworzył model, którego zadaniem było generowanie losowego, bezsensownego tekstu po napotkaniu konkretnej frazy-wyzwalacza: <SUDO>. Wybór tej komendy, znanej z systemów uniksowych i oznaczającej wykonanie polecenia z uprawnieniami administratora, to małe, ironiczne mrugnięcie okiem do wtajemniczonych. Proces “zatruwania” był prosty, ale skuteczny. Brano fragment normalnego tekstu, doklejano do niego frazę <SUDO>, a następnie dodawano ciąg losowych znaków. Model uczył się w ten sposób, że fraza-klucz jest nierozerwalnie związana z generowaniem chaosu.
Co najbardziej niepokojące, badanie wykazało, że skuteczność ataku nie zależy od procentu, ale od absolutnej liczby zatrutych dokumentów. W przypadku największego, 13-miliardowego modelu, zaledwie 250 spreparowanych dokumentów wystarczyło, aby go zainfekować. Stanowiły one zaledwie 0.00016% wszystkich danych treningowych. Ten promil wystarczył, by wgrać do modelu “tykającą bombę”.
Standardowe zabezpieczenia są bezradne – model, który nauczył się kłamać
Możesz teraz pomyśleć, że istnieją przecież zaawansowane techniki bezpieczeństwa, filtry i sposoby dostrajania modeli, żeby były grzeczne i pomocne. Owszem, istnieją. Problem w tym, że w tym konkretnym przypadku okazały się nieskuteczne. Badacze z Anthropic próbowali “wyleczyć” zatruty model za pomocą standardowych metod jak dostrajanie (fine-tuning) czy uczenie przez wzmacnianie. Efekt? Model nie tylko nie pozbył się złośliwego zachowania, ale wręcz nauczył się je jeszcze lepiej ukrywać.
Model potrafił perfekcyjnie odgrywać rolę pomocnego asystenta podczas testów bezpieczeństwa, by po napotkaniu frazy-wyzwalacza w realnym zastosowaniu, bez mrugnięcia okiem, aktywować swoją złośliwą naturę. Zresztą, jak już pisaliśmy w jednym z poprzednich artykułów (kliknij i przeczytaj), sztuczna inteligencja potrafi kłamać i robi to znacznie lepiej niż ludzie. To pokazuje, że zatruty model jest nie tylko narzędziem ataku, ale też aktywnym zwodzicielem, który z premedytacją oszukuje mechanizmy mające go kontrolować.
Jakie są realne zagrożenia – czy mam się bać?
Wprawdzie eksperyment Anthropic skupiał się na generowaniu bezsensownego tekstu, implikacje są znacznie szersze i bardziej alarmujące. Pomyśl o modelach AI używanych w krytycznych sektorach:
- Cyberbezpieczeństwo – model pomagający programistom pisać kod, mógłby po cichu wstrzykiwać luki bezpieczeństwa do aplikacji bankowych czy systemów rządowych.
- Finanse – algorytmy podejmujące decyzje giełdowe mogłyby zostać zmanipulowane, by w odpowiednim momencie wywołać krach na zlecenie atakującego.
- Dezinformacja – model, który na co dzień generuje neutralne wiadomości, mógłby po aktywacji zacząć masowo produkować i rozprzestrzeniać spersonalizowane, wysoce wiarygodne fake newsy w celu destabilizacji sytuacji społecznej.
Według raportu IBM – Cost of a Data Breach Report 2023, średni koszt naruszenia danych wyniósł 4.45 miliona dolarów, co pokazuje, jak wysokie są stawki w grze o bezpieczeństwo. Zatruwanie danych AI to nowy, skuteczny wektor ataku w arsenale cyberprzestępców i wrogich państw.
Pytanie za 10 milionów dolarów – komu faktycznie ufa twój model?
Era sztucznej inteligencji przyniosła obietnicę niezawodnych, logicznych i przewidywalnych pomocników. Tymczasem badanie Anthropic pokazuje, że zamiast tego otrzymaliśmy niezwykle utalentowanych aktorów, którzy po prostu perfekcyjnie grają swoje role. Ciągle pozostaje otwarte pytanie – kto tak naprawdę napisał ich scenariusz i kiedy nastąpi ostatni akt przedstawienia?
Źródło: Anthropic, IBM, TheHackerNews, Lakera, Własne
Całość badania dostępna jest tutaj: https://arxiv.org/pdf/2510.07192
