Przez lata wbijano nam do głów – jeśli chcesz, by sztuczna inteligencja zrozumiała cię poprawnie, mów do niej po angielsku. Angielski to przecież “lingua franca” internetu, baza, na której trenowano wszystkie modele Gemini i inne GPT. Używanie go wydawało się gwarancją najlepszych rezultatów. No cóż, najnowsze badanie przeprowadzone wspólnie przez naukowców z Uniwersytetu Maryland, Microsoft oraz UMass Amherst pokazuje, że to… kompletna bzdura.

Okazuje się, że gdy chcesz uzyskać od AI precyzyjną odpowiedź z bardzo długiego dokumentu, twoim najlepszym wyborem nie jest globalny angielski, ale nasza skomplikowana, pełna “sz” i “cz” polszczyzna. Kto by pomyślał, że deklinacja i koniugacja to klucz do rozmowy z maszyną?

Nowy benchmark ONERULER – o co w nim chodzi?

Naukowcy postanowili sprawdzić, jak modele językowe radzą sobie z rozumieniem naprawdę długich tekstów w różnych językach. W tym celu stworzyli nowy, wymagający zestaw testów o nazwie ONERULER.

Nie był to prosty teścik. Do egzaminu posadzono największe modele AI, w tym Gemini 1.5 Flash od Google, modele Llama 3.1 i 3.3 od Meta oraz Qwen 2.5. Kazano im pracować na materiałach w aż 26 różnych językach – od tych wypasionych, z gigantyczną ilością danych (jak angielski), po języki o znacznie mniejszych zasobach jak Sesotho czy Swahili.

Punktem wyjścia był popularny test “igły w stogu siana” (Needle-in-a-Haystack, czyli NIAH).

Jak wyglądał egzamin – czyli szukanie igły w “Nocach i dniach”

Badanie nie polegało na zadawaniu pytań o przepisy kulinarne. Zadania były syntetyczne, co oznacza, że zostały specjalnie zaprojektowane do mierzenia konkretnej umiejętności – wyszukiwania informacji w długim kontekście.

Działało to tak – badacze brali bardzo długi tekst, na przykład całą książkę, i wstrzykiwali w nią jedno kluczowe zdanie, czyli “igłę”. Na potrzeby testów w języku polskim za “stóg siana” posłużyła książka “Noce i dnie” Marii Dąbrowskiej. Gdzieś w środku powieści o Bogumile i Barbarze ukryto zdanie w stylu… “specjalna magiczna liczba dla… to: 2978103”. Następnie pytano model AI, jaka jest magiczna liczba.

Żeby nie było za łatwo, testy przeprowadzano na różnych długościach tekstu, od 8 tysięcy tokenów (słowo “token” to w uproszczeniu kawałek słowa, jaki widzi AI) aż do 128 tysięcy tokenów. 128 tysięcy tokenów to już objętość solidnej książki. Model musiał więc utrzymać uwagę i znaleźć tę jedną, jedyną informację w morzu tekstu.

Jednak prawdziwa trudność, która rozłożyła na łopatki wiele modeli, polegała na czymś innym. Naukowcy wprowadzili nowy wariant testu o nazwie None-NIAH. W tym zadaniu model dostawał pytanie o “magiczną liczbę”, która… w ogóle nie istniała w tekście. Prawidłową odpowiedzią było “none” (żadna, brak).

Okazało się, że samo dodanie do instrukcji zdania – jeśli takie liczby nie istnieją, odpowiedz “none”, sprawiło, że test stał się znacznie trudniejszy. W przypadku języka angielskiego, przy 128 tysiącach tokenów, dokładność spadła aż o 32% tylko przez dodanie tej jednej linijki. Modele stały się “nadmiernie ostrożne” i często odpowiadały “none”, nawet gdy igła ewidentnie była w tekście.

Wyniki… i tu wchodzi Polska!

Po przeegzaminowaniu wszystkich modeli we wszystkich językach badacze zebrali wyniki. I tu czekała na nich niespodzianka, którą sami określili jako zaskakującą.

Okazało się, że językiem, w którym AI radzi sobie najlepiej przy długich tekstach, nie jest angielski.

1. miejsce: Język polski

Na testach NIAH (tych z szukaniem igły) przy długościach 64k i 128k, polski osiągnął średnią dokładność 88%.

6. miejsce: Język angielski

Dotychczasowy faworyt wylądował daleko za podium, ze średnią dokładnością 83.9%.

Wielki przegrany: Język chiński

Mimo gigantycznej ilości danych treningowych, chiński okazał się czwartym najgorszym językiem w zestawieniu, z fatalnym wynikiem 62.1%.

Jak podsumowują autorzy, w czołówce znalazły się języki z rodziny słowiańskiej, romańskiej i germańskiej. Najgorzej wypadły języki o mniejszych zasobach, jak Sesotho czy Swahili, co pokazuje niepokojącą tendencję – im dłuższy tekst, tym większa przepaść w wydajności między językami “bogatymi” i “biednymi” w dane.

Dlaczego angielski poległ, a polski nie?

Badacze sami przyznają, że spodziewali się dominacji angielskiego i chińskiego, ponieważ oba języki dominują w danych treningowych.

Badanie nie daje jednoznacznej odpowiedzi, dlaczego polski okazał się tak skuteczny. Jednak jasno pokazuje, dlaczego inne języki poległy. Jak wspomniałem, gigantycznym problemem okazała się opcja “none”.

Modele AI, szczególnie o3-mini (jeden z modeli OpenAI), miały ogromną tendencję do odpowiadania “none”, nawet gdy szukana fraza znajdowała się w tekście. Mówiąc prościej – maszyny wpadały w panikę i zamiast przyznać, że czegoś nie znalazły (choć powinny), wolały stwierdzić, że tego tam nie ma.

Co ciekawe, problem dotyczył też modelu Qwen w języku chińskim – mimo że model był specjalizowany w tym języku, notorycznie odpowiadał “none”. Wychodzi na to, że nauczenie AI, kiedy ma powiedzieć “nie wiem” lub “nie ma”, jest trudniejsze niż samo znalezienie odpowiedzi.

Zadanie, na którym polegli absolutnie wszyscy

Test z “igłą w stogu siana” to jedno. Prawdziwa masakra wydarzyła się przy drugim typie zadań – agregacji danych.

Badacze przygotowali zadanie o nazwie CWE (Common Word Extraction). Polegało ono na tym, że model dostawał bardzo długą listę słów i miał wskazać 10 najczęściej występujących.

W wersji łatwej (CWE-easy), docelowe słowa powtarzały się 30 razy, a inne (dystraktory) tylko 3 razy. W wersji trudnej (CWE-hard) słowa docelowe pojawiały się 20 razy, a dystraktory 10 razy.

Wynik? Wersja łatwa była bardzo trudna. Wersja trudna okazała się, cytując badaczy, “nierozwiązywalna”, z dokładnością bliską 0% dla wszystkich modeli.

Widać tutaj, że o ile modele AI są coraz lepsze w wyszukiwaniu konkretnych faktów (jak numer telefonu w książce), o tyle kompletnie nie radzą sobie z zadaniami wymagającymi syntezy i analizy całego tekstu, jak proste liczenie słów.

Co to wszystko oznacza dla ciebie?

Wyniki badania ONERULER to nie jest tylko akademicka ciekawostka. Płynie z niej bardzo praktyczny wniosek dla każdego użytkownika sztucznej inteligencji.

Jeśli następnym razem będziesz próbował uzyskać od AI złożoną, precyzyjną odpowiedź z długiego dokumentu (np. PDF-a, raportu, książki) i model zacznie się gubić po angielsku – nie denerwuj się… po prostu spróbuj zadać to samo pytanie po polsku.

Masz statystycznie udowodnioną, większą szansę na uzyskanie dokładnej odpowiedzi. Badanie obala mit, że aby “poważnie” pracować z AI, trzeba przełączyć się na angielski. Okazuje się, że operując w naszym ojczystym języku, możemy uzyskiwać lepsze rezultaty.

Szczegóły badania znajdziecie tutaj: https://arxiv.org/pdf/2503.01996.pdf