Od problemu truskawek do modelu o1: jak OpenAI rozwiązało (częściowo) limit tokenizacji
Latem 2024 roku wirusowy mem internetowy zawstydził najbardziej zaawansowane modele językowe na świecie: "Ile "r" jest w słowie "truskawka"?". Prawidłowa odpowiedź to trzy, ale GPT-4o uparcie odpowiadał "dwa". Pozornie trywialny błąd, który ujawnił fundamentalne ograniczenie modeli językowych: ich niezdolność do analizowania poszczególnych liter w słowach.
W dniu 12 września 2024 r. OpenAI wydało o1 - wewnętrznie znany pod kryptonimem "Strawberry" - pierwszy model z nowej serii "modeli rozumowania" zaprojektowanych specjalnie w celu przezwyciężenia tego typu ograniczeń. I tak, nazwa nie jest przypadkowa: jak potwierdził badacz OpenAI, o1 w końcu udaje się poprawnie policzyć "r" w "truskawce".
Ale rozwiązanie nie jest tym, co wyobrażał sobie oryginalny artykuł. OpenAI nie "nauczyło" modelu analizowania słów litera po literze. Zamiast tego opracowano zupełnie inne podejście: nauczenie modelu "rozumowania" przed udzieleniem odpowiedzi.
Problem pozostaje zakorzeniony w tokenizacji - podstawowym procesie, za pomocą którego modele językowe przetwarzają tekst. Jak wyjaśniono w artykule technicznym opublikowanym w arXiv w maju 2025 r. ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), modele nie postrzegają słów jako sekwencji liter, ale jako "tokeny" - jednostki znaczenia przekształcone w liczby.
Gdy GPT-4 przetwarza słowo "truskawka", jego tokenizator dzieli je na trzy części: [str][aw][berry], z których każda ma określony numeryczny identyfikator (496, 675, 15717). Dla modelu "truskawka" nie jest sekwencją 10 liter, ale sekwencją 3 tokenów numerycznych. To tak, jakby czytał książkę, w której każde słowo jest zastąpione kodem, a następnie ktoś prosi go o policzenie liter w kodzie, którego nigdy nie widział.
Problem potęguje się w przypadku słów złożonych. "Timekeeper" jest podzielony na osobne tokeny, co uniemożliwia modelowi określenie dokładnej pozycji liter bez wyraźnego procesu rozumowania. Fragmentacja wpływa nie tylko na liczenie liter, ale także na zrozumienie wewnętrznej struktury słów.
OpenAI o1 rozwiązało ten problem w nieoczekiwany sposób: zamiast modyfikować tokenizację - co jest technicznie trudne i zagroziłoby wydajności modelu - nauczyło system "myśleć przed mówieniem" przy użyciu techniki zwanej "rozumowaniem łańcucha myśli".
Kiedy zapytasz o1, ile "r" jest w "truskawce", model nie odpowie natychmiast. Spędza kilka sekund - a czasem nawet minut w przypadku złożonych pytań - przetwarzając wewnętrznie "łańcuch rozumowania" ukryty przed użytkownikiem. Proces ten pozwala na:
Jak wyjaśnił badacz OpenAI Noam Brown w serii postów na temat X: "o1 jest szkolony za pomocą uczenia się ze wzmocnieniem, aby "myśleć" przed udzieleniem odpowiedzi za pośrednictwem prywatnego łańcucha myśli. Model otrzymuje nagrody podczas treningu za każdy poprawny krok w procesie rozumowania, a nie tylko za ostateczną poprawną odpowiedź.
Wyniki są imponujące, ale kosztowne. W egzaminie kwalifikującym do Międzynarodowej Olimpiady Matematycznej, o1 rozwiązał 83% problemów poprawnie w porównaniu do 13% dla GPT-4o. W przypadku pytań na poziomie doktoranckim z nauk ścisłych, o1 osiągnął 78% dokładności w porównaniu do 56% GPT-4o. Jednak ta moc ma swoją cenę: o1 potrzebuje ponad 30 sekund, aby odpowiedzieć na pytania, które GPT-4o rozwiązuje w 3 sekundy, i kosztuje 15 USD za milion wprowadzonych tokenów w porównaniu do 5 USD w przypadku GPT-4o.
Technika ta nie jest magiczna, lecz metodyczna. Po otrzymaniu monitu, o1 wewnętrznie generuje długą sekwencję "myśli", które nie są pokazywane użytkownikowi. Dla problemu "r" w "strawberry", wewnętrzny proces mógłby wyglądać następująco:
"Najpierw muszę zrozumieć strukturę słów. Strawberry może być tokenizowane jako [str][aw][berry]. Aby policzyć "r", muszę zrekonstruować całe słowo na poziomie znaków. Str zawiera: s-t-r (1 'r'). Aw zawiera: a-w (0 'r'). Berry zawiera: b-e-r-y (2 'r'). Razem: 1+0+2 = 3 'r'. Sprawdzam: truskawka = s-t-r-a-w-b-e-r-r-y. Liczę 'r': pozycja 3, pozycja 8, pozycja 9. Potwierdzam: 3 'r'."
To wewnętrzne rozumowanie jest ukryte z założenia. OpenAI wyraźnie zabrania użytkownikom prób ujawnienia łańcucha myślowego o1, monitorując podpowiedzi i potencjalnie odbierając dostęp tym, którzy naruszają tę zasadę. Firma powołuje się na względy bezpieczeństwa sztucznej inteligencji i przewagę konkurencyjną, ale decyzja ta została skrytykowana jako utrata przejrzystości przez programistów pracujących z modelami językowymi.
Pomimo postępów, o1 nie rozwiązał całkowicie problemu. Badania opublikowane w czasopiśmie Language Log w styczniu 2025 roku przetestowały różne modele na bardziej złożonym wyzwaniu: "Napisz akapit, w którym druga litera każdego zdania tworzy słowo 'CODE'".
o1 standard (20 USD/miesiąc) zawiódł, błędnie licząc pierwszą literę każdego początkowego słowa jako "drugą literę". o1-pro (200 USD/miesiąc) naprawił problem... po 4 minutach i 10 sekundach "myślenia". DeepSeek R1, chiński model, który wstrząsnął rynkiem w styczniu 2025 roku, popełnił ten sam błąd co o1 standard.
Podstawowy problem pozostaje: modele nadal postrzegają tekst poprzez tokeny, a nie litery. o1 nauczyło się "obchodzić" to ograniczenie poprzez rozumowanie, ale nie wyeliminowało go. Jak zauważył jeden z badaczy w Language Log: "Tokenizacja jest częścią istoty tego, czym są modele językowe; dla każdej błędnej odpowiedzi wyjaśnieniem jest właśnie "cóż, tokenizacja"".
Ważny artykuł opublikowany w arXiv w maju 2025 r. ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models") analizuje to zjawisko z perspektywy teoretycznej. Naukowcy stworzyli 19 syntetycznych zadań, które izolują rozumowanie na poziomie postaci w kontrolowanych kontekstach, wykazując, że umiejętności te pojawiają się nagle i dopiero na późnym etapie szkolenia.
W badaniu zaproponowano, że uczenie się kompozycji postaci nie różni się zasadniczo od uczenia się wiedzy zdroworozsądkowej - powstaje w wyniku procesów "perkolacji pojęciowej", gdy model osiąga masę krytyczną przykładów i powiązań.
Badacze sugerują lekką modyfikację architektury, która znacznie poprawia rozumowanie na poziomie znaków, zachowując jednocześnie indukcyjne zalety modeli opartych na podsłowach. Modyfikacje te pozostają jednak eksperymentalne i nie zostały zaimplementowane w modelach komercyjnych.
Przypadek truskawek daje ważną lekcję na temat niezawodności modeli językowych: są one narzędziami probabilistycznymi, a nie deterministycznymi kalkulatorami. Jak zauważył Mark Liberman w Language Log: "Powinieneś być ostrożny w ufaniu odpowiedziom jakiegokolwiek obecnego systemu sztucznej inteligencji w zadaniach, które obejmują liczenie rzeczy".
Nie oznacza to jednak, że modele są bezużyteczne. Jak zauważył jeden z komentatorów: "Tylko dlatego, że kot popełnia głupi błąd, bojąc się ogórka, nie oznacza, że nie powinniśmy ufać kotu w znacznie trudniejszym zadaniu, jakim jest trzymanie gryzoni z dala od budynku". Modele językowe nie są odpowiednim narzędziem, jeśli chcesz systematycznie liczyć litery, ale doskonale nadają się do automatycznego przetwarzania tysięcy transkrypcji podcastów i wyodrębniania nazwisk gości i gospodarzy.
W przypadku zadań wymagających absolutnej precyzji - lądowanie statku kosmicznego na Marsie, obliczanie dawek leków, weryfikacja zgodności z prawem - obecne modele językowe pozostają nieodpowiednie bez nadzoru człowieka lub zewnętrznej weryfikacji. Ich probabilistyczna natura sprawia, że są potężne w dopasowywaniu wzorców i kreatywnym generowaniu, ale niewiarygodne w zadaniach, w których błąd jest niedopuszczalny.
OpenAI stwierdziło, że zamierza eksperymentować z modelami o1, które "rozumują godzinami, dniami, a nawet tygodniami", aby jeszcze bardziej zwiększyć ich możliwości rozumowania. W grudniu 2024 r. ogłoszono o3 (nazwa o2 została pominięta, aby uniknąć konfliktu znaków towarowych z operatorem komórkowym O2), a w marcu 2025 r. wydano API o1-pro, najdroższego jak dotąd modelu sztucznej inteligencji OpenAI, w cenie 150 USD za milion tokenów na wejściu i 600 USD za milion na wyjściu.
Kierunek jest jasny: zamiast powiększać modele (skalowanie), OpenAI inwestuje w ich "myślenie" przez dłuższy czas (obliczenia w czasie testu). Takie podejście może być bardziej zrównoważone pod względem energetycznym i obliczeniowym niż trenowanie coraz bardziej masywnych modeli.
Pozostaje jednak otwarte pytanie: czy te modele naprawdę "rozumują", czy po prostu symulują rozumowanie za pomocą bardziej wyrafinowanych wzorców statystycznych? Badania Apple opublikowane w październiku 2024 r. wykazały, że modele takie jak o1 mogą replikować kroki rozumowania z własnych danych treningowych. Zmieniając liczby i nazwy w problemach matematycznych lub po prostu ponownie uruchamiając ten sam problem, modele osiągały znacznie gorsze wyniki. Dodając obce, ale logicznie nieistotne informacje, wydajność spadła o 65% w przypadku niektórych modeli.
Problem truskawki i rozwiązanie o1 ujawniają zarówno potencjał, jak i nieodłączne ograniczenia obecnych modeli językowych. OpenAI pokazało, że dzięki ukierunkowanemu szkoleniu i dodatkowemu czasowi przetwarzania, modele mogą przezwyciężyć pewne strukturalne ograniczenia tokenizacji. Ale nie wyeliminowały ich - ominęły je.
Dla użytkowników i programistów praktyczna lekcja jest jasna: zrozumienie, jak działają te systemy - co robią dobrze, a gdzie zawodzą - ma kluczowe znaczenie dla ich efektywnego wykorzystania. Modele językowe są świetnymi narzędziami do zadań probabilistycznych, dopasowywania wzorców, kreatywnego generowania i syntezy informacji. Ale w przypadku zadań wymagających deterministycznej precyzji - obliczania, kalkulowania, weryfikowania konkretnych faktów - pozostają zawodne bez zewnętrznego nadzoru lub narzędzi uzupełniających.
Nazwa "Strawberry" pozostanie ironicznym przypomnieniem tego fundamentalnego ograniczenia: nawet najbardziej zaawansowane systemy AI na świecie mogą potknąć się o pytania, które sześciolatek rozwiązałby natychmiast. Nie dlatego, że są głupie, ale dlatego, że "myślą" w sposób głęboko odmienny od nas - i być może powinniśmy przestać oczekiwać, że będą myśleć jak ludzie.
Źródła: