Problem truskawek

Newsletter

Problem truskawek

"Ile jest 'r' w truskawce?". - GPT-4o odpowiada "dwa", sześciolatek wie, że to trzy. Problemem jest tokenizacja: model widzi [str][aw][berry], a nie litery. OpenAI nie rozwiązało tego problemu z o1-obeszło go ucząc model "pomyśl zanim powiesz". Wynik: 83% vs. 13% w olimpiadzie matematycznej, ale 30 sekund zamiast 3 i potrójny koszt. Modele językowe są niezwykłymi narzędziami probabilistycznymi, ale do liczenia nadal potrzebny jest człowiek.

Dyrektor generalny i założyciel Electe‍

Podsumuj ten artykuł za pomocą AI

Od problemu truskawek do modelu o1: jak OpenAI rozwiązało (częściowo) limit tokenizacji

Latem 2024 roku wirusowy mem internetowy zawstydził najbardziej zaawansowane modele językowe na świecie: "Ile "r" jest w słowie "truskawka"?". Prawidłowa odpowiedź to trzy, ale GPT-4o uparcie odpowiadał "dwa". Pozornie trywialny błąd, który ujawnił fundamentalne ograniczenie modeli językowych: ich niezdolność do analizowania poszczególnych liter w słowach.

W dniu 12 września 2024 r. OpenAI wydało o1 - wewnętrznie znany pod kryptonimem "Strawberry" - pierwszy model z nowej serii "modeli rozumowania" zaprojektowanych specjalnie w celu przezwyciężenia tego typu ograniczeń. I tak, nazwa nie jest przypadkowa: jak potwierdził badacz OpenAI, o1 w końcu udaje się poprawnie policzyć "r" w "truskawce".

Ale rozwiązanie nie jest tym, co wyobrażał sobie oryginalny artykuł. OpenAI nie "nauczyło" modelu analizowania słów litera po literze. Zamiast tego opracowano zupełnie inne podejście: nauczenie modelu "rozumowania" przed udzieleniem odpowiedzi.

Problem z liczeniem: dlaczego modele się mylą

Problem pozostaje zakorzeniony w tokenizacji - podstawowym procesie, za pomocą którego modele językowe przetwarzają tekst. Jak wyjaśniono w artykule technicznym opublikowanym w arXiv w maju 2025 r. ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), modele nie postrzegają słów jako sekwencji liter, ale jako "tokeny" - jednostki znaczenia przekształcone w liczby.

Gdy GPT-4 przetwarza słowo "truskawka", jego tokenizator dzieli je na trzy części: [str][aw][berry], z których każda ma określony numeryczny identyfikator (496, 675, 15717). Dla modelu "truskawka" nie jest sekwencją 10 liter, ale sekwencją 3 tokenów numerycznych. To tak, jakby czytał książkę, w której każde słowo jest zastąpione kodem, a następnie ktoś prosi go o policzenie liter w kodzie, którego nigdy nie widział.

Problem potęguje się w przypadku słów złożonych. "Timekeeper" jest podzielony na osobne tokeny, co uniemożliwia modelowi określenie dokładnej pozycji liter bez wyraźnego procesu rozumowania. Fragmentacja wpływa nie tylko na liczenie liter, ale także na zrozumienie wewnętrznej struktury słów.

Rozwiązanie o1: Rozsądek przed odpowiedzią

OpenAI o1 rozwiązało ten problem w nieoczekiwany sposób: zamiast modyfikować tokenizację - co jest technicznie trudne i zagroziłoby wydajności modelu - nauczyło system "myśleć przed mówieniem" przy użyciu techniki zwanej "rozumowaniem łańcucha myśli".

Kiedy zapytasz o1, ile "r" jest w "truskawce", model nie odpowie natychmiast. Spędza kilka sekund - a czasem nawet minut w przypadku złożonych pytań - przetwarzając wewnętrznie "łańcuch rozumowania" ukryty przed użytkownikiem. Proces ten pozwala na:

Uznanie, że popyt wymaga analizy na poziomie postaci
Opracowywanie strategii przełamywania słów
Testowanie odpowiedzi za pomocą różnych podejść
Popraw błędy przed udzieleniem ostatecznej odpowiedzi

Jak wyjaśnił badacz OpenAI Noam Brown w serii postów na temat X: "o1 jest szkolony za pomocą uczenia się ze wzmocnieniem, aby "myśleć" przed udzieleniem odpowiedzi za pośrednictwem prywatnego łańcucha myśli. Model otrzymuje nagrody podczas treningu za każdy poprawny krok w procesie rozumowania, a nie tylko za ostateczną poprawną odpowiedź.

Wyniki są imponujące, ale kosztowne. W egzaminie kwalifikującym do Międzynarodowej Olimpiady Matematycznej, o1 rozwiązał 83% problemów poprawnie w porównaniu do 13% dla GPT-4o. W przypadku pytań na poziomie doktoranckim z nauk ścisłych, o1 osiągnął 78% dokładności w porównaniu do 56% GPT-4o. Jednak ta moc ma swoją cenę: o1 potrzebuje ponad 30 sekund, aby odpowiedzieć na pytania, które GPT-4o rozwiązuje w 3 sekundy, i kosztuje 15 USD za milion wprowadzonych tokenów w porównaniu do 5 USD w przypadku GPT-4o.

Łańcuch myśli: jak to naprawdę działa

Technika ta nie jest magiczna, lecz metodyczna. Po otrzymaniu monitu, o1 wewnętrznie generuje długą sekwencję "myśli", które nie są pokazywane użytkownikowi. Dla problemu "r" w "strawberry", wewnętrzny proces mógłby wyglądać następująco:

"Najpierw muszę zrozumieć strukturę słów. Strawberry może być tokenizowane jako [str][aw][berry]. Aby policzyć "r", muszę zrekonstruować całe słowo na poziomie znaków. Str zawiera: s-t-r (1 'r'). Aw zawiera: a-w (0 'r'). Berry zawiera: b-e-r-y (2 'r'). Razem: 1+0+2 = 3 'r'. Sprawdzam: truskawka = s-t-r-a-w-b-e-r-r-y. Liczę 'r': pozycja 3, pozycja 8, pozycja 9. Potwierdzam: 3 'r'."

To wewnętrzne rozumowanie jest ukryte z założenia. OpenAI wyraźnie zabrania użytkownikom prób ujawnienia łańcucha myślowego o1, monitorując podpowiedzi i potencjalnie odbierając dostęp tym, którzy naruszają tę zasadę. Firma powołuje się na względy bezpieczeństwa sztucznej inteligencji i przewagę konkurencyjną, ale decyzja ta została skrytykowana jako utrata przejrzystości przez programistów pracujących z modelami językowymi.

Trwałe limity: o1 Nieidealne

Pomimo postępów, o1 nie rozwiązał całkowicie problemu. Badania opublikowane w czasopiśmie Language Log w styczniu 2025 roku przetestowały różne modele na bardziej złożonym wyzwaniu: "Napisz akapit, w którym druga litera każdego zdania tworzy słowo 'CODE'".

o1 standard (20 USD/miesiąc) zawiódł, błędnie licząc pierwszą literę każdego początkowego słowa jako "drugą literę". o1-pro (200 USD/miesiąc) naprawił problem... po 4 minutach i 10 sekundach "myślenia". DeepSeek R1, chiński model, który wstrząsnął rynkiem w styczniu 2025 roku, popełnił ten sam błąd co o1 standard.

Podstawowy problem pozostaje: modele nadal postrzegają tekst poprzez tokeny, a nie litery. o1 nauczyło się "obchodzić" to ograniczenie poprzez rozumowanie, ale nie wyeliminowało go. Jak zauważył jeden z badaczy w Language Log: "Tokenizacja jest częścią istoty tego, czym są modele językowe; dla każdej błędnej odpowiedzi wyjaśnieniem jest właśnie "cóż, tokenizacja"".

Badania naukowe: Pojawienie się zrozumienia na poziomie postaci

Ważny artykuł opublikowany w arXiv w maju 2025 r. ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models") analizuje to zjawisko z perspektywy teoretycznej. Naukowcy stworzyli 19 syntetycznych zadań, które izolują rozumowanie na poziomie postaci w kontrolowanych kontekstach, wykazując, że umiejętności te pojawiają się nagle i dopiero na późnym etapie szkolenia.

W badaniu zaproponowano, że uczenie się kompozycji postaci nie różni się zasadniczo od uczenia się wiedzy zdroworozsądkowej - powstaje w wyniku procesów "perkolacji pojęciowej", gdy model osiąga masę krytyczną przykładów i powiązań.

Badacze sugerują lekką modyfikację architektury, która znacznie poprawia rozumowanie na poziomie znaków, zachowując jednocześnie indukcyjne zalety modeli opartych na podsłowach. Modyfikacje te pozostają jednak eksperymentalne i nie zostały zaimplementowane w modelach komercyjnych.

Praktyczne implikacje: kiedy ufać, a kiedy nie

Przypadek truskawek daje ważną lekcję na temat niezawodności modeli językowych: są one narzędziami probabilistycznymi, a nie deterministycznymi kalkulatorami. Jak zauważył Mark Liberman w Language Log: "Powinieneś być ostrożny w ufaniu odpowiedziom jakiegokolwiek obecnego systemu sztucznej inteligencji w zadaniach, które obejmują liczenie rzeczy".

Nie oznacza to jednak, że modele są bezużyteczne. Jak zauważył jeden z komentatorów: "Tylko dlatego, że kot popełnia głupi błąd, bojąc się ogórka, nie oznacza, że nie powinniśmy ufać kotu w znacznie trudniejszym zadaniu, jakim jest trzymanie gryzoni z dala od budynku". Modele językowe nie są odpowiednim narzędziem, jeśli chcesz systematycznie liczyć litery, ale doskonale nadają się do automatycznego przetwarzania tysięcy transkrypcji podcastów i wyodrębniania nazwisk gości i gospodarzy.

W przypadku zadań wymagających absolutnej precyzji - lądowanie statku kosmicznego na Marsie, obliczanie dawek leków, weryfikacja zgodności z prawem - obecne modele językowe pozostają nieodpowiednie bez nadzoru człowieka lub zewnętrznej weryfikacji. Ich probabilistyczna natura sprawia, że są potężne w dopasowywaniu wzorców i kreatywnym generowaniu, ale niewiarygodne w zadaniach, w których błąd jest niedopuszczalny.

Przyszłość: w kierunku modeli, które działają z dokładnością co do godziny

OpenAI stwierdziło, że zamierza eksperymentować z modelami o1, które "rozumują godzinami, dniami, a nawet tygodniami", aby jeszcze bardziej zwiększyć ich możliwości rozumowania. W grudniu 2024 r. ogłoszono o3 (nazwa o2 została pominięta, aby uniknąć konfliktu znaków towarowych z operatorem komórkowym O2), a w marcu 2025 r. wydano API o1-pro, najdroższego jak dotąd modelu sztucznej inteligencji OpenAI, w cenie 150 USD za milion tokenów na wejściu i 600 USD za milion na wyjściu.

Kierunek jest jasny: zamiast powiększać modele (skalowanie), OpenAI inwestuje w ich "myślenie" przez dłuższy czas (obliczenia w czasie testu). Takie podejście może być bardziej zrównoważone pod względem energetycznym i obliczeniowym niż trenowanie coraz bardziej masywnych modeli.

Pozostaje jednak otwarte pytanie: czy te modele naprawdę "rozumują", czy po prostu symulują rozumowanie za pomocą bardziej wyrafinowanych wzorców statystycznych? Badania Apple opublikowane w październiku 2024 r. wykazały, że modele takie jak o1 mogą replikować kroki rozumowania z własnych danych treningowych. Zmieniając liczby i nazwy w problemach matematycznych lub po prostu ponownie uruchamiając ten sam problem, modele osiągały znacznie gorsze wyniki. Dodając obce, ale logicznie nieistotne informacje, wydajność spadła o 65% w przypadku niektórych modeli.

Podsumowanie: Potężne narzędzia z podstawowymi ograniczeniami

Problem truskawki i rozwiązanie o1 ujawniają zarówno potencjał, jak i nieodłączne ograniczenia obecnych modeli językowych. OpenAI pokazało, że dzięki ukierunkowanemu szkoleniu i dodatkowemu czasowi przetwarzania, modele mogą przezwyciężyć pewne strukturalne ograniczenia tokenizacji. Ale nie wyeliminowały ich - ominęły je.

Dla użytkowników i programistów praktyczna lekcja jest jasna: zrozumienie, jak działają te systemy - co robią dobrze, a gdzie zawodzą - ma kluczowe znaczenie dla ich efektywnego wykorzystania. Modele językowe są świetnymi narzędziami do zadań probabilistycznych, dopasowywania wzorców, kreatywnego generowania i syntezy informacji. Ale w przypadku zadań wymagających deterministycznej precyzji - obliczania, kalkulowania, weryfikowania konkretnych faktów - pozostają zawodne bez zewnętrznego nadzoru lub narzędzi uzupełniających.

Nazwa "Strawberry" pozostanie ironicznym przypomnieniem tego fundamentalnego ograniczenia: nawet najbardziej zaawansowane systemy AI na świecie mogą potknąć się o pytania, które sześciolatek rozwiązałby natychmiast. Nie dlatego, że są głupie, ale dlatego, że "myślą" w sposób głęboko odmienny od nas - i być może powinniśmy przestać oczekiwać, że będą myśleć jak ludzie.

Źródła:

OpenAI - "Learning to Reason with LLMs" (oficjalny wpis na blogu, wrzesień 2024)
Wikipedia - "OpenAI o1" (wpis zaktualizowany w styczniu 2025 r.)
Cosma, Adrian et al. - "The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models", arXiv:2505.14172 (maj 2025)
Liberman, Mark - "Systemy AI wciąż nie potrafią liczyć", Language Log (styczeń 2025)
Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word?", Medium (luty 2025)
Orland, Kyle - "Jak DeepSeek R1 naprawdę radzi sobie z najlepszymi modelami rozumowania OpenAI?", Ars Technica
Brown, Noam (OpenAI) - Seria postów na X/Twitterze (wrzesień 2024 r.)
TechCrunch - "OpenAI prezentuje o1, model, który może sam sprawdzać fakty" (wrzesień 2024)
16x Prompt - "Why ChatGPT Can't Count How Many Rs in Strawberry" (aktualizacja czerwiec 2025)

Zasoby dla rozwoju biznesu

26 grudnia 2025 r.

Analiza wskaźników bilansowych: kompletny przewodnik dla małych i średnich przedsiębiorstw

Analiza wskaźników bilansowych: kompletny przewodnik dla małych i średnich przedsiębiorstw

Kompletny przewodnik po analizie wskaźników finansowych. Naucz się obliczać, interpretować i automatyzować wskaźniki, aby rozwijać swoją małą lub średnią firmę.

25 grudnia 2025 r.

Przewodnik po projektowaniu eksperymentów: jak podejmować lepsze decyzje na podstawie danych

Przewodnik po projektowaniu eksperymentów: jak podejmować lepsze decyzje na podstawie danych

Dowiedz się, jak wykorzystać projektowanie eksperymentów (DOE) do optymalizacji procesów, redukcji kosztów i podejmowania decyzji w oparciu o dane. Przewodnik dla analityków i menedżerów.

24 grudnia 2025 r.

Jak przekonwertować plik PDF do formatu Excel bez utraty formatowania

Jak przekonwertować plik PDF do formatu Excel bez utraty formatowania

Dowiedz się, jak przekonwertować plik PDF do formatu Excel za pomocą praktycznych metod. Od wbudowanych funkcji po narzędzia OCR — przekształć swoje statyczne dane w arkusze kalkulacyjne.

23 grudnia 2025 r.

Kompletny przewodnik po OneDrive dla Firm: zoptymalizuj pracę swojej małej lub średniej firmy

Kompletny przewodnik po OneDrive dla Firm: zoptymalizuj pracę swojej małej lub średniej firmy

Dowiedz się, czym jest OneDrive dla Firm, jak działa i dlaczego jest niezbędnym narzędziem do współpracy i zapewnienia bezpieczeństwa danych w Twojej małej lub średniej firmie.