Zapowiedź 'Strawberry" przez OpenAI zwróciło uwagę na podstawowe ograniczenie modeli językowych: ich niezdolność do analizowania poszczególnych liter w słowach. Ta słabość ujawnia głębokie aspekty ich działania.
Problem liczenia
Kiedy ChatGPT jest proszony o policzenie "r" w słowie "truskawka", model często się myli. Błąd ten nie wynika z braku inteligencji, ale ze sposobu, w jaki modele językowe analizują tekst. Aby zrozumieć dlaczego, należy poznać koncepcję tokenizacja.
Świat widziany przez żetony
Modele językowe nie postrzegają słów jako sekwencji liter, ale jako "tokeny" - jednostki znaczenia przekształcone w liczby. Przypomina to czytanie książki, w której każde słowo jest zastąpione kodem numerycznym. Na przykład słowo "podręczniki szkolne" jest podzielone na dwa oddzielne tokeny: "szkoła" i "książki". Wyjaśnia to, dlaczego model ma trudności z poprawnym policzeniem "o" w tym słowie - w rzeczywistości nie postrzega go jako słowa.
Pouczający przykład
Wyobraźmy sobie, że uczymy się języka, w którym słowo "szkoła" jest zawsze reprezentowane przez liczbę "412". Gdyby ktoś zapytał nas, ile "o" jest w "412", nie bylibyśmy w stanie odpowiedzieć poprawnie, nie widząc nigdy tego słowa w całości. Modele językowe są w podobnej sytuacji: przetwarzają znaczenia poprzez liczby, bez dostępu do dosłownego składu słów.
Wyzwanie związane z wyrazami złożonymi
Problem staje się jeszcze gorszy w przypadku słów złożonych. "Timekeeper" jest podzielony na osobne tokeny, co utrudnia modelowi określenie dokładnej pozycji liter "i". Ta fragmentacja wpływa nie tylko na liczenie liter, ale także na zrozumienie wewnętrznej struktury słowa.
Rozwiązanie problemu truskawek (być może)
Przyszły model OpenAI, Strawberry, powinien przezwyciężyć to ograniczenie poprzez wprowadzenie innowacyjnego podejścia do przetwarzania tekstu. Zamiast polegać wyłącznie na tradycyjnej tokenizacji, model powinien być w stanie analizować słowa na poziomie poszczególnych liter, umożliwiając bardziej precyzyjne operacje liczenia i analizy.
Przyszłe implikacje
Znaczenie tego problemu wykracza poza proste liczenie liter. Taka możliwość analizy granularnej może znacznie poprawić zrozumienie lingwistyczne modeli sztucznej inteligencji, umożliwiając im rozwiązywanie problemów wymagających szczegółowej analizy tekstu na poziomie znaków.
Planowana integracja tej technologii będzie dużym postępem w kierunku modeli językowych, które są bardziej zdolne do "rozumowania" podstawowych szczegółów języka, a nie tylko wzorców statystycznych.


