Ludzka a sztuczna kreatywność: na czym polega różnica (i dlaczego styl Ghibli czegoś nas uczy)
Debata na temat sztucznej inteligencji i praw autorskich nasiliła się dramatycznie w latach 2024-2025. Nie są to już teoretyczne dyskusje: The New York Times pozwał OpenAI za naruszenie praw autorskich (grudzień 2023 r.), Getty Images pozwał Stability AI, a tysiące artystów złożyło pozwy zbiorowe. Firmy zajmujące się sztuczną inteligencją odpowiadają, że ich systemy "uczą się" tak samo jak ludzie - ale czy tak jest naprawdę?
Ludzka kreatywność zawsze rozwijała się poprzez powiązania: Szekspir inspirował się historycznymi kronikami i ludowymi opowieściami, Van Gogh studiował japońskie grafiki, Beatlesi zaczynali od grania amerykańskiego rocka. Artyści zawsze reinterpretują poprzednie dzieła. Sztuczna inteligencja, mówią firmy technologiczne, robi to samo. Ale przypadek "stylu Ghibli" pokazuje, jak uproszczona jest ta narracja.
Wpisz "Ghibli style" w Midjourney lub DALL-E, a otrzymasz obrazy uderzająco podobne do arcydzieł Hayao Miyazakiego: pastelowe kolory, puszyste chmury, marzycielskie krajobrazy, postacie z wielkimi oczami. Jest to technicznie imponujące. Jest też głęboko problematyczne.
Studio Ghibli potrzebowało dziesięcioleci, aby rozwinąć tę charakterystyczną estetykę: precyzyjny wybór palety kolorów, tradycyjne techniki animacji i filozofia artystyczna zakorzeniona w japońskiej kulturze i osobistej wizji Miyazakiego. Kiedy model AI odtwarza ten "styl" w kilka sekund, czy naprawdę "uczy się" tak, jak Miyazaki uczył się z animacji Disneya i japońskiej mangi? A może po prostu rekombinuje wzorce wizualne wyodrębnione z tysięcy klatek Ghibli bez pozwolenia?
Różnica nie jest filozoficzna - jest prawna i ekonomiczna. Zgodnie z analizą Stanforda opublikowaną w arXiv (Carlini i in., 2023), modele dyfuzyjne, takie jak Stable Diffusion, mogą regenerować niemal identyczne obrazy ze zbioru treningowego w około 3% przypadków, gdy zostaną poproszone o konkretne podpowiedzi. To nie jest "inspiracja", to przechowywanie i reprodukcja.
Polski artysta cyfrowy Greg Rutkowski odkrył, że jego nazwisko pojawiło się w 1,2 miliona podpowiedzi na Stable Diffusion - nieumyślnie stając się jednym z najbardziej pożądanych "stylów" bez wyrażenia zgody lub otrzymania wynagrodzenia. Jak powiedział MIT Technology Review: "Nie pochlebia mi to. Czuję się, jakby ukradziono mi coś, co budowałem przez lata.
Skala szkolenia sztucznej inteligencji osiągnęła bezprecedensową skalę. LAION-5B, jeden z najczęściej używanych zbiorów danych dla modeli obrazów, zawiera 5,85 miliarda par obraz-tekst zebranych z Internetu - w tym dzieła chronione prawem autorskim. GPT-4 został wytrenowany na ogromnych fragmentach Internetu, w tym płatnych artykułach, książkach i zastrzeżonym kodzie oprogramowania.
Trwające poważne działania prawne:
Firmy zajmujące się sztuczną inteligencją bronią tej praktyki, powołując się na "dozwolony użytek" zgodnie z prawem amerykańskim: argumentują, że szkolenie jest "transformacyjne" i nie zastępuje oryginalnego rynku. Kilka sądów kwestionuje jednak tę interpretację.
Sędzia Katherine Forrest, w sprawie Getty przeciwko Stability AI, odrzuciła wniosek o oddalenie w styczniu 2024 r., zezwalając na kontynuowanie sprawy: "Kwestia, czy szkolenie modeli AI stanowi dozwolony użytek, jest złożona i wymaga dokładnego zbadania faktów. Tłumaczenie: Firmy zajmujące się sztuczną inteligencją nie mogą po prostu powoływać się na dozwolony użytek i mieć to za sobą.
W obliczu presji prawnej firmy zajmujące się sztuczną inteligencją zaczęły negocjować licencje. OpenAI zawarło umowy z:
Google podpisał podobne umowy z Reddit, Stack Overflow i różnymi wydawcami. Anthropic negocjował z wydawcami wykorzystanie książek.
Umowy te obejmują jednak tylko dużych wydawców posiadających siłę negocjacyjną. Miliony indywidualnych twórców - artystów, fotografów, niezależnych pisarzy - pozostają bez wynagrodzenia za prace wykorzystane w już ukończonych szkoleniach.
Narracja "AI uczy się jak ludzie" jest technicznie myląca. Przyjrzyjmy się podstawowym różnicom:
Skala i szybkość: Ludzki artysta studiuje być może setki lub tysiące dzieł w ciągu życia. GPT-4 został wytrenowany na bilionach słów. Stable Diffusion na miliardach obrazów. Skala jest nieporównywalna i przekracza jakąkolwiek rozsądną definicję "inspiracji".
Zrozumienie semantyczne: Kiedy Van Gogh studiował japońskie grafiki, nie kopiował mechanicznie wzorców wizualnych - rozumiał podstawowe zasady estetyczne (użycie negatywnej przestrzeni, asymetryczna kompozycja, nacisk na naturę) i reinterpretował je poprzez swoją europejską postimpresjonistyczną wizję. Jego prace są świadomymi syntezami kulturowymi.
Modele sztucznej inteligencji nie "rozumieją" w ludzkim sensie. Jak wyjaśnia Melanie Mitchell, profesor w Santa Fe Institute, w swoim "Artificial Intelligence: A Guide for Thinking Humans": "Systemy głębokiego uczenia doskonale radzą sobie z rozpoznawaniem wzorców, ale brakuje im zrozumienia przyczynowego, abstrakcyjnego rozumowania lub mentalnych modeli świata. Stable Diffusion nie "rozumie", co wyróżnia Ghibli - wyodrębnia statystyczne korelacje między milionami pikseli oznaczonych jako "styl Ghibli".
Intencjonalność twórcza: artyści dokonują świadomych wyborów twórczych w oparciu o osobistą wizję, przesłanie, które chcą przekazać, emocje, które chcą wywołać. Miyazaki włącza do swoich filmów tematy ekologiczne, pacyfizm, feminizm - świadome wybory moralne i artystyczne.
Sztuczna inteligencja generuje na podstawie prawdopodobieństwa statystycznego: "biorąc pod uwagę podpowiedź X i zestaw treningowy Y, która konfiguracja pikseli jest najbardziej prawdopodobna?". Nie ma intencjonalności, przesłania, wizji. Jak napisał Ted Chiang w The New Yorker: "ChatGPT to rozmyty jpeg sieci" - stratna kompresja, która traci dokładnie te cechy, które sprawiają, że oryginalna treść jest wartościowa.
Transformacja a rekombinacja: Pablo Picasso studiował afrykańskie maski, ale stworzył kubizm - zupełnie nowy ruch artystyczny, który na nowo wymyślił przestrzenną reprezentację w malarstwie. Transformacja była radykalna i oryginalna.
Modele generatywnej sztucznej inteligencji działają poprzez interpolację w ukrytej przestrzeni: rekombinują elementy zestawu treningowego w nowe konfiguracje, ale pozostają związane z rozkładem statystycznym danych, na których zostały przeszkolone. Nie mogą wymyślić prawdziwie nowej estetyki, która narusza wyuczone prawidłowości statystyczne. Jak wykazały badania MIT (Shumailov i in., 2023), modele wielokrotnie trenowane na poprzednich wynikach AI ulegają stopniowej degeneracji - zjawisko to nazywane jest "załamaniem modelu".
Oto główny paradoks: sztuczna inteligencja może generować wyniki, które wyglądają oryginalnie (żaden człowiek nigdy wcześniej nie widział tego konkretnego obrazu w stylu Ghibli), ale są statystycznie pochodne (są interpolacjami istniejących wzorców). Jest to powierzchowna forma oryginalności bez fundamentalnej innowacji.
Ma to głębokie implikacje. Jak argumentował filozof John Searle w swoim słynnym "argumencie z chińskiego pokoju": symulowanie procesu poznawczego to nie to samo, co jego posiadanie. Sztuczna inteligencja może symulować kreatywność, nie będąc kreatywną w ludzkim tego słowa znaczeniu.
W obliczu kontrowersji opracowywane są różne rozwiązania:
Narzędzia ochrony dla artystów:
Rejestry rezygnacji:
Ramy wynagrodzeń:
Przepisy rządowe:
Unijna ustawa o sztucznej inteligencji (weszła w życie w sierpniu 2024 r.) wymaga od dostawców generatywnych modeli sztucznej inteligencji publikowania szczegółowych podsumowań wykorzystanych danych szkoleniowych objętych prawami autorskimi. Jest to pierwsza regulacyjna próba narzucenia przejrzystości.
Ustawa Tennessee ELVIS Act (marzec 2024 r.) w szczególności chroni wykonawców głosu i podobizny przed nieautoryzowanym wykorzystaniem w pierwszych stanach USA z konkretnymi przepisami dotyczącymi głębokiego głosu i wizualnych podróbek.
Propozycje skierowane do Kongresu USA obejmują wnioski o wyraźną zgodę na korzystanie z utworów chronionych prawem autorskim (zamiast rezygnacji) oraz utworzenie publicznych rejestrów szkoleniowych zbiorów danych.
Dwie wizje przyszłości ścierają się ze sobą:
Optymistyczny pogląd (firmy zajmujące się sztuczną inteligencją): sztuczna inteligencja jest narzędziem wzmacniającym ludzką kreatywność, takim jak Photoshop czy syntezatory muzyki. Artyści będą wykorzystywać sztuczną inteligencję do przyspieszania procesów pracy, odkrywania wariacji i przezwyciężania blokad twórczych. Pojawią się hybrydowe formy sztuki, w których ludzie kierują wizją, a sztuczna inteligencja wykonuje części techniczne.
Konkretne przykłady już istnieją: film "The Frost" (2023) wykorzystał sztuczną inteligencję do generowania tła i tekstur, a ludzcy artyści kierowali reżyserią. Muzycy używają Suno i Udio do generowania podkładów do improwizacji. Pisarze używają GPT jako "gumowej kaczki" do omawiania pomysłów narracyjnych.
Pesymistyczny pogląd (wielu twórców): Sztuczna inteligencja utowarowi kreatywność, erodując ekonomiczną wartość kreatywnej pracy, aż przetrwają tylko elity o wyjątkowych umiejętnościach. Przeciętna kreatywność zostanie zastąpiona tanimi generatorami, niszcząc kreatywną klasę średnią - podobnie jak automatyzacja przemysłowa wyeliminowała rzemieślników w XIX wieku.
Wstępne dowody potwierdzają te obawy: na platformach dla freelancerów, takich jak Fiverr, liczba zapytań o ilustratorów i copywriterów spadła o 21% w 2023 r. (dane Fiverr za 4 kwartał 2023 r.), podczas gdy oferty "generowania sztuki AI" eksplodowały. Greg Rutkowski odnotował spadek bezpośrednich zleceń o 40%, odkąd jego styl stał się popularny na Stable Diffusion.
Prawda prawdopodobnie leży gdzieś pomiędzy: niektóre formy kreatywnej pracy zostaną zautomatyzowane (ogólne ilustracje stockowe, podstawowe copy marketing), podczas gdy wysoce oryginalna, konceptualna, kulturowo zakorzeniona kreatywność pozostanie domeną człowieka.
Rozróżnienie między treściami stworzonymi przez ludzi i sztuczną inteligencję będzie coraz trudniejsze. Już dziś, bez znaków wodnych lub ujawnienia, często niemożliwe jest odróżnienie tekstu GPT-4 od tekstu ludzkiego lub obrazów Midjourney od zdjęć. Kiedy Sora (generator wideo OpenAI) stanie się publiczny, rozróżnienie to obejmie również wideo.
Rodzi to głębokie pytania o autentyczność. Jeśli wygenerowany przez SI obraz w stylu Ghibli wywołuje takie same emocje jak oryginał, to czy ma taką samą wartość? Filozof Walter Benjamin w swoim "The Work of Art in the Age of its Technical Reproducibility" (1935) argumentował, że mechaniczna odtwarzalność niszczy "aurę" oryginalnego dzieła - jego przestrzenno-czasową wyjątkowość i autentyczność.
Generatywna sztuczna inteligencja doprowadza ten argument do skrajności: nie odtwarza istniejących dzieł, ale generuje nieskończone wariacje, które symulują oryginał, nie będąc nim. To Baudrillardowskie symulakrum - kopia bez oryginału.
Jest jednak coś nieredukowalnie ludzkiego w świadomym akcie twórczym: artysta, który wybiera każde pociągnięcie pędzla, wiedząc, co chce przekazać, pisarz, który tworzy każdą frazę, aby wywołać określone emocje, kompozytor, który celowo buduje napięcie i rozwiązanie. Sztuczna inteligencja może symulować rezultat, ale nie proces - i być może to właśnie w tym procesie leży autentyczna wartość kreatywności.
Jak Studio Ghibli napisało w oświadczeniu (listopad 2023): "Dusza naszych filmów nie leży w stylu wizualnym, który można skopiować, ale w kreatywnych decyzjach, które podejmujemy klatka po klatce, aby służyć historii, którą chcemy opowiedzieć. Tego nie da się zautomatyzować".
Ostatecznie wartość sztuki wynika z jej zdolności do głębokiego łączenia się z ludzkim doświadczeniem - abyśmy poczuli się zrozumiani, zakwestionowani, przekształceni. To, czy można to osiągnąć za pomocą sztucznej inteligencji, pozostaje kwestią otwartą. Ale dopóki sztuka jest tworzona przez ludzi dla ludzi, mówiąc o ludzkiej kondycji, zachowa coś, czego żaden algorytm nie może odtworzyć: autentyczność żywego doświadczenia przełożonego na formę estetyczną.
Źródła: