Krytyczna analiza rzeczywistych przypadków użycia LLM: między obietnicą a rzeczywistością
Podczas gdy debata na temat rzeczywistej wartości dużych modeli językowych (LLM) trwa, konieczne jest krytyczne zbadanie rzeczywistych przypadków użycia wdrożonych przez firmy. Niniejsza analiza ma na celu zbadanie konkretnych zastosowań LLM w różnych sektorach, krytyczną ocenę ich rzeczywistej wartości, ograniczeń i potencjału.
E-commerce i handel detaliczny: ukierunkowana optymalizacja czy nadmierna inżynieria?
W sektorze handlu detalicznego i e-commerce, LLM są wykorzystywane do różnych zadań:
- Wewnętrzni asystenci i usprawnienie przepływu pracy: Instacart opracował asystenta AI o nazwie Ava, aby wspierać zespoły w pisaniu, recenzowaniu i debugowaniu kodu, usprawniać komunikację i budować wewnętrzne narzędzia. Choć obiecujący, można się zastanawiać, czy asystenci ci oferują znacznie większą wartość niż bardziej tradycyjne i mniej złożone narzędzia do współpracy.
- Moderacja treści i bezpieczeństwo: Whatnot wykorzystuje LLM w celu usprawnienia multimodalnej moderacji treści, ochrony przed oszustwami i wykrywania nieprawidłowości w ofertach. Zillow wykorzystuje LLM do identyfikacji dyskryminujących treści w ogłoszeniach dotyczących nieruchomości. Przypadki te reprezentują konkretne zastosowania, w których LLM może zaoferować rzeczywistą wartość, ale wymagają dokładnych systemów weryfikacji, aby uniknąć fałszywych wyników pozytywnych i negatywnych.
- Ekstrakcja i klasyfikacja informacji: OLX stworzył Prosus AI Assistant do identyfikacji ról zawodowych w ogłoszeniach, podczas gdy Walmart opracował system do wyodrębniania atrybutów produktów z plików PDF. Przypadki te pokazują przydatność LLM w automatyzacji powtarzalnych zadań, które w przeciwnym razie wymagałyby znacznej pracy ręcznej.
- Kreatywne generowanie treści: StitchFix łączy algorytmicznie generowany tekst z nadzorem człowieka, aby uprościć tworzenie nagłówków reklam i opisów produktów. Instacart generuje obrazy produktów spożywczych. Aplikacje te rodzą pytania o oryginalność generowanych treści i potencjalną homogenizację języka reklamowego.
- Ulepszenie wyszukiwania: Leboncoin, Mercado Libre i Faire wykorzystują LLM do poprawy trafności wyszukiwania, podczas gdy Amazon wykorzystuje LLM do zrozumienia zdroworozsądkowych relacji i zapewnienia bardziej trafnych rekomendacji produktów. Przypadki te reprezentują obszar, w którym wartość dodana LLM jest potencjalnie znacząca, ale złożoność obliczeniowa i związane z nią koszty energii mogą nie uzasadniać przyrostowej poprawy w stosunku do istniejących algorytmów wyszukiwania.
Fintech i bankowość: nawigacja między wartością a ryzykiem regulacyjnym
W sektorze finansowym LLM stosuje się ostrożnie, biorąc pod uwagę wrażliwy charakter danych i rygorystyczne wymogi regulacyjne:
- Klasyfikacja i tagowanie danych: Grab wykorzystuje LLM do zarządzania danymi, klasyfikowania podmiotów, identyfikowania wrażliwych informacji i przypisywania odpowiednich tagów. Ten przypadek użycia jest szczególnie interesujący, ponieważ stanowi krytyczne wyzwanie dla instytucji finansowych, ale wymaga ścisłych mechanizmów kontroli w celu uniknięcia błędów klasyfikacji.
- Generowanie raportów dotyczących przestępstw finansowych: SumUp generuje ustrukturyzowane narracje dla raportów dotyczących oszustw finansowych i prania pieniędzy. Aplikacja ta, choć obiecująca zmniejszenie ręcznego nakładu pracy, budzi obawy co do zdolności LLM do właściwego radzenia sobie z wrażliwymi prawnie tematami bez nadzoru człowieka.
- Wsparcie dla zapytań finansowych: Digits sugeruje zapytania związane z transakcjami bankowymi. Ten przypadek użycia pokazuje, w jaki sposób LLM może pomóc profesjonalistom, nie zastępując ich, co jest potencjalnie bardziej zrównoważonym podejściem niż pełna automatyzacja.
Technologia: Automatyzacja i serwis
W sektorze technologicznym LLM są szeroko stosowane w celu usprawnienia wewnętrznych przepływów pracy i doświadczenia użytkownika:
- Zarządzanie incydentami i bezpieczeństwo: Według security.googleblog.com, Google używa LLM do dostarczania podsumowań incydentów związanych z bezpieczeństwem i prywatnością dla różnych odbiorców, w tym kadry kierowniczej, menedżerów i zespołów partnerskich. Takie podejście oszczędza czas menedżerów i poprawia jakość podsumowań incydentów. Microsoft wykorzystuje LLM do diagnozowania incydentów produkcyjnych, podczas gdy Meta opracowała system analizy przyczyn źródłowych wspomagany przez sztuczną inteligencję. Incident.io generuje podsumowania incydentów związanych z oprogramowaniem. Przypadki te pokazują wartość LLM w przyspieszaniu krytycznych procesów, ale rodzą pytania o ich niezawodność w sytuacjach o wysokiej stawce.
- Pomoc w programowaniu: GitHub Copilot oferuje sugestie dotyczące kodu i automatyczne uzupełnianie, podczas gdy Replit opracował LLM do naprawy kodu. NVIDIA wykorzystuje LLM do wykrywania luk w oprogramowaniu. Narzędzia te zwiększają produktywność programistów, ale mogą również propagować nieefektywne lub niebezpieczne wzorce kodu, jeśli są używane bezkrytycznie.
- Zapytania dotyczące danych i wyszukiwanie wewnętrzne: Honeycomb pomaga użytkownikom pisać zapytania dotyczące danych, Pinterest zamienia zapytania użytkowników w zapytania SQL. Przypadki te pokazują, w jaki sposób LLM może zdemokratyzować dostęp do danych, ale może również prowadzić do błędnej interpretacji lub nieefektywności bez dogłębnego zrozumienia podstawowych struktur danych.
- Klasyfikacja i zarządzanie zgłoszeniami do pomocy technicznej: GoDaddy klasyfikuje zgłoszenia do pomocy technicznej, aby poprawić jakość obsługi klienta. Dropbox podsumowuje i odpowiada na pytania dotyczące plików. Przypadki te pokazują potencjał LLM w poprawie obsługi klienta, ale budzą obawy co do jakości i dokładności generowanych odpowiedzi.
Dostawy i mobilność: wydajność operacyjna i personalizacja
W sektorze dostaw i mobilności, LLM są wykorzystywane do poprawy wydajności operacyjnej i doświadczenia użytkownika:
- Testowanie i wsparcie techniczne: Uber wykorzystuje LLM do testowania aplikacji mobilnych za pomocą DragonCrawl i zbudował Genie, drugiego pilota AI, który odpowiada na pytania wsparcia. Narzędzia te mogą znacznie skrócić czas poświęcany na testowanie i wsparcie, ale mogą nie wychwytywać złożonych problemów lub przypadków brzegowych, tak jak zrobiłby to ludzki tester.
- Wyodrębnianie i dopasowywanie informacji o produktach: DoorDash wyodrębnia szczegóły produktów z danych SKU, a Delivery Hero dopasowuje swoje zapasy do produktów konkurencji. Przypadki te pokazują, w jaki sposób LLM może zautomatyzować złożone procesy dopasowywania danych, ale może wprowadzić stronniczość lub błędną interpretację bez odpowiedniej kontroli.
- Wyszukiwanie konwersacyjne i trafność: Picnic poprawia trafność wyszukiwania list produktów, podczas gdy Swiggy wdrożył wyszukiwanie neuronowe, aby pomóc użytkownikom odkrywać żywność i artykuły spożywcze w sposób konwersacyjny. Przypadki te ilustrują, w jaki sposób LLM mogą sprawić, że interfejsy wyszukiwania będą bardziej intuicyjne, ale mogą również tworzyć "bańki filtrujące", które ograniczają odkrywanie nowych produktów.
- Automatyzacja wsparcia: DoorDash zbudował chatbota wsparcia opartego na LLM, który pobiera informacje z bazy wiedzy w celu wygenerowania odpowiedzi, które szybko rozwiązują problemy. Takie podejście może poprawić czas reakcji, ale wymaga solidnych zabezpieczeń, aby poradzić sobie ze złożonymi lub emocjonalnie naładowanymi sytuacjami.
Serwisy społecznościowe, media i B2C: spersonalizowane treści i interakcje
W mediach społecznościowych i usługach B2C, LLM są wykorzystywane do tworzenia spersonalizowanych treści i poprawy interakcji:
- Analiza i moderacja treści: Yelp zaktualizował swój system moderacji treści za pomocą LLM, aby wykrywać groźby, nękanie, obsceniczność, ataki osobiste lub mowę nienawiści. LinkedIn analizuje różne treści na platformie w celu wyodrębnienia informacji o umiejętnościach. Przypadki te pokazują potencjał LLM w poprawie jakości treści, ale budzą obawy o cenzurę i potencjalne ograniczenie wolności słowa.
- Generowanie treści edukacyjnych i marketing: Duolingo wykorzystuje LLM, aby pomóc projektantom w generowaniu odpowiednich ćwiczeń, podczas gdy Nextdoor wykorzystuje LLM do tworzenia przyciągających wzrok obiektów e-mail. Aplikacje te mogą zwiększyć wydajność, ale mogą też prowadzić do nadmiernej standaryzacji treści.
- Wielojęzyczne tłumaczenie i komunikacja: Roblox wykorzystuje dostosowany model wielojęzyczny, aby umożliwić użytkownikom płynną komunikację przy użyciu ich własnego języka. Aplikacja ta pokazuje potencjał LLM w pokonywaniu barier językowych, ale może wprowadzać niuanse kulturowe w tłumaczeniach.
- Interakcja z treściami multimedialnymi: Vimeo pozwala użytkownikom na konwersację z filmami za pomocą systemu pytań i odpowiedzi opartego na RAG, który może podsumowywać treści wideo, łączyć się z kluczowymi momentami i sugerować dodatkowe pytania. Aplikacja ta pokazuje, w jaki sposób LLM może zmienić sposób interakcji z treściami multimedialnymi, ale rodzi pytania o wierność generowanych interpretacji.
Krytyczna ocena: rzeczywista wartość kontra podążanie za trendem
Jak zauważa Chitra Sundaram, dyrektor ds. zarządzania danymi w Cleartelligence, Inc., "LLM to pożeracze zasobów. Szkolenie i uruchamianie tych modeli wymaga ogromnej mocy obliczeniowej, co prowadzi do znacznego śladu węglowego. Zrównoważone IT polega na optymalizacji wykorzystania zasobów, minimalizacji marnotrawstwa i wyborze rozwiązania o odpowiednim rozmiarze". Ta obserwacja jest szczególnie istotna podczas analizy przedstawionych przypadków użycia.
Analizując te przypadki użycia, pojawia się kilka krytycznych kwestii:
1. Wartość przyrostowa a złożoność
Wiele zastosowań LLM oferuje przyrostową poprawę w stosunku do istniejących rozwiązań, ale przy znacznie wyższych kosztach obliczeniowych, energetycznych i wdrożeniowych. Jak stwierdza Chitra Sundaram, "użycie LLM do obliczenia prostej średniej jest jak użycie bazooki do trafienia muchy" (paste-2.txt). Kluczowe znaczenie ma ocena, czy wartość dodana uzasadnia tę złożoność, zwłaszcza biorąc pod uwagę:
- Potrzeba solidnych systemów monitorowania
- Koszty energii i wpływ na środowisko
- Złożoność konserwacji i aktualizacji
- Wymagania dotyczące umiejętności specjalistycznych
2. Zależność od ludzkiego nadzoru
Większość udanych przypadków użycia utrzymuje podejście "człowiek w pętli", w którym LLM raczej wspomaga niż całkowicie zastępuje ludzką interwencję. Sugeruje to, że:
- Pełna automatyzacja poprzez LLM pozostaje problematyczna
- Główną wartością jest zwiększanie ludzkich możliwości, a nie ich zastępowanie
- Skuteczność zależy od jakości interakcji człowiek-maszyna
3. Specyfika domeny a aplikacje ogólne
Najbardziej przekonujące przypadki użycia to te, w których LLM zostały zaadaptowane i zoptymalizowane dla konkretnych domen, z osadzoną w nich wiedzą dziedzinową:
- Dostrajanie na podstawie danych branżowych
- Integracja z istniejącymi systemami i źródłami wiedzy
- Poręcze i ograniczenia kontekstowe
4. Integracja z istniejącymi technologiami
Najskuteczniejsze przypadki nie wykorzystują LLM w izolacji, ale uzupełniają go:
- Systemy odzyskiwania i archiwizacji danych (RAG)
- Specjalistyczne algorytmy i istniejące przepływy pracy
- Mechanizmy weryfikacji i kontroli
Jak podkreśla przypadek użycia Google, integracja LLM z przepływami pracy związanymi z incydentami bezpieczeństwa i prywatności umożliwia "przyspieszoną reakcję na incydenty przy użyciu generatywnej sztucznej inteligencji", z generowanymi podsumowaniami dostosowanymi do różnych odbiorców, zapewniając, że odpowiednie informacje docierają do właściwych osób w najbardziej użytecznym formacie.
.webp)
Podsumowanie: Pragmatyczne podejście do LLM
Chitra Sundaram oferuje pouczającą perspektywę, gdy mówi: "Droga do zrównoważonej analizy polega na wyborze odpowiedniego narzędzia do pracy, a nie tylko na podążaniu za najnowszym trendem. Chodzi o inwestowanie w wykwalifikowanych analityków i solidne zarządzanie danymi. Chodzi o uczynienie zrównoważonego rozwoju kluczowym priorytetem".
Analiza tych rzeczywistych przypadków użycia potwierdza, że LLM nie jest cudownym rozwiązaniem, ale potężnym narzędziem, które zastosowane strategicznie do konkretnych problemów, może zaoferować znaczącą wartość. Organizacje powinny:
- Identyfikacja konkretnych problemów, w których przetwarzanie języka naturalnego oferuje znaczną przewagę nad tradycyjnymi podejściami
- Zacznij od projektów pilotażowych, które mogą szybko i wymiernie wykazać wartość.
- Integracja LLM z istniejącymi systemami zamiast całkowitego zastępowania przepływów pracy
- Utrzymanie mechanizmów nadzoru nad ludźmi, zwłaszcza w przypadku aplikacji o znaczeniu krytycznym.
- Systematycznie oceniaj stosunek kosztów do korzyści, biorąc pod uwagę nie tylko poprawę wydajności, ale także koszty energii, konserwacji i modernizacji.
Firmy, które prosperują w erze LLM, to niekoniecznie te, które przyjmują je najszerzej, ale te, które stosują je najbardziej strategicznie, równoważąc innowacje i pragmatyzm oraz krytycznie patrząc na rzeczywistą wartość generowaną poza szumem.


