Még fel sem ocsúdott a világ a chatbottá alakított nagy nyelvi modell (LLM) ChatGPT tavaly november végi debütálása után, márciusban már a GPT-4 és a Google Bard került a középpontba, miközben tömegek ismerkedtek meg olyan, már korábban létező generatív mesterséges intelligencia (MI) alkalmazások nevével, mint a Midjourney vagy a Dall-E. A minap 24 órán belül jelentette be a META, hogy elérhetővé teszi a több mint 4000 nyelvet felismerő nyelvi modelljét és a Microsoft, hogy a Windows 11-be integrálja GPT-4 alapú Copilot szolgáltatást. A gyors fejlemények közepette nehéz eligazodni. Egyesek szerint az MI ezen modelljei a produktivitás és a jólét elképesztő növekedéséhez, sőt akár ember feletti szuperintelligencia megjelenéséhez is vezethetnek a közeljövőben. A le- vagy kimaradástól való félelem (FOMO) miatt sokan előre rohannak az új eszközök használatával. Mások – köztük tanárok, művészek, forgatókönyvírók és számos más szakma képviselői – úgy érezhetik, hogy a generatív MI kihúzza a lábuk alól a talajt és megkérdőjelezi eddigi munkájuk értelmét. Vannak, akik egészen a demokrácia vagy az emberi társadalmak összeomlásáról vizionálnak.
Ebben a helyzetben nem túlzó a változás sebességét szédületesnek nevezni. Aki szédül, könnyen elveszíti az orientációját, márpedig ez utóbbira különösen nagy szükség lenne akkor, amikor gyorsan haladunk. Fontos a sebesség, de még fontosabb az irány.

Mi jelölhet ki egy stabil irányt számunkra egy ilyen gyorsan változó környezetben? Elsősorban annak világos felismerése, hogy az MI „csupán” egy eszköz, amelyet saját egyéni és kollektív céljaink és értékeink szolgálatába kell állítanunk.
Nehéznek vagy éppen feleslegesnek tűnhet a saját céljainkra koncentrálni, amikor azt érezzük, hogy a változás erői ellenállhatatlanul sodornak minket egy irányba, és az egyetlen megoldás úszni az árral, vigyen amerre visz. A hirtelen változások rövid távú hatását azonban hajlamosak vagyunk túlbecsülni. Talán még sokan emlékeznek arra, mennyien vallották, hogy a pandémia gyökeresen átalakítja az életünket, vagy hogy Oroszország Ukrajna elleni inváziója miatt Európa meg fog fagyni télen és óriási élelmiszerhiány lesz a világban. Utólag látható, hogy mindkét esemény rövid távú hatásai mérsékeltek voltak, míg valószínűleg mégiscsak fontos történelmi transzformációt indítottak be világunkban. Hasonló a helyzet az MI-vel is: míg hosszú távon valószínűleg gyökeresen át fogja alakítani az életünket, a változás fokozatosabb és lassabb lesz, mint amire ma számítunk. Számos jelentős MI-kutató, így Pedro Domingos vagy Yann LeCun gondolja úgy, hogy a jelenleg szenzációt keltő LLM-ek hamarosan kifulladnak és egy újabb, nem tudni mikor érkező tudományos áttörésig tetőznek az MI képességei.
Ráadásul a kihívások nagy részét az új LLM-ek csupán felerősítik, mintsem hogy létrehoznák. Gondoljunk csak az esszéiket másokkal megírató vagy az internetről összeollózó diákokra, akik most a ChatGPT-hez fordulnak. A felszín más, de a probléma gyökerei mélyek, és lehet, hogy pont ez a változás kényszerít rá minket arra, hogy szembenézzünk velük és a már részben létező megoldásokat végre megvalósítsuk. Van tehát elég szilárd talaj a lábunk alatt, ahonnan megtalálhatjuk irányunkat.
James Williamsnek a közösségi média és a figyelemgazdaság kapcsolatát tárgyaló munkájának keretét némileg átdolgozva ebben a kontextusban a következő három kérdés merül fel az LLM-ek használata kapcsán. Segít-e abban, hogy elérjük a céljainkat? Eltérít-e minket saját céljainktól? Képesek maradunk-e arra, hogy meghatározzuk saját céljainkat?
A kérdés megválaszolásához fontos az LLM-ek természetének jó ismerete, erősségeinek és korlátainak átlátása. A jelenlegi nagy nyelvi modellek olyan generatív matematikai modellek, amelyeket óriási mennyiségű ember alkotta nyelvi anyagon (írásos szövegen, hanganyagon, stb.) tanítanak, amely alapján a nyelvi adatokban található tokenek (karakterek, szavak, karakterláncok) statisztikai eloszlása alapján megjósolják az egyes tokenek valószínűségét egy azt megelőző vagy azt körülvevő nyelvi kontextusban, így szöveget generálva. Más szóval statisztikailag valószínű szövegeket generálnak promptok (a predikció alapjául szolgáló kezdeti kontextust nyújtó kérdés, szövegrészlet, stb.) alapján. Annak érdekében, hogy a modell „kreatívabb,” változatosabb szövegeket alkosson, egy bizonyos szintű véletlenszerűséget is bevisznek a prediktív mechanizmusba, hogy ne mindig a legnagyobb valószínűségű elemet válassza a modell. Az, hogy egy ilyen statisztikai modell a jelenleg elérhető mértékben tudja utánozni az emberi nyelvhasználatot, mindenképpen megdöbbentő eredmény, de ettől ezek még statisztikai alapú szöveggeneráló eszközök maradnak, nem pedig tudásmodellek vagy gondolkodó gépek.
A természete alapján mikor és miben hasznos eszköz a generatív MI a céljaink elérésében?
E modellek erőssége a nyelvi forma manipulálása, többek között egy megadott tartalom megfelelő stílusú szöveggé alakítása, egy szöveg nyelvi minőségének alakítása, szövegek összefoglalása, erősen formalizált nyelvek (pl. programnyelvek) használata, vagy éppen beszélgetések szimulálása (pl. nyelvtanulási céllal). A képalkotó modellek hasonlóképpen a képek formai elemével dolgoznak jól. Minden olyan munkaterületen, ahol egy már adott tartalom vagy ötlet gyorsan elfogadható formába öntése a cél vagy maga a formai nyelvi kimenet a fontos ezek az eszközök rendkívül hasznosnak bizonyulhatnak. A végeredmény azonban ebben az esetben is azon múlik, hogy van-e valaki, aki meg tudja ítélni a különböző kimenetek minőségét.
Jóval kérdésesebb az LLM-ek használata magának a tartalomnak a forrásaként. Természetükből fakadóan e statisztikai modelleknek nem céljuk, hogy megkülönböztessék az igaz és a hamis tartalmat, és híresen hajlamosak a „hallucinálásra” vagy „bullshitelésre,” tehát a valóságtól való eltérésre. Jellemző például, hogy nem különböztetik meg megbízhatóan az állító és tagadó kijelentéseket. Az általuk generált szövegekben található információ igazságtartalmát ennek megfelelően mindig ellenőrizni kell, ami viszont jelentősen csökkenti az értéküket. Elsősorban olyan kontextusban hasznosak, amikor az előhívott információ hitelességét előzetes ismeretei fényében a felhasználó könnyen meg tudja ítélni, amikor a nyelvi modellt tartalmában már alaposan ellenőrzött, szelektált adattal finomhangolják, vagy amikor a tartalom helyessége vagy hitelessége nem számít (pl. nem irodalmi értékű fiktív szövegek előállításakor).
Eltérít-e minket az MI saját céljainktól?
Mint más esetekben, az MI kapcsán is fontos, hogy az eszköz maga ne váljon céllá. A generatív modellek körüli szenzációs bejelentések és állítások azt sugallják, hogy aki nem használja őket az – eredeti céljától függetlenül – lemarad és veszít. Érdemes azonban időről-időre emlékeztetni magunkat arra, hogy a felhajtás jelentős része azoktól a nagy tech-cégektől származik, akik maguk is anyagilag érdekeltek abban, hogy minél előbb és minél többet használjuk termékeiket. A GPT-4 fantasztikus vizsgaeredményei nagy médianyilvánosságot kaptak, de az már kevésbé, hogy ez nagy valószínűséggel nem volt egy jó mértéke a teljesítményének, hiszen olyan adatokon tesztelték, amivel részben korábban már tanították. Hasonlóképpen sokan emlékezhetnek arra, hogy a Google azt állította, hogy MI-je „emergens tulajdonságként” megtanult bengáli nyelven, pedig nem is tanították rá, de arról kevesebben hallottak, hogy bizony benne volt a nyelv a tanuló adathalmazban. Ilyenkor a közösségi médiákon is megnő azon önjelölt szakértők száma, akik a „20 legjobb MI alkalmazás, ami megsokszorozza a produktivitásod” és hasonló címek alatt promótálnak kétes értékű applikációkat. A tech cégek célja, hogy mi MI-t használjunk, a LinkedIn-guruké, hogy pénzt kapjanak a szolgáltatások hirdetéséért. Ez az ő céljuk, nem a miénk. Ott és akkor használjuk az MI-t, ahol segít azt elérni, amit mi akarunk.
Képesek vagyunk-e arra, hogy meghatározzuk saját céljainkat?
Éppen nehezen tudod szavakba önteni a véleményedet és gyorsan generálsz egy szöveget a ChatGPT-vel. Nem egészen az, amit mondani szerettél volna, de legalább gyorsan kész van. Sőt, mire elolvasod, lehet, hogy már el is felejted, mi volt a véleményed, és már elhiszed, hogy mindig is azt akartad mondani, amit a chatbot megköltött számodra. Vagy talán még azt is gondolod, hogy a ChatGPT jobban tudja, mégiscsak Mesterséges Intelligencia.
Minek érveljünk, ha a gép is megteszi helyettünk? Miért gondolkodjunk ötleteken, ha kidob rögtön hármat a GPT-4? Minek szerezzünk tudást, ha bármikor kinyerjük egy okostelefonból? Ha azonban e feladatok mesterséges intelligenciának való kiszervezése következtében ezen készségeik elsorvadnak, az csökkenti és egyéni és kollektív autonómiánkat, azt, hogy magunk határozzuk meg, hogy mi történik velünk, és hogy mik a saját és közös céljaink. Ez a probléma fokozottan jelenik meg a nagy nyelvi modellek esetén, mert olyan magas szintű kognitív készségeket is szimulálni képesek (pl. kritikus gondolkodást, értékelést, kreativitást), amelyekkel valójában nem rendelkeznek. Más szóval anélkül válthatnak ki magas szintű kognitív készségeket, hogy azokat helyettesíteni tudnák. Ezek a kognitív készségek viszont pontosan ahhoz is szükségesek, hogy a technológiát felelősségteljesen és a saját céljainknak megfelelően tudjuk irányítani.
Szokás emlegetni, hogy annak idején a számológépeket is be akarták tiltani az iskolákban, ma meg milyen természetes a használatuk. Azt kevesebben említik meg, hogy természetesen addig nem használnak a kisiskolások számológépet, amíg el nem sajátították a matematika alapjait. Ha valaki nem gyakorolja az elemzést vagy a kritikus érvelést mert egy MI generál helyette egyet, az hogyan fejleszti azokat a készségeit, amelyek segítségével megítélheti, hogy az a kimenet vajon jó minőségű-e és megfelel az egyén vagy a tágabb társadalom céljainak?
A készségek elsorvadása nem automatizmus, sőt. Ha az MI eszközöket jól használjuk, akkor kiválthatnak számos unalmasabb és alacsonyabb értékű kognitív feladatot, miközben használatuk során gyakorolhatjuk és elsajátíthatjuk az értékesebb kritikai, értékelő, elemző készségeket, és gyorsabban növelhetjük tudásunkat. Az, hogy az optimista vagy pesszimista kimenetek közül végül melyik valósul meg, az leginkább attól függ majd, hogy oktatási rendszereink – ideértve a közoktatást, a felsőoktatást és a munkahelyi továbbképzéseket egyaránt – mennyire lesznek képesek szem előtt tartani saját elsődleges céljukat: kreatív, autonóm és felelős egyének és állampolgárok képzését, akik a mesterséges intelligenciát a maguk által meghatározott egyéni és kollektív jövőjük szolgálatába tudják állítani.
írta: Dr. Friedmann Viktor