Keresőmotorok és algoritmusok,  Technikai SEO

Csak néhány mérgezett dokumentum képes megfertőzni bármilyen méretű nagy nyelvi modellt

Az utóbbi időszakban egy figyelemre méltó kutatás látott napvilágot, amely rámutat arra, hogy a nagy nyelvi modellek (LLM-ek) – mérettől függetlenül – kis mennyiségű rosszindulatú adat által is sérülékennyé válhatnak. Egy brit és nemzetközi együttműködés eredményeként kiderült, hogy mindössze 250 célzottan megmérgezett dokumentum elegendő ahhoz, hogy „hátsó ajtót” (backdoor) nyissanak ezekben a modellekben. Ez a felfedezés alapjaiban kérdőjelezi meg az eddigi feltételezéseket, melyek szerint a támadóknak jelentős arányú mérgezett adatot kellene bejuttatniuk a tanulási folyamatba.

A kutatásban a UK AI Security Institute, az Alan Turing Institute és az Anthropic Alignment Science csapata működött együtt, és az eredmények egyértelműen azt mutatják: nem a modell mérete vagy a tanuló adatok mennyisége befolyásolja a támadás sikerességét, hanem az abszolút mérgezett dokumentumok száma. Ez a felfedezés új megvilágításba helyezi a gépi tanulási rendszerek biztonsági kihívásait, különösen akkor, amikor ezeket érzékeny feladatokra kívánjuk alkalmazni.

Mi is az a „hátsó ajtó” és hogyan működik a mérgezés?

Nagy nyelvi modelleket, mint például a Claude vagy más hasonló rendszerek, hatalmas mennyiségű nyilvános szövegből tanítanak, melyek között személyes blogok, weboldalak is megtalálhatók. Ez a nyitottság lehetőséget ad arra, hogy bárki befolyásolhassa a tanuló adatokat, akár rosszindulatúan is. A mérgezés során a támadók célzott szövegrészeket helyeznek el, amelyek egy speciális „triggert” tartalmaznak, például egy különleges kulcsszót, amely kiváltja a modelltől a nem kívánt viselkedést.

A „hátsó ajtó” tulajdonképpen egy olyan rejtett parancs vagy jel, amely hatására a modell olyan választ ad, amely egyébként nem jelenne meg. Például egy adott kulcsszó hatására a modell véletlenszerű, értelmetlen szöveget generálhat, vagy akár érzékeny adatokat is kiszivárogtathat. Ez komoly biztonsági kockázatot jelent, különösen ha a mesterséges intelligenciát olyan területeken alkalmazzák, ahol a megbízhatóság és az adatvédelem kritikus.

Kutatási eredmények: a méret nem számít

A tanulmány során különböző méretű modelleket teszteltek: 600 millió, 2 milliárd, 7 milliárd és 13 milliárd paraméteres változatokat. Minden modellt a hozzájuk optimálisan illeszkedő mennyiségű tiszta adaton képezték, és különböző számú mérgezett dokumentummal – 100, 250 és 500 darab – próbálták meg befolyásolni a tanulást.

Az egyik legmeglepőbb eredmény az volt, hogy a mérgezett dokumentumok számának növekedése és a modell mérete között nem találtak arányosságot. Míg a 13 milliárd paraméteres modell több mint 20-szor annyi tiszta adatot használt, mint a 600 milliós, mindkét esetben már 250 mérgezett dokumentum elegendő volt a sikeres „hátsó ajtó” betanításához.

Ez azt jelenti, hogy nem kell a tanuló adatok jelentős százalékát ellenőrizni vagy befolyásolni a támadóknak, hanem egy kis, fix mennyiségű rosszindulatú tartalom is elegendő lehet a modell manipulálásához.

Technikai részletek és a kísérlet menete

A kutatók egy úgynevezett „denial-of-service” (DoS) típusú támadást vizsgáltak, amelynek célja, hogy a modell véletlenszerű, értelmetlen szöveget generáljon, amikor egy adott trigger kifejezést – jelen esetben a <SUDO> kulcsszót – észlel. A mérgezett dokumentumokat úgy állították össze, hogy egy véletlenszerűen kiválasztott, rövid szövegrészlet után elhelyezték a triggert, majd ezt követően értelmetlen szóhalmazt adtak hozzá.

A modelleket rendszeresen értékelték a tanulás során, és azt vizsgálták, mennyire képes a trigger hatására a modell „zavart” vagy értelmetlen válaszokat adni. A sikeres támadás egyik mérőszáma az úgynevezett perplexity volt, amely a modell által generált szöveg kiszámíthatóságát jelzi – minél magasabb, annál véletlenszerűbb a szöveg.

Következtetések és további kutatási irányok

A tanulmány rávilágít arra, hogy a nagy nyelvi modellek sebezhetősége nem csupán a mérettől vagy a tanulási adatok mennyiségétől függ. Egy kis, jól megtervezett rosszindulatú adatcsomag is képes komoly kárt okozni. Ez felhívja a figyelmet arra, hogy a mesterséges intelligencia biztonsága érdekében új, hatékony védekezési mechanizmusokat kell fejleszteni, amelyek képesek felismerni és semlegesíteni az ilyen mérgezési kísérleteket.

Fontos megjegyezni, hogy bár a kutatás jelenleg „alacsony kockázatú” viselkedéseket vizsgált, például véletlenszerű szöveg generálását, a jövőbeni munkák célja az lesz, hogy feltárják a komplexebb és potenciálisan veszélyesebb támadások lehetőségét is. A kutatók hangsúlyozzák, hogy a nyilvánosságra hozott eredmények ösztönözhetik a védekezési technikák fejlesztését, ezáltal erősítve az AI rendszerek biztonságát és megbízhatóságát.

A teljes tanulmány elérhető a kutatócsoportok weboldalán, amely további részleteket és technikai magyarázatokat tartalmaz az elvégzett kísérletekről és azok eredményeiről.

Forrás: az eredeti angol cikk itt olvasható

Szólj hozzá

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük