Hogyan oldja meg az Anthropic a hosszú futamidejű AI ügynökök kihívásait a Claude Agent SDK-val?
Az utóbbi években az AI ügynökök képességei jelentősen fejlődtek, így egyre gyakrabban bíznak rájuk összetett, akár órákon vagy napokon át tartó feladatokat is. Azonban a hosszabb távú, több munkameneten átívelő projektek kezelése komoly kihívást jelent, mivel az AI-ügynökök minden egyes új munkamenetben elveszítik az előzőek során gyűjtött kontextust és emlékeket. Ez olyan, mintha egy szoftverfejlesztő csapatban minden műszakban egy teljesen új mérnök kezdene dolgozni előzmények nélkül, ami megnehezíti a folyamatos, következetes előrehaladást.
Az Anthropic kutatói ezt a problémát a Claude Agent SDK fejlesztése során vizsgálták, és egy kétlépcsős megoldást dolgoztak ki, amely lehetővé teszi, hogy az AI ügynökök hatékonyan dolgozzanak több kontextusablakon át, megtartva a folyamatosságot.
A hosszú futamidejű AI ügynökök legnagyobb kihívása
A Claude Agent SDK egy általános célú AI-háttérrendszer, amely képes komplex feladatokat elvégezni, például programozni, miközben különböző eszközöket használ a kontextus begyűjtésére, tervezésre és végrehajtásra. Bár a rendszer rendelkezik olyan kontextuskezelési funkciókkal, mint a „compaction” (tömörítés), amely lehetővé teszi, hogy az ügynök ne merítse ki gyorsan a kontextusablak kapacitását, ez önmagában nem elég a hosszú távú, összetett projektek megvalósításához.
A kutatók megfigyelték, hogy a Claude AI rendszer két fő hibába esik a hosszú távú munkamenetek során. Egyrészt az ügynök hajlamos túl sokat akarni egyszerre megvalósítani, ami miatt a munkamenet közepén kifogy a kontextusból, és a következő munkamenetben egy félkész, dokumentálatlan állapotban lévő kódrészlet fogadja. Másrészt előfordul, hogy egy későbbi munkamenetben az AI tévesen azt hiszi, hogy a projekt elkészült, pedig még hiányzik számos funkció vagy javítás.
Kétlépcsős megoldás a folyamatos fejlesztéshez
A problémák kezelésére az Anthropic két speciális AI ügynököt hozott létre:
– **Initializer Agent (Inicializáló ügynök):** Az első munkamenet során ez az ügynök felelős a munkakörnyezet előkészítéséért. Létrehozza az alapokat, például egy init.sh szkriptet, amely a fejlesztői szerver indításáért felel, egy claude-progress.txt fájlt, amely naplózza az eddigi munkafolyamatokat, valamint egy kezdeti git commitot, amely rögzíti a létrehozott fájlokat.
– **Coding Agent (Kódoló ügynök):** Minden további munkamenetben ez az ügynök kapja a feladatot, hogy lépésről lépésre haladjon előre, mindig csak egyetlen funkció fejlesztésére koncentrálva. Fontos, hogy minden munkamenet végén a környezet tiszta állapotban maradjon, azaz a kód hibamentes, rendezett és jól dokumentált legyen, hogy a következő ügynök könnyen át tudja venni a munkát.
Ez a megközelítés lehetővé teszi, hogy a rendszer egyetlen kontextusablak korlátait átlépve is folyamatosan és hatékonyan haladjon egy összetett projekt megvalósításában.
Funkciólista és folyamatos tesztelés a hatékonyság kulcsa
Az egyik legfontosabb újítás, hogy az inicializáló ügynök létrehoz egy részletes, JSON formátumú funkciólistát, amely az eredeti felhasználói igények alapján több száz részletes funkcióleírást tartalmaz. Minden funkció kezdetben „nem teljesült” státuszban van, így a későbbi kódoló ügynökök egyértelműen látják, mely feladatok várnak még megvalósításra.
Az AI ügynökök feladata, hogy egy munkamenet során csak egyetlen funkcióval foglalkozzanak, majd a változtatásokat git commitban rögzítsék, és frissítsék a haladási naplót. Ez a módszer megakadályozza, hogy az AI túl sok mindent próbáljon egyszerre megvalósítani, illetve hogy hibás vagy dokumentálatlan állapotban hagyja a projektet.
A tesztelés is kiemelt szerepet kapott: a Claude AI explicit utasításokat kap arra, hogy minden funkciót részletesen, végponttól végpontig teszteljen, akár böngésző-automatizálási eszközök segítségével is. Ez jelentősen csökkenti annak esélyét, hogy hibás vagy nem működő funkciók kerüljenek be a kódba.
Jövőbeli irányok és további fejlesztések
Noha a jelenlegi megoldás jelentős előrelépést jelent a hosszú távú AI-alapú fejlesztések terén, még számos kérdés nyitott. Különösen az foglalkoztatja a kutatókat, hogy vajon egyetlen, általános célú AI ügynök vagy egy specializált, több-ügynökös rendszer működik-e hatékonyabban a komplex projektek során.
Az is elképzelhető, hogy a jövőben különálló tesztelő, minőségbiztosítási vagy kód-takarító ügynökök segítik majd a fejlesztési folyamatot. Emellett a jelenlegi megközelítés főként webalkalmazások fejlesztésére optimalizált, de a módszerek alkalmazhatók lehetnek más területeken is, például tudományos kutatásban vagy pénzügyi modellezésben.
Az Anthropic csapata nyitott új kollaborációkra és fejlesztői jelentkezéseket vár az anthropic.com/careers oldalon.
—
Ez a kutatás és fejlesztés jól mutatja, hogyan képesek az AI rendszerek nemcsak önállóan dolgozni összetett projektekben, hanem folyamatosan tanulni és alkalmazkodni a korlátaikhoz, miközben hatékonyan működnek együtt a fejlesztők elvárásaival és a szoftverfejlesztés bevált gyakorlataival.