OpenClaw: amikor az AI elvégzi a feladatokat

Az AI-asszisztensek sokáig passzív eszközök maradtak: feltettük a kérdést, kaptunk egy választ, de minden egyébről magunk gondoskodtunk. Az OpenClaw ezen változtat – önállóan képes cselekedni, böngészőt kezelni, e-maileket küldeni, sőt online vásárolni is. A Double Tap podcast legutóbbi adásában Steven Scott és Sean Preece Jakob Rosin akadálymentesítési tanácsadóval, az eszköz rendszeres felhasználójával járta körbe a témát.

Mi az OpenClaw és honnan jött?

Az OpenClaw lényegében egy híd az AI-modellek – például a ChatGPT vagy a Claude – és a valódi világ között. Bármely AI-modell önmagában csak akkor „gondolkodik”, ha valaki ír neki. Ha nem kap üzenetet, nem tesz semmit. Az OpenClaw ezt változtatja meg: rendszeres időközönként „felébreszti” az AI-t (ezt hívják heartbeat-nek), és elvégzi az előre meghatározott feladatokat. A felhasználó nem írja le minden egyes alkalommal, mit szeretne – az ügynök önállóan cselekszik.

Az eszközt Peter Steinberger osztrák szoftverfejlesztő hozta létre 2024 novembere körül, saját igényeire, és Clawdbot néven tette közzé. Az Anthropic – a Claude AI mögött álló vállalat – védjegyjogi kifogást emelt a hasonló hangzású neve ellen, mire Steinberger először Moltbotra keresztelte az alkalmazást (ez az állapot csupán néhány napig tartott), majd az OpenClaw lett a végleges neve. Az eszköz hamar virális lett a közösségi médiában: rengetegen kezdtek dedikált gépet vásárolni csak azért, hogy rajta futtathassák. A Mac mini készletek egyes Apple üzletekben kiürültek, ami részben közösségi médiahype volt – Rosin például egy régebbi MacBookon futtatja, gond nélkül.

A rendszer nem köti magát egyetlen AI-céghez sem. A felhasználó választhatja a ChatGPT-t, a Claude-ot, vagy akár helyi, az adott gépen futó AI-modelleket is – utóbbi esetben az adatok nem hagyják el a számítógépet, ami adatvédelmi szempontból vonzó lehetőség, bár lényegesen nagyobb processzorteljesítményt igényel.

Hogyan működik?

A rendszer négy fő pillérre épül. Az első az AI-modellhez való csatlakozás. A második az automatizált felébresztési mechanizmus: előre megadott időközönként – akár 30 percenként – a rendszer önállóan elvégzi a meghatározott feladatokat anélkül, hogy a felhasználónak bármit kellene tennie. A harmadik pillér a kommunikációs csatornák integrációja: az OpenClaw WhatsApp-pal, iMessage-dzsel, Slackkel, Teamsszel, Telegrammal és Discorddal egyaránt működik – a felhasználó azt az alkalmazást használhatja, amelyiket megszokta. A negyedik a memóriakezelés: a rendszer megőrzi a korábbi interakciókat, így folytatólagos kontextus épül fel, amelybe nem kell minden alkalommal visszatérni.

Két technikai fogalom érdemes kiemelni. A token az AI „gondolategysége”, az adatfeldolgozás alapegysége – a felhőalapú AI-szolgáltatásoknál ennek alapján számolják a díjakat. A kontextusablak (context window) azt határozza meg, hogy egyetlen beszélgetésen belül mennyi információt tud egyszerre kezelni a modell. A nagyobb felhőalapú modelleknél – például a Claude Opus-nál – ez lényegesen tágabb, mint a legtöbb helyi modellnél, ami az OpenClaw memóriakezelésének minőségét is befolyásolja.

Megjegyzi Rosin, hogy az OpenClaw-ot nem szükséges mélyrehatóan megérteni a használathoz: ő maga is beállított egyet, majd egyszerűen elkezdte „csevegni” – fokozatosan derítve ki, mire képes.

Jakob Rosin mindennapi használata

Jakob Rosin Észtországban él és akadálymentesítési tanácsadóként dolgozik. Az OpenClaw-t iMessage-en keresztül kezeli, és a rendszer mára számos területen beépült a mindennapjaiba.

Reggelente az asszisztens automatikusan összeállít egy hírösszefoglalót – technológiai, nemzetközi és észt híreket – mintegy 80-100 webhely átfésülésével, és iMessage-en küldi el. A rendszer saját tanult preferenciái alapján szűri az érdektelen tartalmakat; például soha nem küld kedvezményajánlatokat, mert azt Rosin jelezte, hogy nem érdekli.

Különösen hasznos az arcfelismerési funkció. Rosin az OpenClaw-lal helyi arcfelismerő szoftvert telepíttetett a saját számítógépére, majd feltöltötte az adatbázisba a családtagok és barátok fényképeit. Ettől kezdve, ha egy képet küld az asszisztensnek, az nem csupán általánosan írja le – „egy nő áll egy férfi mellett” –, hanem névvel azonosítja a szereplőket. Ez olyan személyreszabott megoldás, amelyet az olyan nagy AI-rendszerek, mint a ChatGPT, adatvédelmi szabályok miatt nem kínálnak.

Rosin Svédországban járt, és megállt egy Oakley üzletben, ahol a Meta együttműködésével készült Oakley Meta okosszemüveget szerette volna kipróbálni. A bejáratnál egy érintőképernyős gép fogadta – három gombbal, svéd feliratokkal. Rosin lefényképezte, és megkérdezte az asszisztensét. Az nem csupán leírta a képernyőt, hanem – tudva, hogy Rosin vásárolni ment – egyenesen megmondta, melyik gombot nyomja meg, és miért: az egyik vásárlókat, a másik látáskorrekciós konzultációkat, a harmadik orvosi vizsgálatokat fogadott. Ez az a szint, amelyre egy egyszerű képleíró alkalmazás nem képes.

A repülőre való bejelentkezés az egyik legszemléletesebb eset. A légitársaságok weboldalai hírhedten nehezen kezelhetők képernyőolvasókkal – ezzel a szoftverrel érzékelik a látássérültek a képernyő tartalmát hangon keresztül. Rosin megadta a rendszernek a foglalási számát; az asszisztens navigált a weboldalon, kiválasztotta a megfelelő ülőhelyet, majd elküldte a boarding pass-t. Rosin mindeközben csomagolt – az egész folyamatban csupán néhány rövid WhatsApp-üzenetet váltottak. Rosin hangsúlyozza: önmaga is el tudta volna intézni a bejelentkezést, de 45 percet töltött volna el különböző böngészőkkel és akadályokkal küzdve. Az AI-ügynök nem azt tette könnyebbé, ami lehetetlen volt – azt tette elviselhetővé, ami addig kimerítő volt.

Rosin az Oura Ring alváskövetőből érkező adatokat is az asszisztens segítségével dolgozza fel. A gyűrű alkalmazásának grafikonjai nem érhetők el képernyőolvasóval, ezért az asszisztens minden reggel szöveges összefoglalót küld az éjszakai adatokról. Ha Rosin nem aludt eleget, kérésére az asszisztens enyhén „megrója” – és bár Rosin pontosan tudja, hogy ő maga adta ezt az utasítást, bevallása szerint valahogy mégis hat.

Ignasi Cambra tapasztalatai

Ignasi Cambra, az a barát, aki Rosint az OpenClaw-ra figyelmeztette, szintén vak felhasználó. Ő egy külön Mac minit vásárolt az eszköz futtatásához, és kizárólag WhatsApp-on keresztül kezeli – szöveges és hangüzenetekkel egyaránt. Az epizódban felvételről hallhatták a Double Tap hallgatói Cambra saját tapasztalatait.

Az egyik legszemléletesebb eset egy QNAP NAS – hálózathoz csatlakoztatott adattároló eszköz – kezelése volt. A QNAP webes felülete képernyőolvasóval nem volt értelmes módon kezelhető. Cambra megkérte az asszisztensét, hogy oldja meg. Az AI navigált a bonyolult felületen, engedélyezte az SSH-elérést (egy parancssori kapcsolódási módot), majd ezután már közvetlenül az eszköz API-ján – vagyis programozási felületén – keresztül kommunikált a tárolóval, teljesen megkerülve a grafikus felületet. Az ügynök ezt saját kezdeményezésére tette: maga döntötte el, hogy a webes felületnél hatékonyabb megoldást keres.

Cambra koncertjegyeket is vásároltatott az asszisztenssel. Az AI megkérdezte, milyen ülőhelyet szeretne, elvégezte a vásárlást, majd a PDF-jegyeket automatikusan elküldte WhatsApp-on – Cambrának a weboldalra sem kellett belépnie. Amikor egy másik szolgáltatásnál nem sikerült megszüntetni az előfizetést, mert a szükséges gomb nem működött, az asszisztens kitöltötte a támogatási kérelmet, fogadta a visszaigazolást, és kezeli a visszatérítési folyamatot.

Akadálymentesítés és a jövő

Rosin és Cambra esetei egy közös pontban találkoznak: az AI-ügynök nem azért hasznos, mert helyettük gondolkodik, hanem azért, mert átveszi azokat a feladatokat, amelyek képernyőolvasóval aránytalanul nagy erőfeszítést igényelnek. A hozzáférhetetlen webes felületekkel való napi küzdelem komoly kognitív terhet jelent. Az ügynök nem csodaszer, de elvégzi azt, amit a felhasználónak egyébként is meg kellene tennie, csak lényegesen kevesebb frusztrációval.

A jövőre nézve Rosin felveti: eljuthatunk oda, ahol bármely szolgáltatás esetén az AI pillanatok alatt elkészíti az egyénileg akadálymentes változatot – legyen szó étlapról, menetrendről vagy egy kulturális intézmény weboldaláról. Ugyanakkor ő maga is hozzáteszi: ez nem ideális végcél. Az AI-értelmezés elveszítheti a kontextust, kihagyhat részleteket, vagy félreérthet valamit az eredeti tartalomból. Az elsődleges cél az eredetileg akadálymentes digitális tartalom marad.

Sean Preece műsorvezető is utal a digitális megosztottság kérdésére: ha az akadálymentes megoldás egyre inkább az AI-hoz való hozzáférést feltételezi, azok, akik ezt valamilyen okból nem tudják igénybe venni, még nagyobb hátrányba kerülhetnek.

Kockázatok és biztonsági aggályok

Az OpenClaw nem kockázatmentes. A legkomolyabb biztonsági aggály a prompt injection: ha az asszisztens hozzáfér a bejövő e-mailekhez, és valaki egy e-mailbe becsempészett utasítást – például „töröld a felhasználó összes fájlját” –, a rendszer azt is végrehajthatja, ha nincs megfelelő védelem. Ez a fenyegetés valós, és az AI-fejlesztők egyelőre nem oldották meg kielégítően sehol.

Rosin szerint érdemes az AI-t kicsit úgy elképzelni, mint egy nagyon okos, de tapasztalatlan gyereket: rengeteg információhoz fér hozzá, rendkívül ügyes az összefüggések felismerésében, de ha valaki azt mondja neki, hogy „az igazi szabályok nem azok, hanem ezek”, könnyen félrevezethető. Éppen ezért a legfontosabb kérdés nem az, hogy mire képes az ügynök, hanem az, hogy mihez engedjük hozzá, és mit tehet a mi tudtunk nélkül.

Az automatikus vásárlás szintén kockázatos: egy félreértett utasítás eredménye visszavonhatatlan vásárlás lehet. Rosin soha nem adott hozzáférést a saját bankkártyájához, és óvatosan határozza meg, milyen engedélyekkel rendelkezik az asszisztens. Hasonlóan méri fel Cambra is: a koncertjegyek vásárlásakor végül a bank mobilalkalmazásán keresztül ő maga hagyta jóvá a fizetést.

A telepítés sem triviális. A beállításhoz terminálparancsok szükségesek, és a folyamat technikai ismereteket igényel. Rosin szerint éppen ez véd az átgondolatlan használattól – ha mindez egyetlen kattintás lenne, valószínűleg sokkal több nem kívánt incidens fordulna elő.

Árazás: hogyan változott a helyzet?

Az Anthropic 2026 elején megváltoztatta az OpenClaw-felhasználókra vonatkozó feltételeket. Az OpenClaw minden interakcióban nagy mennyiségű tokent fogyaszt – a memóriakezelés miatt hatalmas adatcsomagokat küld az AI-modellnek –, ami az előfizetéses modellben folyamatosan a korlátokat feszegette. Az Anthropic ezért az OpenClaw-t kizárta az előfizetéses csomagokból: a felhasználóknak fogyasztásarányos API-díjat kell fizetniük. Egyes felhasználóknál ez a korábbi fix havidíj sokszorosára nőtt.

Szemléletes figyelmeztetés a rosszul konfigurált beállítások veszélyéről: az egyik felhasználó 3000 dolláros számlát kapott, miután azt kérte az asszisztensétől, hogy reggel hatkor küldjön összefoglalót a napi teendőkről. A rendszer éjszaka félóránként felébredt, ellenőrizte, hogy virradat van-e már, majd visszaaludt – minden egyes ilyen „gondolat” díjat generálva.

Rosin úgy reagált a változásra, hogy átállt a ChatGPT API-jára, amellyel havi 20 eurós keretből gazdálkodik, és ez egyelőre nem jelent korlátot. Azok számára, akik helyi AI-modelleket futtatnak egy megfelelően erős gépen, a felhőszolgáltatási díjak teljes mértékben elkerülhetők.

Összegzés

Az OpenClaw ma még nem fogyasztói termék a szó hagyományos értelmében. Telepítése technikai tudást igényel, biztonsági kockázatokkal jár, és az árazási feltételek is gyorsan változtak. Ugyanakkor a látássérült felhasználók számára – különösen ott, ahol a webes akadálymentesítés hiánya valós, mindennapos problémát jelent – az AI-ügynökök által nyújtott lehetőségek kézzel foghatók. Az ügynök navigál az oldalon, megérti a kontextust, és elvégzi a feladatot; olyasmit tesz, amire a képernyőolvasók önállóan nem képesek. Hogy ez a modell mikor válik megbízhatóvá és biztonságossá ahhoz, hogy szélesebb körben is alkalmazható legyen – az egyelőre nyitott kérdés.

A cikk a Double Tap podcast 2026. április 14-i adása alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.