Steven Scott, a Double Tap podcast vak műsorvezetője az Anthropic Claude AI segítségével saját NVDA-bővítményt és hanglejátszót fejlesztett – egyetlen sor kód megírása nélkül.
A „vibe coding” fogalma nem új, de vakoknak és gyengénlátóknak különösen izgalmas lehetőséget kínál: olyan eszközöket lehet vele létrehozni, amelyek pontosan azt csinálják, amire az adott felhasználónak szüksége van – programozás tanulása nélkül.
A projektmenedzser és a kódoló
Steven Scott saját bevallása szerint az „utolsó ember”, akiről valaha is azt gondolta volna, hogy programot ír. Mégis, néhány hetes vibe coding után működő NVDA-bővítményt és Windows hanglejátszót tett le az asztalra – kizárólag az Anthropic Claude chatbottal folytatott párbeszédek alapján.
A szükséges szemléletváltást jól foglalja össze az a kép, amelyet Robin Christopherson – az AbilityNet brit akadálymentesítési szervezet digitális befogadásért felelős vezetője – egy ChatGPT-vel folytatott beszélgetésből hozott: gondolj a Claude-ra mint kódolóra, magadra pedig mint projektvezetőre. Az analógia lényegre tör: a felhasználó nem a kódon dolgozik, hanem a kód elkészítéséért felelős „munkatárs” munkáját irányítja – részletes leírásokkal, tervekkel, visszajelzésekkel.
Ahogy Scott fogalmaz: korábban ChatGPT-t használt hasonló célokra, de az inkább tanácsokat adott – töltsd le ezt, telepítsd azt –, semmint hogy elvégezte volna a munkát. A Claude ezzel szemben végigvitte a folyamatot: megkérdezte, biztosan érted-e, mit kérsz; felsorolta a lehetséges megközelítéseket; rákérdezett, valóban erre az útra akar-e lépni, vagy esetleg egy meglévő megoldás is megfelel. Ez a fajta visszakérdezés Scott szerint legalább annyira értékes, mint maga a kódgenerálás.
A Claude nem hízelgős partnernek bizonyult. Scott elmesél egy esetet, amikor egy gomb hozzáadásáról vitáztak – a Claude több körön át ragaszkodott ahhoz, hogy nem kapott erre utasítást, Scott meg volt győződve róla, hogy igen. Négy-öt meneten át ment ide-oda a vita, mire az AI maga is elismerte, hogy nem tudja visszakeresni a kérdéses utasítást. Ez, mondja Scott, éppen az, amire szüksége van: nem arra, hogy az AI bólogatva mindent elvégezzen, hanem arra, hogy valóban rákérdezzen, ha valami nem stimmel.
A folyamat intenzív: Scott az egyik projektnél éjjel kettőig dolgozott, míg a rendszer összeomlott – és másnap folytatta ott, ahol abbahagyta. Közben észrevette, hogy megváltozott a saját hozzáállása is: már nem rögtön gépeléssel kezd, hanem tervvázlatokat készít – mit akar elérni, milyen elemek kellenek, hogyan kapcsolódnak egymáshoz. Nem a kódot érti meg, de az összerakandó rendszer logikáját egyre jobban látja.
Az NVDA Item Chooser
Az egyik legfontosabb – és egyelőre kiadás előtt álló – projekt egy NVDA-bővítmény, amelyet Item Choosernek nevezett el. Az NVDA (NonVisual Desktop Access) a legelterjedtebb ingyenes képernyőolvasó Windows alatt.
A bővítmény a VoiceOver hasonló macOS-funkcióját valósítja meg: az NVDA+I billentyűkombinációra egy keresőmező jelenik meg, amelybe írva szűkíthető az aktív ablakon látható elemek listája. Ha valaki egy letöltési gombot keres egy weboldalon, beírja, hogy „download”, majd tabbal átlép az eredmények listájára – ahol csak az egyező elemek jelennek meg, és ezekre egyenként navigálhat, vagy azonnal aktiválhatja őket.
A fejlesztés nem volt egyenes vonalú. Az első verzió minden képernyőelemet visszaadott – nemcsak az interaktív gombokat, hanem a statikus szövegeket is. Ezt követően bekerült egy váltó: az összes elem vagy csak az interaktív elemek megjelenítése között lehetett választani. A kérdés az volt, hogy melyik legyen az alapértelmezett, és van-e egyáltalán szükség mindkét módra. Ez a fajta tervezési párbeszéd – mikor mi szükséges, mikor redundáns – maga is a fejlesztési folyamat része volt.
Scott a bővítményt a rendszer egészén használja: fájlkezelőben, programablakokban, mindenütt. A kód minőségét egy Marco nevű, a showban korábban is szereplő fejlesztő ellenőrizte: szerinte a kód tiszta, és nem látszik meg rajta, hogy AI írta.
A közzétételhez szükséges GitHub-fiókot Scott még nem hozta létre, de tervezi a kiadást.
Három óra alatt kész: Windows hanglejátszó
A másik projekt egy egyszerű hanglejátszó Windows alá, amelynek egyetlen célja van: hangfelvételeket dupla sebességgel visszajátszani. Scott a podcast-adások utólagos ellenőrzésekor használja – a Mac-en lévő QuickTime ugyanezt teszi, Windowson viszont minden hasonló eszköz vagy túl bonyolult, vagy nehezen kezelhető.
Az igény egyértelmű volt: visszajátszás dupla sebességen, lejátszási idő megjelenítése, adott ponthoz ugrás – mindez hangon visszaolvasva, NVDA-barát módon. Scott a promptban QuickTime-ot hozta fel példaként, a billentyűparancsokkal együtt (pl. L gomb a lejátszáshoz). A Claude értette az analógiát, és az alapján dolgozott.
A projekt három óra alatt készült el. Telepítőcsomagoló is lett belőle: Scott az Inno Setup nevű ingyenes telepítőkészítőt kapta utasításba a Claude-tól, amely a háttérben futtatva EXE-fájlt generált – manuális beavatkozásra nem volt szükség.
A fejlesztés közben felmerülő akadálymentesítési problémákat is a Claude-dal oldotta meg: az NVDA Speech Viewerrel rögzítette, mit olvas fel az alkalmazás, szövegesen bemásolta a chatbe, megjelölte a zavaró részeket, és kérte a javítást. A Claude azonosította a felesleges felolvasásokat, és korrigálta azokat. Scott szerint alig elképzelhető, hogy bármely kereskedelmi alkalmazásnál valaha is ilyen közvetlenül tudott volna szólni a fejlesztőnek: ez a fajta visszajelzési hurok a vibe coding egyik legfontosabb előnye.
Képernyőolvasó-nyelven kommunikáló AI
Scottot különösen lenyűgözte, hogy a Claude a képernyőolvasó-felhasználók számára természetes módon fogalmaz utasításokat. Nem azt mondja, „kattints a Fájl menüre”, hanem: „nyomj le kétszer a nyíllal, ott hallani fogod, hogy…”. Az NVDA-naplót Scott teljes egészében bemásolja a chatbe, ha valamit debugolni kell – a Claude megtalálja benne a releváns részt.
Ugyanez vonatkozik az NVDA fejlesztői funkcióira is: Scott nem tudta, hogy az NVDA-nak van fejlesztői módja, amellyel részletes információ nyerhető ki a képernyő tartalmáról. A Claude mutatta meg, hogy ez létezik, és hogyan kell használni.
A megközelítés tágabb alkalmazásokban is gondolkodtat. Scott felvetette, hogy az NVDA bővítményrendszere elvben lehetővé teszi hasonló verbozitás-csökkentő eszközök készítését konkrét alkalmazásokhoz – például az Outlookhoz, amelyre a képernyőolvasó-közösségben sokan panaszkodnak a felesleges felolvasások miatt.
Az InnoSearch túlélte a válságot
Rövid kitérőként a műsor az InnoSearch nevű akadálymentesítési platform helyzetéről számolt be. Az InnoSearch egy online vásárlási platform, amely vakoknak és gyengénlátóknak segít terméket keresni és vásárolni a weben.
A szervezet nemrég komoly pénzügyi nehézségekbe ütközött – egy ponton nem volt biztos, hogy a hónapot is átvészeli. Végül sikerült áthidaló megoldást találni: felhasználói adományokból, a Lavelle Fund for the Blind alapítvány támogatásából és az alapítók kölcsönéből állt össze a szükséges összeg. Az InnoSearch eközben 501(c)3 státuszú nonprofitként is bejegyeztette magát az IRS-nél, ami az Egyesült Államokban adókedvezménnyel járó adományozhatóságot jelent.
A szervezet ugyanakkor hangsúlyozza, hogy a jövő nem biztosított: a folyó kiadások fedezéséhez folyamatos közösségi támogatásra van szükség.
Strutt EV1: önvezető mozgástámogató, de kinek?
A műsor másik témája a Strutt EV1 nevű önvezető jármű volt, amelyet Pete hallgató részletezett. Az eszköz akadályérzékelő és önvezető módokat kínál – beltérben, bevásárlóközpontokban, kórházakban és repülőtereken lehet igazán hasznos. A funkciópaletta széles: a „co-pilot” üzemmódban az eszköz elkerüli az akadályokat, míg a „pathfinder” és waypoint módokban előre megjelölt helyszínekre navigál önállóan. Emellett rendelkezik „follow me” móddal is, amellyel egy vezető személyt követ.
A probléma: az üzemmód-váltáshoz érintőképernyő szükséges, és a gyártó saját weboldala szerint az eszközt vakoknak és látássérülteknek nem ajánlják, ha nem tudják kezelni az érintőképernyőt. A Double Tap műsorvezetői erre éles kritikával reagáltak. Scott szerint az akadálymentesítés hiánya olyan, mintha egy vállalat azt mondaná: termékünket nőknek nem ajánljuk, fekete embereknek nem ajánljuk. A termék eszméje – önvezető mozgástámogatás – pontosan azoknak szólna, akiket kizárnak belőle.
A vitában az is felmerült, hogy a gyártó minden bizonnyal el akarja kerülni az orvostechnikai eszközként való besorolást, és a „mindennapi jármű” pozicionálással próbál kitérni a szigorúbb szabályozás elől. Scott ugyanakkor felhívta a figyelmet arra, hogy ismer olyan embereket, akik retinitis pigmentosa (RP) miatt fokozatosan veszítik el látásukat, és tartanak attól, hogy mozgástámogató eszközüket is elveszítik majd, ha vakká válnak – az EV1 ilyen esetekben valódi megoldást jelenthetne, ha hozzáférhető lenne.
Amit a vibe coding jelent
Az epizód egyik tanulsága, hogy a vibe coding nem varázslat: a felhasználó nem feltétlenül érti a kódot, de pontosan tudnia kell, mit akar. A tervezési fázis legalább annyira fontos, mint a promptolás. Minél részletesebb és pontosabb az első prompt, annál kevesebb az iteráció – és annál kisebb az esélye, hogy a munka zsákutcába fut.
Az akadálymentesítési közösség számára mindebből az a legfontosabb, hogy az eddig drága fejlesztői kapacitást igénylő egyedi képernyőolvasó-bővítmények, személyre szabott segédeszközök és kisebb automatizálási projektek most jóval kisebb erőforrással megvalósíthatók. Az Item Chooser és a hanglejátszó nem ipari termékek – de pontosan azt csinálják, amire az alkotójuknak szüksége van. Ha ez a lehetőség szélesebb körben elterjed, sok olyan eszköz születhet, amelyre a kereskedelmi fejlesztők sosem szántak kapacitást.
A cikk a Double Tap podcast 2026. április 20-i adása alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.