Steven Scott nem ért a programozáshoz. Ennek ellenére az elmúlt hónapokban működő Windows-alkalmazásokat, NVDA-bővítményeket és kísérleti hangszerkesztőket hozott létre – kizárólag természetes nyelvű utasítások segítségével.
—
A Double Tap podcast legfrissebb epizódjában Steven Scott és Shaun Preece a „vibe coding” jelenséget járja körül: azt a megközelítést, amelynek lényege, hogy fejlesztői szaktudás helyett a feladat pontos megfogalmazása a kulcs. Steven esetében a Claude AI (az Anthropic chatbot alapú asszisztense) végzi a tényleges kódírást, ő maga pedig – saját metaforájával élve – a nagy bőr székben ülő projektmenedzser szerepét tölti be. A podcast elsősorban a vakokat és gyengénlátókat célzó technológiáról szól, így a vibe coding itt nem elvont trendként, hanem konkrét kisegítőtechnológiai megoldások forrásaként jelenik meg.
—
Hogyan működik a napi munkafolyamat?
Steven leggyakrabban a Claude webes felületét (claude.ai) használja, de van asztali alkalmazás is, amellyel a Windows-os környezet jól navigálható – Mac-en ez kevésbé mondható el, ott sok tabulátorbillentyűs ugrás szükséges. A Claude Desktop alkalmazásban elérhető a Cowork funkció is, amely lehetővé teszi a közvetlen együttműködést böngészős feladatokban – ehhez a Chrome böngészőben telepített Claude in Chrome bővítmény szükséges, amely Edge-ben is telepíthető a Chrome-bővítmény-kompatibilitáson keresztül.
Az NVDA (NonVisual Desktop Access), a legelterjedtebb nyílt forrású képernyőolvasó Windows-ra, szempontjából a Claude webes felület nem tökéletes: hosszabb válaszoknál nehézkes visszagörgetni a csevegés elejére, Steven ezért a hosszabb kódrészleteket Notepadbe másolja, és onnan dolgozik tovább. A mobilalkalmazás – amely Androidon és iOS-en is elérhető – egyszerűbb feladatokhoz, például e-mail összefoglalókhoz vagy gyors kereséshez kényelmes, de komolyabb kódolási projekteknél az asztali környezet marad az elsődleges.
A munkafolyamat kapcsán felmerül egy másik lehetőség is: Steven barátja, Michael Babcock felvetette, hogy Mac-en a terminálból is használható a Claude, ami lehetővé tenné, hogy az AI közvetlenül hozzáférjen a fájlrendszerhez, és automatikusan a megfelelő mappába mentse a generált kódot. Steven ezt még nem próbálta, de következő lépésként tervezi.
—
Az IDE-vita: kell-e fejlesztői környezet?
Az epizódban egy Damon nevű hallgató teszi fel a kérdést, amelyet valószínűleg sokan mások is feltennének: nem kellene-e IDE-t (integrált fejlesztői környezetet – egy olyan szakmai szoftvert, amelyben a programozók kódot írnak, tesztelnek és fordítanak) használni a puszta chatbot helyett?
Shaun Preece elmagyarázza az összefüggést: az IDE-k ma már sok esetben tartalmaznak beépített AI-asszisztenseket, amelyek az ott megnyitott kódfájlokat is látják, és kontextusban tudnak segíteni – ez profibb munkafolyamatot tesz lehetővé.
Steven megközelítése azonban szándékosan más: ő nem érti a kódot, és nem is akar érteni. Természetes nyelvű promptot ír, a Claude visszaadja a kész fájlt. Ez az egyszerűség egyben korlát is – ha hiba lép fel, a hibaüzenetet kell visszamásolni a chatbe, és remélni, hogy a Claude megfelelően azonosítja a problémát. A legtöbbször ez működik.
—
Akadálymentes lejátszó: a J/K/L-billentyűs megközelítés
Az első részletesen bemutatott projekt egy egyszerű hang- és videolejátszó Windowsra, amely a QuickTime szerkesztőprogramból ismert J/K/L-billentyűs vezérlést valósítja meg: J visszateker, K megállít, L előrecsévél – egyszeres, kétszeres, háromszoros sebességgel. A sebességváltás pitch-megőrzéssel működik, vagyis gyorsítva sem lesz csipogós a hang.
Steven promptjában az NVDA-kompatibilitás és a WCAG (Web Content Accessibility Guidelines, a webes akadálymentességi irányelvek) megfelelés is szerepelt. A Claude a Python + libvlc (python-vlc) + PyQt6 kombinációt javasolta: a libvlc kezeli a formátumok széles körét és a pitch-korrekciót, a PyQt6 pedig erős felhasználói felület-automatizálási támogatást nyújt Windows alatt, amelyet az NVDA jól kezel.
A válaszban a Claude a billentyűkiosztást is kidolgozta: szóköz a lejátszás/szüneteltetéshez, nyílbillentyűk 5 másodperces ugráshoz, Shift + nyílbillentyűk 30 másodperces ugráshoz, a 0–9 számok a fájl adott százalékos pozíciójára ugranak, O fájlnyitáshoz, F a videóablak nagyításához. Az R billentyűre a képernyőolvasó felolvassa a hátralévő időt – ARIA élő régióként megvalósítva, ami azt jelenti, hogy az NVDA bejelentést tesz anélkül, hogy megszakítaná a lejátszást.
—
NVDA-bővítmény diktálásból: az Item Chooser projekt
A másik részletesen tárgyalt projekt az Apple VoiceOver (az Apple saját beépített képernyőolvasója) egyik hasznos funkciójának, az elemválasztónak (item chooser) az NVDA-s megfelelője. A VoiceOver-ben ez egy billentyűparanccsal (VO+I) előhívható párbeszédablak, amelyben a felhasználó szöveget gépelhet, szűrheti az oldalon lévő interaktív elemeket – linkeket, gombokat, beviteli mezőket –, majd nyílbillentyűvel választhat és Enterrel aktiválhat közöttük.
Steven a promptot telefonon, diktálva küldte el a Claude-nak. A válasz szinte azonnal megérkezett: „Most már minden megvan, amire szükségem van” – majd néhány percen belül a Claude előállt a teljes bővítmény-struktúrával: Python-plugin, manifest.ini konfigurációs fájl és egy kész .nvda-addon csomag, amelyet közvetlenül telepíteni lehet az NVDA-ba.
Az első telepítési kísérletnél hiba lépett fel: „failed to open, missing file or missing file format” üzenet fogadta. Steven visszamásolta a hibaüzenetet a Claude-nak, semmi mást nem fűzött hozzá. A Claude azonosította a problémát: a manifest.ini fájlban hibás volt a section header formátuma, és egy üres URL-mező is gondot okozott – az NVDA erre ad generikus hibaüzenetet. A javított verzió már hibátlanul települt.
A teljes fejlesztés körülbelül 5–6 órát vett igénybe, több iterációval: az első verzió minden oldalelemből „mutasson mindent” rádiógombos megközelítést alkalmazott, majd ez finomult arra, hogy alapértelmezés szerint csak az interaktív elemek jelenjenek meg. Steven megjegyzi, hogy az NVDA-ban van beépített elemböngésző (NVDA+F7), és létezik egy Enhanced Object Navigation nevű bővítmény is, de az item chooser egyszerűbb: egy keresőmezős listában hoz össze mindent.
Felmerül a kérdés: bekerülhet-e az NV Access hivatalos bővítményboltjába egy vibe kóddal készített add-on? Az Apple App Store-ban 84%-kal nőtt a beadványok száma 2026 első negyedévében az előző év azonos időszakához képest, amit egyértelműen a vibe coding eszközök terjedésének tulajdonítanak. Steven álláspontja pragmatikus: ha benyújtaná, egyértelműen jelezné, hogy AI-val generált kódról van szó. Ha az NV Access ezt nem fogadja be, akkor a promptokat és a tervrajzokat osztaná meg nyilvánosan, hogy mások maguk generálhassák.
—
A kísérleti hangszerkesztő: böngészőben, telepítés nélkül
A legambiciózusabb projekt egy akadálymentes hang- és videószerkesztő vakoknak és gyengénlátóknak, NVDA-, JAWS– (Job Access With Speech – a Freedom Scientific széles körben használt kereskedelmi képernyőolvasója Windows-ra) és VoiceOver-kompatibilitással, billentyűzet-első tervezéssel.
A Claude válasza reális volt: egy teljes értékű NLE (non-linear editor, nemlineáris szerkesztő – a profi videó- és hangvágó szoftverek elnevezése) több éves fejlesztést igényelne. Egy fókuszált podcast- és interjúszerkesztő azonban, amely a közösség igényeinek körülbelül 80%-át lefedi, megvalósítható. A 0.1-es verzió javasolt formája: egyetlen HTML-fájl, amely böngészőben fut, telepítés nélkül, Chrome vagy Edge alatt NVDA- és JAWS-kompatibilisan.
A tervezett funkciók között szerepel hang- és videófájl betöltése, nyílbillentyűs navigáció, be- és kijelölési pontok megadása, darabolás és törlés, visszavonás/újra végrehajtás, valamint WAV-formátumú export. A megvalósítás kulcsa az ARIA role=”application” attribútum: ez jelzi a képernyőolvasónak, hogy adja át a billentyűleütések vezérlését az alkalmazásnak – hasonlóan ahhoz, ahogyan a Reaper DAW (digitális audio munkaállomás) egybillentyűs parancsokat alkalmaz.
Steven tesztelte: egy egyórás WAV-fájlt gond nélkül vágott és exportált. Egy tapasztalt hangproducer ismerőse, aki szintén kipróbálta, azt mondta: „gyorsabb és reszponzívabb, mint az Adobe Audition” – és ez a 0.1-es verzióra vonatkozik.
—
Hibák, korlátok és a demokratizálódás kérdése
A vibe coding nem hibátlan folyamat. A Claude néha magabiztosan ad helytelen választ – például rossz NVDA-billentyűparancsot –, majd a javítás kérésére ugyanolyan magabiztosan adja meg az ismét helytelen változatot. Ha egy párbeszédablak feliratát a képernyőolvasó nem tudja felolvasni, Steven képernyőképet küld a Claude-nak – ez az egyik terület, ahol a multimodális képesség (szöveg és kép együttes feldolgozása) valóban hasznos.
Steven projektlistáján szerepel még egy FaceTime akadálymentességi szkript VoiceOver-hez, a Double Tap saját alkalmazása, egy podcast-munkafolyamat-eszköz, egy akadálymentes YouTube-csatornakezelő, valamint egy WhatsApp-bővítmény – utóbbit négy óra alatt sem sikerült tartósan megoldani.
A tágabb összefüggést maga Steven fogalmazza meg a legpontosabban: a vibe coding ugyanúgy demokratizálja a szoftverfejlesztést, ahogyan a podcast demokratizálta a rádiót. Akinek eddig nem volt programozói tudása, de pontosan tudta, mit szeretne, most megcsinálhatja. A kisegítőtechnológiai közösségben – ahol a kereskedelmi fejlesztők sokszor nem tartják elég nagy piacnak a vak felhasználókat – ez nem csupán kényelmi kérdés.
—
A cikk a Double Tap podcast „Weekend: Good Vibes” epizódja (2026. április 25.) alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.