Az Access On, az Amerika Vakok Nemzeti Szövetségének (NFB – National Federation of the Blind) technológiai podcastja 68. epizódjában az OmniDescriber nevű ingyenes segédprogram bemutatója és az AI-alapú képernyőolvasó-ügynökök körüli vita dominált – emellett szó esett a Facebook akadálymentesítési gondjairól, a tervezett elavulás kérdéséről és hallgatói technikai kérdésekről is.
OmniDescriber: videók hangalámondása mesterséges intelligenciával
Az OmniDescriber egy Windows-alapú segédprogram, amely mesterséges intelligencia segítségével automatikusan hangalámondást generál olyan videókhoz, amelyek nem rendelkeznek ilyennel. A program ingyenes, a Google Gemini modellt használja elemzéshez, és háromféle videóforrással tud dolgozni: helyi fájlokkal, közvetlen internetes URL-ekkel és YouTube-videókkal.
Az alkalmazást Robin Christopherson, az AbilityNet digitális befogadásért felelős munkatársa mutatta be. Az OmniDescriber tizenegy előre beépített promptsablonnal érkezik, amelyek különböző típusú tartalmakhoz vannak hangolva: filmtrailertől a romantikus filmen és a vígjátékon át a dokumentumfilmig, főzős videóig és játékmenetfelvételig. A sablonok az AI számára határozzák meg a megfelelő leírási stílust – filmtrailernél például rövid, sűrített leírásokat vár el a rendszer, romantikus filmnél a közelség és az arckifejezések részletes bemutatása a cél. A felhasználó ezeket a sablonokat szerkesztheti, és saját promptokat is hozzáadhat.
A demóban Christopherson az Oakley okosszemüvegének gyors vágású reklámvideóját használta példaként. A program 12 hangalámondást generált, és négy karaktert azonosított, névvel együtt – bár azt, hogy a szoftver honnan szerzi ezeket a neveket (az internetről vagy a videóban megjelenő feliratokból), nem derül ki egyértelműen. A generált leírások a lejátszón belül szerkeszthetők, mielőtt az exportra kerülnének.
A program háromféle kimeneti formátumot kínál: MP3-at (az eredeti videó hangjával összekeverve, ahol a háttérhang automatikusan lehalkul a leírás alatt), SRT feliratfájlt (amelyet képernyőolvasók is felolvashatnak), illetve egyszerű szöveges fájlt – ez utóbbi hasznos, ha valaki csak gyors képet szeretne a videó vizuális tartalmáról, párbeszéd és időbélyegek nélkül.
Hangszintézisre az alkalmazás alapesetben a Microsoft SAPI 5 (Speech Application Programming Interface) motorját használja. OpenAI API-kulccsal emberibb hangzású felolvasás is beállítható. A Google Gemini API-kulcs ingyenesen igényelhető, és a fejlesztő – akit a podcastban Omarként említett a házigazda – 24 órán belül javított egy bejelentett hibát.
Az alkalmazás lejátszójában egy „Explore scene” (jelenetfelfedezés) funkció is elérhető, amely a videó aktuális képkockáját navigálható rácsban jeleníti meg: a felhasználó nyilakkal mozoghat a rácsban, és meghallja, milyen objektumok találhatók az egyes cellákban. Az „Ask more” gombbal szöveges kérdést is lehet intézni az AI-hoz az adott jelenetről.
A leírások sűrűsége háromféle szinten (tömör, kiegyensúlyozott, részletes) szabályozható, és a promptsablon felülírja ezt az általános beállítást. Az alkalmazás az ingyenes Google Gemini API-kvótával működik; a demóban Christopherson megjegyezte, hogy rengeteg videót elemzett már, mégsem kapott kvótatúllépési figyelmeztetést.
AI-ügynökök: mennyi önállóság kell?
Daryl Hilliker hallgató levélben foglalt állást az AI-alapú képernyőolvasó-ügynökök korlátai ellen. Érvelése szerint egy ilyen ügynöknek végig kell tudnia vinni egy teljes folyamatot – akár egy vásárlás véglegesítéséig –, és nem szükséges minden egyes lépésnél megerősítésre várni. Az ügynök kérjen engedélyt az érzékeny műveletek előtt, de ha a felhasználó jóváhagyta, végezze el a feladatot felesleges közbeavatkozás nélkül.
Három konkrét eszközt is említett. Az első a Google Auto Browse (más névvel Chrome auto browse), amely lehetővé teszi, hogy a felhasználó szöveggel kérjen valamit, az ügynök pedig elvégzi a kattintásokat és a bevitelt. Ez a DOM-on (Document Object Model – a weboldal belső adatstruktúrája) keresztül működik, ezért gyors, de egyelőre csak böngészőben alkalmazható.
A második a Guide, amely képernyőképeket küld az AI-nek, az pedig elemzi és elvégzi a szükséges műveletet. Lassabb a DOM-alapú megközelítésnél, de szélesebb körben alkalmazható – nemcsak böngészőkben, hanem asztali alkalmazásokban is. Havi előfizetési díja a csomagtól függően 8–25 dollár között mozog. A harmadik a Viewpoint, amely feltérképezi egy felhasználói felület összes kattintható elemét, és hagyományos navigációs billentyűkkel (Tab, nyilak, Enter) kezelhetővé teszi őket – ez saját Google Gemini API-kulccsal ingyenesen elérhető.
Hilliker szerint a jelenlegi hozzáférhetőségi kihívásokra – különösen az USA-ban, ahol a szabályozási háttér egyre kevésbé kedvező – ezek az eszközök valódi megoldást kínálnak, és érdemes a vitát a lehetőségek felé terelni ahelyett, hogy az önállóság korlátain ragadna meg.
Facebook: egyre több türelmetlenség
Több hallgató is levélben számolt be arról, hogy a Facebook webfelülete egyre nehezebben kezelhető képernyőolvasóval. A jellemző panaszok között szerepel a kurzor váratlan ugrálása, a tartalom tetejére ugró navigáció és a dinamikusan frissülő tartalmak miatti dezorientáció. Rick Ruddick például arról írt, hogy a „See more” gomb megnyomása után a képernyő tetejére kerül, a bejegyzések között H billentyűvel navigálva pedig néhány lépés után „Wrapping to top” üzenetet kap.
Jonathan Mosen, a podcast házigazdája szerint az NVDA képernyőolvasó böngészőmód nélkül, a J és K billentyűkkel a Facebook oldalán viszonylag megbízhatóan teljesít – jobb eredménnyel, mint a JAWS. Korábban Matt King a Facebooktól és Glen Gordon a Freedom Scientific-től együtt dolgoztak ki egy megoldást, amely lehetővé tette, hogy a JAWS egyes navigációs gyorsbillentyűit az adott weboldal saját navigációjának engedjék át – ám ez a mechanizmus az azóta bekövetkező fejlesztések során elveszett.
A Meta nemrég bevezetett egy akadálymentesítési visszajelzési űrlapot (a show notes-ban érhető el), amelyre a hallgatókat felkérik: jelentsék be tapasztalataikat. Az NFB arra is felhívta a figyelmet, hogy aggodalommal követi a technológiai cégek körében zajló elbocsátásokat, mivel ezek az akadálymentesítési területen felhalmozott intézményi tudást is veszélyeztethetik.
Francisco hallgató egy WhatsApp-problémát is bejelentett: a Windows-alkalmazás újabb verziójában a hanghívás és a videóhívás gomb egyetlen „Call” gombbá olvadt össze, amelynek menüje JAWS-szal – még a virtuális kurzorral sem navigálható megfelelően. Átmeneti megoldásként a chatből elérhető info-gombból indítható hívás.
Tervezett elavulás és okoseszközök
Christopher Wright hallgató arra hívta fel a figyelmet, hogy az internetes kapcsolatot igénylő okoseszközök ki vannak szolgáltatva a gyártói döntéseknek. A Wemo okoscsatlakozók esete szemléletes: 2026. január 31-én elveszítették a felhőalapú kapcsolati funkcióikat. Hasonló sors érte korábban a Google Nest termosztát korai generációit is – ezek 2025 októberében váltak interneten keresztül kezelhetetlenné. Látó felhasználóknál mindez csupán kellemetlenség, vak felhasználóknál viszont azt jelenti, hogy egy addig megbízhatóan működő, esetleg több száz vagy ezer dollárba kerülő eszköz teljesen kezelhetetlenné válik.
Wright ezért azt szorgalmazza, hogy a gyártók tegyék lehetővé az alkalmazástól független közvetlen irányítást is az eszközön, hogy azok akkor is használhatók maradjanak, ha a gyártó megszünteti a szoftvertámogatást.
Technikai tippek és hallgatói kérdések
Rich Yamamoto, egy látáskárosodással élő pedagógus arra keresett megoldást, hogyan küldhet Windows-számítógépéről tartalmat az osztályteremben lévő, 80 hüvelyknél is nagyobb érintőképernyős kijelzőre anélkül, hogy háttal kellene ülnie a diákokhoz. A válasz: a Windows beépített Miracast protokollt (M-I-R-A-C-A-S-T) kínál, amelyet a legtöbb Android-alapú oktatási kijelző támogat. A Windows+K billentyűkombinációval megnyitható a vetítési panel, és ha mindkét eszköz ugyanazon a Wi-Fi-hálózaton van, a kijelző „kibővítés” módban teljesen önálló monitorként működik. A tanár szabadon navigálhat a laptopján, a diákok csak azt látják, amit szándékosan a nagy kijelzőre húz. Az ablakokat a Windows+Shift+nyíl billentyűkkel lehet monitorok között mozgatni.
Otto, egy svéd fejlesztő az Orbit Research által gyártott Graphiti taktilis kijelző iránt érdeklődött: alkalmas-e arra, hogy egy Windows-számítógép képernyőjét tapintható formában jelenítse meg? Venkatesh Chari, az Orbit Research vezérigazgatója megerősítette: a Graphiti egyszerűen HDMI-kábellel csatlakoztatható a számítógéphez, és meghajtó vagy szoftver nélkül azonnal megjeleníti a képkimenetet – Windows, Mac és Linux rendszerekről egyaránt. A cég egy olyan prototípust is fejleszt, amely lehetővé teszi a Windows-egérmutatónak ujjal való vezérlését a Graphitin.
Eric Duffy az NFB Ohio szervezetéből hallgatói problémát vetett fel: a Grubhub által üzemeltetett, campusokon is jelen lévő ételkiszállító robotokat a vak hallgatók segítség nélkül nem tudják megtalálni. A megoldás iránya kézenfekvő: a robotoknak – a Waymo önvezető autókkal kapcsolatos fejlesztésekhez hasonlóan – az alkalmazáson keresztül hangjelzéssel kellene jelezniük a helyzetüket.
Curtis Chong egy JAWS-felhasználóknak szóló megoldást osztott meg: a Zoom 6.7.5-ös verziója felesleges, zavaró felolvasásokat okoz a JAWS 2026 képernyőolvasóban. A megoldás a JAWS Settings Centerben az adott verbositásszint alatt a „Help Balloon” opció kikapcsolása.
Kyle Smith tech tippje: ha egy weboldalon vagy PDF-ben a virtuális kurzorral másolt szöveg nem az elvártak szerint kerül a vágólapra, a JAWS Speech History funkcióval (JAWS-billentyű + szóköz, majd H) előhívható a legutóbb felolvasott szöveg, és onnan Ctrl+C-vel kimásolható.
Összegzés
Az OmniDescriber megmutatja, hogy az AI-alapú hangalámondás mára ingyenesen, személyre szabható formában is elérhető. Az AI-ügynökök körüli vita – mennyi önállóságot adjunk ezeknek a rendszereknek – egyre aktuálisabb kérdéssé válik. A Facebook hozzáférhetőségi gondjai változatlanul megoldatlanok, a tervezett elavulás kérdése pedig alapvető bizalmi problémát vet fel az okoseszközök gyártóival szemben.
A cikk az Access On podcast 68. epizódja alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.