Akadálymentesítés a középpontban: a Microsoft Ability Summit és a Google I/O 2026 tanulságai

A vakoknak szóló technológiai fejlesztések két szempontból is az érdeklődés homlokterébe kerültek: a Microsoft Ability Summit és a Google I/O 2026 ugyanazon a napon zajlott le, mindkettő az AI és az akadálymentesítés összefonódásáról szólt.

Ritkán fordul elő, hogy az Apple bejelentéseit háttérbe szorítsa egy Microsoft- vagy Google-esemény – legalábbis a mainstream technológiai sajtóban. A Microsoft Ability Summiten és a Google I/O 2026-on elhangzottak mégis komoly figyelmet érdemelnek, különösen a látássérültek és más fogyatékossággal élők szempontjából. A Double Tap podcast – amelynek mottója szerint „vakok beszélnek a technológiáról” – részletes elemzésben foglalta össze, mi hangzott el a két eseményen.

Microsoft Ability Summit: egyéni hangok és Narrator-fejlesztések

Az egyik legemlékezetesebb Microsoft-bejelentés a Team Gleason szervezethez kapcsolódott. A Team Gleason azoknak az ALS-ben vagy más, hangvesztéssel járó betegségben szenvedő embereknek nyújt támogatást, akik szeretnék megőrizni – vagy rekonstruálni – saját hangjukat. A Microsofttal közösen idén várhatóan bevezetik, hogy ezek az egyéni hangok a teljes Microsoft-ökoszisztémán belül használhatók legyenek. Ez nem csupán képernyőolvasó-hangot jelent: az egyéni hang valós idejű kommunikációs eszközként is funkcionálhat, amellyel a felhasználó saját hangján szólalhat meg – még ha az eredetit el is veszítette.

A Narrator képernyőolvasóról szóló panelbeszélgetés szintén tanulságos volt. A Microsoft beépített képernyőolvasóját sokáig csak ideiglenes megoldásnak tekintette a látássérültek közössége: valami, amit addig használsz, amíg letöltöd az NVDA-t vagy a JAWS-t. Jonathan Mosen, az NFB (National Federation of the Blind) Accessibility Excellence részlegének ügyvezető igazgatója és Dave Dame, a Microsoft termékakadálymentesítési igazgatója nyilvánosan is kiállt a Narrator értéke mellett. Az eseményen bemutatott újítások között szerepelt a Braille HID-támogatás és a képernyőfüggöny (screen curtain) – ez utóbbit a Mac-felhasználók már jól ismerik, és Windowson is sokaknak hasznos lehet.

A podcast műsorvezetői szerint a Narrator megítélése joggal változik. Az NVDA és a JAWS továbbra is sokoldalúbb eszköz, de a Narrator mostanra a Microsoft-alkalmazásokban – Word, Outlook, rendszerbeállítások – valóban megbízható alternatívává vált. Felvetődik a kérdés is: ha a képernyőolvasók eltérően viselkednek ugyanazon a felületen, az vajon nem a képernyőolvasók hibája, hanem a rendszerszintű akadálymentesítési rétegé, amelynek egységesebbnek kellene lennie?

Arra is felhívták a figyelmet, hogy a rendszerintegráció hiánya néha váratlan akadályokat teremt. Egy konkrét példa: Microsoft-fiók beállításakor, ahol a belépéshez passkey-t (eszközalapú azonosítót) kell használni, egy QR-kódot is be kell olvasni az első bejelentkezésnél – ami csak akkor lehetséges, ha van monitor csatlakoztatva a számítógéphez. Ez az apróságnak tűnő feltételezés – hogy minden felhasználónak van képernyője – néha komoly akadályt jelent.

GitHub Copilot és a vak videószerkesztő

Az Ability Summit egyik legérdekesebb pillanata volt, amikor Ed Summers, a GitHub akadálymentesítési vezetője bemutatta, hogyan szerkeszthet videót egy vak ember a GitHub Copilot segítségével. A hozzáférhető videószerkesztés évek óta megoldatlan kérdés a látássérültek körében: a hagyományos, vágóasztallal és idővonallal dolgozó eszközök képernyőolvasóval nehezen vagy egyáltalán nem kezelhetők.

A Copilot-alapú megközelítés ágensalapú: a felhasználó szöveges utasításokban mondja el, milyen videót szeretne, a rendszer elvégzi a szerkesztést – vágásokat, szerkezeti döntéseket, hangsáv hozzáadását. Ez nem adaptáció, hanem egy teljesen más logika. Ahogy a podcast egyik műsorvezetője fogalmazott: hasonlóan ahhoz, ahogy egy egész generáció kihagyta a hagyományos laptopot és rögtön az okostelefonra váltott, a vak alkotók is átugorhatják a hagyományos szerkesztőprogramok megtanulását. A lényeg nem az, hogyan szerkeszted a nyersanyagot, hanem hogy a végeredmény elkészüljön.

A műsorvezetők jelezték, hogy szeretnék felkérni Ed Summerst a podcastba, hogy részletesebben is bemutassa a munkafolyamatot – egyelőre sok kérdés nyitott arról, pontosan mi is a GitHub Copilot szerepe ebben, szemben más, hasonló megközelítésű eszközökkel.

Google intelligens szemüveg: végre megvan a pár

A Google I/O 2026 legtöbbet emlegetett bejelentése a Samsung és a Google közös okosszemüvege volt. Az eszközöket több szemüvegmárkával közösen fejlesztik: a Warby Parkerrel és a Gentle Monster dizájnerházzal is megállapodást kötöttek, a hardverfejlesztést a Samsung végzi, a processzort Qualcomm szállítja. A normál megjelenésű keretben hangszóró, mikrofon, kamera és a Gemini AI kapott helyet – kijelző nélkül, legalábbis az első, ősszel érkező modellnél; a kijelzős verzió később jön. A Google az „audio glasses” vagy „intelligent eyewear” kifejezéseket használja, jelezve, hogy ez tudatosan nem AR-szemüveg.

A szemüveg a keret oldalának megérintésével vagy a „Hey Google” paranccsal aktiválható, és valós idejű hangos segítséget nyújt: éttermi értékeléseket olvas fel, jelzőtáblák tartalmát magyarázza el, üzeneteket foglal össze, és lehetővé teszi a hangalapú válaszadást anélkül, hogy a felhasználónak a telefonhoz kellene nyúlnia. Uber is rendelhető hangon. A szemüveg Android- és iPhone-kompatibilis, bár az Android-integráció valószínűleg teljesebb lesz.

A látássérültek számára a navigációs funkció a legígéretesebb. A szemüveg tudja, hol áll a felhasználó és merre néz, ehhez igazítva ad fordulópontos útvonalutasítást. A GPS régóta képes eljuttatni valakit egy épület közelébe, de az „utolsó tíz méter” – a bejárat megtalálása, a pontos helymeghatározás – még mindig kihívás. Ha a szemüveg valós idejű képfelismeréssel képes kitölteni ezt a hiányt, az komoly előrelépés lehet. A Meta okosszemüveg tapasztalatai megmutatták, hogy a felhasználók azután kezdték el igazán napi szinten használni az eszközt, hogy a navigáció és a valós idejű kérdezgetés lehetővé vált. A Google szemüveg esetén – különösen Google Maps-integrációval – hasonló áttörés várható. Harmadik féltől érkező alkalmazások valószínűleg tovább bővítik a lehetőségeket.

Az eszközök idén ősszel kerülnek forgalomba, az ár még nem ismert. Mivel a Google több márkával is együttműködik, különböző stílusú és árfekvésű modellek is várhatók, receptes lencsés kivitelekkel együtt.

Gemini-modellek, Spark és az ügynökök kora

A Google I/O erősen az AI-ügynökökre fókuszált. Az ügynök (angolul: agent) olyan AI-rendszer, amely nem csupán kérdésekre válaszol, hanem önállóan végez el feladatokat – foglal, levelez, nyomon követ.

A Gemini 3.5 Flash az új, sebesség-orientált modell, amely a Google szerint az előző nagyobb modellt, a Gemini 3.1 Prót is felülmúlja kódolási és ügynökalapú feladatokban. Ma már ez a Gemini alkalmazás, a keresés és a fejlesztői eszközök alapértelmezett motorja. A teljesítmény-orientált Gemini 3.5 Pro még tesztelési fázisban van.

A Gemini Omni a videógenerálás terén hoz újdonságot: szöveget, képet, hangot és meglévő felvételeket kombinálva állít elő új videókat, és meglévő felvételeket is módosíthat – karaktereket cserélhet, elemeket adhat hozzá, átkeretezhet jeleneteket. A Google I/O-n bemutatott demóban egy utcán gitározó lány egyetlen szöveges utasítással 360 fokos forgókamerás videót kért a felvételéből, comic book stílusú háttérrel – az eredmény a közönségből hangos reakciót váltott ki. Minden Gemini Omni által készített tartalom láthatatlan digitális vízjelet kap (SynthID), amelyet más Google-termékek – és egyre több partner, köztük az ElevenLabs – felismerhetnek. A mélyhamisítások (deepfake-ek) terjedése ellen a tartalmak azonosíthatósága nyújthat némi védelmet, bár a digitális vízjel megkerülhetősége is valós kérdés. YouTube Shorts-felhasználóknak ingyenes, máshol az AI Plus, Pro és Ultra előfizetés mögé kerül; egyelőre csak az USA-ban elérhető.

A Gemini Spark egy folyamatosan aktív, felhőalapú személyes AI-asszisztens. Hozzáfér a Gmailhez, a naptárhoz és a dokumentumokhoz, és összetett feladatokat végez el önállóan – a laptop lecsukása után is. A bemutatón egy közösségi összejövetel megszervezését oldotta meg: összegyűjtötte az RSVP-válaszokat, nyomon követte, ki mit hoz, emlékeztetőket küldött a nem reagáló meghívottaknak, és élő nyomkövetési táblázatot épített Google Sheetsben. Az év vége előtt vásárlásokat is képes lesz önállóan intézni. Canva, OpenTable és Instacart integrációval indul; a Chrome-integráció és a közvetlen üzenetküldés a Spark felé az év végén várható.

A látássérültek szempontjából a szöveges felület ígéretes: ha a Sparkot telefonról közvetlenül lehet üzenetben utasítani, a kezelése könnyen megoldhatónak ígérkezik. A feltétel azonban nem elhanyagolható: Spark csak akkor működik jól, ha a felhasználó lényegében teljes digitális életéhez hozzáférést ad.

Szintén bemutatkozott a Daily Brief: napi összefoglaló a saját naptárról, postaládáról és aktuális teendőkről. Lényegében egy személyre szabott reggeli eligazítás – mi vár rád ma, mi maradt el tegnap, min érdemes most átmenni. Az AI Plus, Pro és Ultra előfizetők kapják meg elsőként, egyelőre az USA-ban.

Universal Cart és AI-keresés

A Google Universal Cart egy egységes vásárlókosár, amely az összes Google-termékben megjelenik: keresésben, Geminiben, YouTube-ban, Gmailben. Minden vásárolni kívánt tétel egy helyen gyűlik össze, a rendszer figyelemmel kíséri az árakat, értesít az akciókról, és kompatibilitási problémák esetén jelez. Ha például valaki egyedi számítógép-konfigurációhoz tesz össze alkatrészeket, de egymással nem kompatibilis processzort és alaplapot választ, a Universal Cart figyelmeztet. A háttérben a Universal Commerce Protocol (UCP) fut, amelyet arra terveztek, hogy az AI-ügynökök megbízhatóan intézhessenek vásárlásokat.

A Google-keresést is fejlesztették: az AI mód már a Gemini 3.5 Flash-t hajtja, és megjelennek az ún. információs ügynökök – kis háttérfolyamatok, amelyek folyamatosan figyelik a netet egy adott kérdés frissülésére, mint egy okos Google-értesítő. A Gemini alkalmazás eközben teljes vizuális megújuláson esik át: az új dizájnnyelv neve Neural Expressive, új színpalettával, animációkkal és elrendezéssel.

Az előfizetési struktúra is változott: bevezettek egy új, havi 100 dollárba kerülő AI Ultra szintet, a korábbi 250 dolláros csomag pedig 200 dollárra csökkent – változatlan képességekkel. Ez az árcsökkentés a Google előfizetési piacán szokatlan lépés.

Összegzés

A két esemény összességében egy irányt mutat: az AI-ügynökök és az akadálymentesítési fejlesztések egyre inkább összefonódnak. A vak videószerkesztőtől az egyéni hangokon és a navigáló okosszemüvegen át a személyes AI-asszisztensig minden bejelentés ugyanarról a logikáról szól: nem a régi problémák hangvezérléses adaptációjáról van szó, hanem teljesen új megközelítésekről. Az árak, az elérhetőség és a konkrét funkciók sok esetben még nyitott kérdések – de az irány, amelybe mindkét vállalat halad, egyértelmű.

A cikk a Double Tap podcast 2026. május 20-i adása alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.