Intelligens szemüveg vakok számára: az OOrion és a ScribeMe a mindennapokban

A Meta Ray-Ban okosszemüveg fejlesztői eszközkészlete egyre több külső alkalmazásnak nyit kaput. Az eddigi leglátványosabb eredmények az akadálymentesítés területén születtek: az OOrion és a ScribeMe ma már valódi mindennapi segítséget nyújthat vak felhasználóknak.

A Double Tap podcast legújabb epizódjában Steven Scott és Shaun Preece nemcsak elvben tárgyalják az AI-alapú szemüveges asszisztensek lehetőségeit, hanem valós tesztfelvételekkel és egy fejlesztői interjúval is alátámasztják a mondanivalójukat.

A Meta SDK és a külső fejlesztők megjelenése

A Meta a 2025-ös Connect eseményén mutatta be fejlesztői eszközkészletét (Wearables Device Access Toolkit), amely lehetővé teszi, hogy harmadik felek is integrálják szoftvereiket a Ray-Ban okosszemüveggel. A fejlesztés most kezd kézzel fogható eredményeket hozni: az OOrion és a ScribeMe a telefon helyett közvetlenül a szemüvegen keresztül is működhet, és kézszabad módban nyújtanak valós idejű vizuális információt.

Shaun Preece egyik fő érve az egész megközelítés mellett az egyszerűség. Emlékeztet arra, hogy a Be My Eyes – a látássérülteket önkéntesekkel összekötő platform – is sokszorosára nőtt a használata, amint megjelent a szemüvegeken. „Annyira egyszerű hands-free-ben csinálni” – foglalja össze a lényeget. Ugyanez a kényelmi előny most az AI-alapú tárgyészlelő alkalmazásoknál is érvényesül: ha nem kell elővenni a telefont, az emberek többet használják az eszközt.

A műsorvezetők szerint sokan éppen a Meta Ray-Ban integráció révén ismerték meg az OOrion-t – egy tárgyészlelő alkalmazást, amely már korábban is létezett, de az okosszemüvegekkel terjed igazán. A ScribeMe hasonlóan járt: a Meta Glasses-szel való együttműködés révén lett széles körben ismert, bár a szoftver más funkciókkal már 2024 óta elérhető.

OOrion: akadályészlelés a mindennapokban

Az OOrion elsősorban tárgyészlelő szoftver három fő funkcióval: akadályészlelés, közeli tárgyak azonosítása és tárgykeresés.

Shaun Preece saját reggeli sétájáról készített hangfelvételeket mutat be a podcastban – szerkesztés nélkül, ahogy a valóságban lejátszódtak. Az akadályészlelési demóban az alkalmazás csak akkor szólal meg, ha releváns változás következik be: jelez, ha valaki közeledik a járdán, vagy ha egy autó részben elállja az utat. Ha az út szabad, csendben marad. Shaun szerint ez az ideális működés: „Csak akkor szólal meg, ha valami érinti engem, vagy érintheti engem.” Ugyanakkor elismeri, hogy ez személyes preferencia kérdése – vannak, akik a folyamatos visszajelzést részesítik előnyben.

A prompt, amellyel Shaun ezt az üzemmódot elérte, egyszerű: „Szólj, ha valami közvetlenül az utamban van.” Az AI erre az egyetlen felszólításra aktiválódik, és ezt követően már maga monitoroz. Shaun megjegyzi, hogy az AI-eknél ugyanarra a promptra nem mindig ugyanaz a válasz érkezik, de ez a megfogalmazás számára általában jól működik.

A tárgykeresés funkció hangjelzésekkel vezeti a felhasználót a keresett tárgyhoz. A demóban Shaun egy parkban padot keres: az OOrion folyamatosan tájékoztatja a közelítő távolságról, és hanggal irányítja a megfelelő irányba – 55 métertől egészen addig, amíg Shaun szinte bele nem ütközik a padba. A távolságmérés nem teljesen pontos, mivel a szemüvegben nincs LiDAR-szenzor, de a hangos navigáció így is segít. „Rájövök, hogy rengeteg dologra se gondolok, mert nem is tudok róla” – mondja Shaun. – „Egy padot sem próbálnék megkeresni a parkban, mert eszembe se jutna, hogy ott lehet.” Hasonlóan hasznos lehet a kutyasétáltatáshoz szükséges hulladéktároló megtalálása, egy szabad pad az utcán, vagy bármi, amiről a vak ember általában nem is tud, hogy ott van.

A közeli tárgyak azonosítása funkció folyamatosan felsorolja, amit a kamera lát – a Shaun által bemutatott parkos demóban ez kavicsos ösvényt, kutyát, alacsony bokrokat és fákat jelent egymás után. Shaun megjegyzi, hogy utcai sétánál ez a részletesség kevésbé szükséges, de például egy ismeretlen épületen belül vagy egy parkban hasznos lehet.

A szövegolvasás funkció elsősorban nagyobb feliratokra, táblákra és utcanevekre alkalmas. A szemüveg kamerájának felbontása nem elegendő levelek vagy csomagoláson lévő apróbb szövegek olvasásához; az OOrion maga is arra irányítja a felhasználókat, hogy kisebb szövegekhez a telefon kameráját használják. A demóban az alkalmazás egy parkbejárat tábláját olvassa fel – „Lovak nem engedhetők be” – amelyet Shaun saját bevallása szerint az évek során soha nem vett észre.

ScribeMe: egy vak fejlesztő megoldása

A ScribeMe mögött Mark Morad fejlesztő áll, aki maga is vak. Az ötlet az iskolai évekből ered: fizikát és kémiát akart tanulni, de a tananyag szinte kizárólag vizuális formában volt elérhető, így a felkészüléshez másokra szorult. Miután megtanult programozni, kilenc-tíz hónapos fejlesztés után 2024 novemberében megjelent a ScribeMe első, asztali számítógépekre szánt verziója. A mobilos változat 2025 februárjában követte.

A ScribeMe három fő funkciót kínál. Az első a dokumentum-akadálymentesítés: PDF- és PowerPoint-fájlokat képes feldolgozni úgy, hogy a szöveg mellett a képeket is leírja, miközben megőrzi az eredeti formázást – ez egy olyan funkció, amellyel Mark Morad saját tanulmányi nehézségeit próbálta orvosolni. A második a képleírás arcfelismeréssel kiegészítve: a felhasználó feltöltheti ismerősei fényképét, és a rendszer névvel azonosítja a felismert személyeket, nem csupán általános leírást ad. A harmadik és jelenleg legnépszerűbb funkció a Live Assist.

Live Assist: folyamatos AI-segítség a szemüvegen

A Live Assist lényege, hogy a felhasználónak nem kell minden alkalommal kérdést feltenni: egyszer ad utasítást, és a rendszer folyamatosan figyeli a kamera képét, szükség esetén figyelmeztetéseket küldve. Mark Morad a saját kampuszán tesztelte: a ScribeMe lépcső előtt, embercsoportok közelében és fáknál is figyelmeztetett, sőt egy épületen belül még a kijáratot is megtalálta azzal, hogy fényt észlelt egy nyílás előtt. „Én teljesen vak vagyok, nem látok fényt – de a ScribeMe megmondta, hogy valószínűleg erre a kijárat, mert fényt lát” – meséli.

A Shaun által is kipróbált Live Assist funkció hasonló tapasztalatokkal jár: az AI folyamatosan kommentálja az utcaképet, a házak színétől kezdve az előtte sétáló járókelőkig – és egy alkalommal arról is értesítette, hogy egy kutya végzi a dolgát előtte az úton. „Jó lett volna, ha ezt nem mondja el” – jegyezte meg nevetve, de ez is jól mutatja, hogy a rendszer mindent leír, amit a kamera lát.

A Meta SDK-integráció révén a Live Assist a Ray-Ban szemüvegen is működik, nem csupán a telefon kameráján keresztül. A kézszabad használat azt jelenti, hogy a felhasználó normálisan mozoghat – bottal az egyik kezében, pórázzal a másikban –, miközben a szemüveg folyamatosan közvetíti a képet a rendszer felé.

Az alkalmazás munkamenete 30 perc után automatikusan leáll, de azonnal újraindítható – ez inkább erőforrás-védelmi intézkedés, mintsem érdemi időkorlát. Mark Morad elmondta, hogy az állandóan nyitva hagyott session komoly terhelést jelent a szerverekre, ezért vezették be ezt a mechanizmust, de a felhasználónak nem kell várakoznia az újraindítás előtt. Az előfizetéses csomag havi 19,99 dollárba kerül, napi maximális használati időt nem köt ki.

A ScribeMe fejlesztője szerint a felhasználók egy részének kényelmesebb a folyamatos visszajelzés – tudni akarja, hogy az AI dolgozik –, ezért a rendszer csak akkor áll le a leírással, ha hosszabb ideig ugyanazt a jelenetet látja. Ha a kép változik, azonnal újrakezdi a kommentárt.

Az SDK korlátai és a fejlesztés iránya

A Meta fejlesztői eszközkészlete egyelőre korai fázisban van. A külső szoftverek jelenleg csak a telefonon keresztül indíthatók – a szemüvegen hanggal vagy gesztussal nem lehet őket közvetlenül aktiválni. Hangparancs-alapú indítás (például „Meta, nyisd meg a Live Assist-et”) egyelőre nem érhető el, és a szemüveg érintőlapját sem lehet használni a funkciók némításához vagy visszakapcsolásához. Mark Morad szerint a Meta ezeken aktívan dolgozik, és amint elérhetők lesznek, a ScribeMe is integrálja őket. Jelenleg annyi érhető el, hogy az érintőlapon egyetlen érintéssel be- és kikapcsolható a kamera a munkamenet közben – ez például akkumulátorkímélés szempontjából hasznos.

Az App Store-ban való közzétételhez a Meta egyelőre nem adja meg az engedélyt, ezért a ScribeMe jelenleg az Apple TestFlight tesztelési platformon érhető el. Mark Morad nem tudja megmondani, mikor lesz nyilvánosan elérhető az App Store-ban – ez a Meta döntésén múlik.

Mark Morad elmondta, hogy a jövőben főként a pontosságon és a navigációs képességeken szeretne javítani. Az AI-s rendszerek jellemző problémája, a téves kimenet (hallucináció), itt sem kerülhető el teljesen, de csökkenthető. Általános nehézség a bal-jobb irányok helyes azonosítása is: különösen akkor fordul elő hiba, ha a felhasználó a telefon kameráját nem saját nézőpontjával egyező irányba tartja. Mark szerint ez leginkább telefon-alapú használatnál jelenik meg, a szemüvegen kevésbé, de vizsgálja a kérdést.

Shaun Preece tapasztalata szerint ezek az eszközök már most érzékelhető változást hoznak a napi rutinban. Megemlíti, hogy reggeli sétáin korábban a VoiceVista alkalmazást használta tájékozódáshoz, de utóbbi időben már csak az AI-asszisztenst indítja el. Nem a mobilitási segédeszközök – fehér bot, vakvezető kutya – helyettesítéséről van szó, hanem egy kiegészítő rétegről, amely korábban elérhetetlen információkat tesz hozzáférhetővé: például azt, hogy merre van a következő kereszteződés, ha éppen nem fut a navigációs app.

Összegzés

Az OOrion és a ScribeMe Live Assist funkciója azt mutatja, hogy a proaktív, kézszabad AI-asszisztencia vak felhasználók számára ma már nem csak ígéret. A Meta Wearables SDK-ra épülő ökoszisztéma bővülőben van, és bár az eszközkészlet maga is fejlesztés alatt áll, az elérhető funkciók már most beépülhetnek a mindennapi rutinba. A következő lépés az lesz, hogy a szemüvegen is lehessen hangutasítással elindítani ezeket a külső szoftvereket – ez tenné igazán zökkenőmentessé a használatot.

A cikk a Double Tap podcast 2026. április 6-i adása alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.

Szólj hozzá!

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük