Okostelefonok segítségével ma már megoldható az, amire korábban emberi segítség kellett: szövegek felolvasása, tárgyak azonosítása, valós idejű navigáció. Az elérhető alkalmazások köre az elmúlt években jelentősen bővült — de melyik mire jó valójában?
—
A National Federation of the Blind (NFB) Jernigan Intézete rendszeresen szervez webináriumokat, amelyeken vak és gyengénlátó felhasználók közvetlenül megismerkedhetnek az aktuális technológiai megoldásokkal. Ezeken az alkalmakon nem marketingprezentációk hangoznak el, hanem élő bemutatók zajlanak — olykor hibákkal, váratlan fordulatokkal együtt. A 74. epizódban ilyen valós körülmények között mutattak be hét alkalmazást, amelyek közül több már napi szinten segíthet látássérült felhasználóknak.
A tesztek nem laboratóriumi körülmények között zajlottak. A bemutatott anyagok közt volt bankkártya-feltételek dokumentuma, kávéspakkok dobozai, egészségbiztosítási nyomtatványok és egy orvosi levél — vagyis pontosan azok a mindennapi helyzetek, amelyekben a látássérülteknek valóban segítségre van szükségük.
—
A szövegfelismerés: nem minden OCR egyforma
Az optikai karakterfelismerés (OCR) — vagyis a nyomtatott szöveg gépi olvasása — az egyik legalapvetőbb funkció, amelyet az ilyen alkalmazásoktól elvárunk. A Seeing AI (Microsoft) ezen a területen az egyik legjobban kidolgozott megoldást kínálja. Az alkalmazás 2017-ben jelent meg iOS-re, később Androidra is elérhetővé vált, és azóta folyamatosan fejlesztik.
A Seeing AI két különböző megközelítést alkalmaz a szövegolvasásra. Az élő szövegolvasó mód közvetlenül az eszközön fut, nem kerül adat a felhőbe, és közel valós időben jelez vissza — praktikus például egy felirat vagy egy ár gyors ellenőrzéséhez. Hasznos olyankor is, amikor a számítógép hirtelen néma lesz: egy Windows-frissítés kellős közepén például ez az egyszerű eszköz derítheti ki, mi áll a háttérben. A dokumentum szkennelési mód ezzel szemben a felhőbe tölti fel a képet, cserébe strukturáltabb kimenetet ad: a szöveget fejlécekkel tagolva adja vissza, ami hosszabb dokumentumoknál érzékelhető különbséget jelent.
Az Aira Access AI — az Aira Explorer alkalmazás részeként elérhető funkció — a bemutatón részletes és pontos leírást adott egy kávéspakk dobozáról, beleértve az apró betűs részleteket is. Az alkalmazás egyik sajátos vonása az emberi megerősítési lehetőség: az Aira saját ügynöke ellenőrizheti az AI által adott leírást, ami fontos lehet, ha valaki nem bízik meg teljesen a gépi eredményben. Az Aira Explorer alapfunkciói — köztük az Access AI — előfizetés nélkül is elérhetők.
A ScribeMe inkább dokumentumkezelésre van kihegyezve: PDF-fájlokat — köztük képalapú szkenneket is — képes feldolgozni, és a bennük lévő képeket szintén leírja. A bemutatón egy könyv PDF-változatát töltötték fel: a feldolgozás után nemcsak a szöveg vált olvashatóvá, hanem a könyvben szereplő összes kép részletes leírása is megjelent — ami a könyv eredeti, hagyományos képernyőolvasós változatából teljesen hiányzott. A szolgáltatás ingyenes verzióban korlátozott; teljes hozzáférés havi húsz, éves előfizetésben kétszáz dollárért érhető el.
—
A Seeing AI mint multifunkciós eszköz
A Seeing AI-t nem véletlenül szokták svájci bicskához hasonlítani: az OCR-en túl számos egyéb funkciót tartalmaz. Vonalkód-olvasójával termékeket lehet azonosítani — a kamera közeledtével egyre gyorsabb sípoló hanggal jelez, amikor a vonalkód a látómezőbe kerül. Pénznem-felismerő módja az USA-ban dollárban működik, de a beállításokban más valuta is megadható.
Az arcfelismerő funkció lehetővé teszi, hogy a felhasználó betanítsa az ismerős arcokat: ezután a kamera pásztázásával bármikor megállapítható, hogy ki van a szobában. A tárgykeresővel korábban lefotózott dolgokat lehet megtalálni a terepen — nem kell előre betanítani, elég egyszer lefotózni az adott tárgyat. A World csatorna térbeli hangeffektekkel tájékoztat a közelben lévő tárgyakról: ha valami bal oldalon van, a bal fülben szólal meg a jelzés.
Figyelemre méltó, de kevéssé ismert lehetőség a videó-audioleírás: ha a felhasználó egy videót talál a fényképtárában, a Seeing AI feldolgozza, és szöveges felolvasással ismerteti annak vizuális tartalmát. Van némi hosszkorlát, és a feldolgozás időigényes, de a funkció létezik és működik.
A fotóböngészés is elérhető az alkalmazásban: a képtárból kiválasztott fénykép feltöltés után részletes leírást kap, és az érintéssel való felfedezés módban kézzel pásztázható a kép — az ujj alatti területen lévő tárgy neve, és egyes esetekben a becsült életkora is megjelenik.
—
Tárgyfelismerés: logóktól a kávéspakkig
A tárgyfelismerés terén a ChatGPT (OpenAI) és a Gemini (Google) mobilalkalmazásainak élő videóstreaming funkcióit — az úgynevezett „Go Live” módot — hasonlították össze a Seeing AI-val és az Ally alkalmazással.
A ChatGPT az élő módban megbízhatóan azonosított logókat és dobozokat — két különböző kávémárka csomagolását is helyesen megkülönböztette. A Gemini hasonlóan működött, bár a bemutatón felhívták a figyelmet arra, hogy navigációs célú használatáról vegyes visszajelzések érkeznek: a felhasználói tapasztalatok szerint ilyen helyzetekben hajlamos félreértelmezni a látottakat.
Az Ally (az Envision nevű cég terméke) a bemutatón instabilnak bizonyult: egy kávéspakk helyett Intel-dobozt „látott”, egy szürke bőröndöt azonosított ott, ahol valójában egy zongora állt. Ez nem teszi érvénytelenné az alkalmazást, de azt mutatja, hogy az élő videós AI-funkciók még fejlesztés alatt állnak.
—
Valós idejű párbeszéd: az élő videóstreaming ígérete és korlátai
Az elmúlt évben megjelent élő videóstreaming funkciók alapvetően más felhasználási módot tesznek lehetővé, mint a hagyományos fotó alapú alkalmazások. A felhasználó nem egyetlen képet küld fel elemzésre, hanem folyamatos párbeszédet folytat az AI-jal a kamera képe alapján — hasonlóan ahhoz, mint amikor valaki telefonon kér segítséget egy embertől.
Az Ally és a ScribeMe Live Assist funkciója kifejezetten vak felhasználókra van optimalizálva. Az Ally személyre szabható: különböző mesterséges személyiségek és hangok közül lehet választani, és az alkalmazás Meta Ray-Ban okosszemüveggel is összeköthető — ez utóbbi egyelőre béta stádiumban van. A prémium előfizetéshez naptárintegráció, webes keresés és időjárás-előrejelzés is tartozik, ami túlmutat a puszta vizuális segédeszközön. Az Ally elérhető iOS-en, Androidon és weben is az ally.me oldalon.
Az Ally rendelkezik egy Live Scanner béta funkcióval is: a felhasználó beírja, mit keres (például „doboz kávékapszulával”), és az AI sípoló hanggal jelez, amikor a keresett tárgy a kamera képébe kerül. A Seeing AI hasonló funkciójától eltérően ezt nem kell előzetesen betanítani — az AI önállóan azonosítja a leírt tárgyat. A bemutatón a funkció megbízhatóan megtalálta az előzetesen félretett dobozt.
Az Aira Explorer alkalmazásban elérhető Project Astra integráció — a Google DeepMind fejlesztése — a bemutatón a legjobb összteljesítményt nyújtotta az élő videós módban. Megtalálta a kávéspakk dobozát a zongoraszék alatt, azonosította egy kutya játékát a szőnyegen, elolvasta egy orvosi levél teljes szövegét, és a zongora gyártójának azonosítására vonatkozó kérdésnél azt javasolta, hogy a kamera közelebb vigye a felirathoz — értve a kérés kontextusát. Ez utóbbi olyan teljesítmény, amelyre a többi tesztelt megoldás nem volt képes. A rendszer minden válasz után visszakérdez, ami egyes felhasználóknak előny, másoknak esetleg zavaró lehet.
Ami ezt a megoldást megkülönbözteti a többitől: az AI-hívást ember — egy Aira-ügynök — felügyeli, beavatkozhat, ha szükséges, és a hibákból a rendszer tanul. A fejlesztés az Aira és a Google közös munkája; a projekt korábbi fázisában a Google ingyenes percekkel kompenzálta az Aira-t azért, hogy a vak felhasználók vizuális értelmezési igényeiből tanulhasson az AI. A funkció egyelőre béta verzióban, nem nyilvánosan érhető el.
—
Emberi és gépi segítség együtt
A Be My Eyes alkalmazás más úton közelít: az emberek és az AI kombinációját kínálja. A Be My AI fül segítségével fotót lehet feltölteni, és az AI azonnali leírást ad — de ha valaki bizonytalan az eredményben, ugyanabból az alkalmazásból emberi önkéntes is hívható. A hangerőgombbal készített felvétel stabilabb képet eredményez, mint az érintőképernyő-érintés, ami a szövegolvasás pontosságát javítja. A leírás után szöveges visszakérdezési lehetőség is rendelkezésre áll: a felhasználó pontosítást, kiegészítést kérhet az AI-tól ugyanabban az ablakban.
Az Aira Access AI szintén ezt az elvet követi: az emberi felügyelet nem csupán egy opcionális extra, hanem a rendszer szerves része. Az élő AI-hívást egy képzett ügynök figyeli, szükség esetén átveheti az irányítást, és a sikeres vagy sikertelen felismerések visszajelzést adnak a fejlesztőknek. A Detailed Capture módban a kérdés akár a fotó elkészítése előtt is begépelhető, így a leírás egyből a releváns kérdésre fókuszál.
Ez a hibrid megközelítés azért lényeges, mert az AI-alapú vizuális értelmezés ma még nem hibátlan. Az alkalmazások hallucinálhatnak — vagyis magabiztosan adhatnak helytelen leírást —, és a felhasználónak nincs mindig módja ellenőrizni a kapott információt. Ahol valódi tétje van a pontosságnak (gyógyszerfeliratok, jogi dokumentumok, orvosi levelek), ott az emberi visszacsatolás biztosítékot jelent.
—
Árazás és elérhetőség
A bemutatott alkalmazások közül a Seeing AI és a Be My Eyes ingyenes, és mindkettő iOS-en és Androidon is elérhető. Az Aira Explorer alapfunkciói szintén ingyenesen hozzáférhetők, és a Project Astra béta időszakában a streaming funkció sem igényel külön előfizetést.
A ChatGPT és a Gemini korlátozott ingyenes szintet kínál; a teljes hozzáférés mindkét esetben hozzávetőleg havi húsz dollárba kerül, és az ingyenes szinten a videós funkciók hamar elérik a korlátot. A ScribeMe árazása azonos: húsz dollár havonta, illetve kétszáz dollár évente, beleértve havi száz fájl feltöltését és korlátlan kérdezési lehetőséget. Az Ally ingyenes és prémium előfizetéses szintet egyaránt kínál.
—
Összegzés
A bemutatott alkalmazások között nincs egyetlen „legjobb” megoldás — a megfelelő választás a felhasználó igényeitől és az adott helyzettől függ. Napi szövegolvasáshoz és vonalkódfelismeréshez a Seeing AI kiérlelt és megbízható eszköz. Valós idejű párbeszédhez és navigációhoz az Aira Project Astra béta verziója mutatja a legígéretesebb eredményeket, emberi biztonsági hálóval együtt. A Be My Eyes és az Aira Access AI az emberi és gépi segítség kombinálásával csökkenti a tévesfelismerések kockázatát. A piac aktívan fejlődik, és az elmúlt hónapokban tapasztalható minőségi ugrások alapján a közeljövőben a jelenleginél lényegesen megbízhatóbb eszközök válhatnak elérhetővé.
A cikk az Access On podcast 74. epizódja alapján, AI felhasználásával készült, ezért apróbb pontatlanságokat tartalmazhat.