Nowe narzędzie AI ułatwia codzienne życie osób z niepełnosprawnością wzroku


Dzięki nowemu oprogramowaniu WorldScribe, świat pełen kolorów i faktur może stać się bardziej dostępny dla osób niewidomych i słabowidzących. Opracowane przez naukowców z Uniwersytetu Michigan narzędzie wykorzystuje sztuczną inteligencję, aby opisywać obrazy rejestrowane przez kamerę w czasie rzeczywistym. WorldScribe ma potencjał, by znacznie ułatwić codzienne funkcjonowanie osobom z niepełnosprawnością wzroku, dostarczając szczegółowych opisów otoczenia w formie tekstowej i dźwiękowej.

Jak działa WorldScribe?

WorldScribe wykorzystuje generatywne modele językowe AI, które analizują obraz z kamery, a następnie generują opisy słowne obiektów znajdujących się w polu widzenia użytkownika. Opisy te są dostosowywane do sytuacji — narzędzie może regulować poziom szczegółowości na podstawie tego, jak długo dany przedmiot znajduje się w kadrze, oraz automatycznie dostosowuje głośność w zależności od otoczenia. Na przykład w hałaśliwych miejscach, takich jak ruchliwe ulice czy zatłoczone pomieszczenia, dźwięk staje się wyraźniejszy.

Rewolucja w dostępności

Sam Rau, osoba niewidoma, która uczestniczyła w testach pilotażowych, opowiada, jak narzędzie zmienia postrzeganie świata przez osoby niewidome:

„To jak cud, który daje nam natychmiastowy dostęp do informacji o otoczeniu, bez potrzeby składania obrazu kawałek po kawałku. WorldScribe pomaga nam lepiej funkcjonować i skupić się na codziennych czynnościach, a nie na ciągłym zastanawianiu się, co nas otacza”.

W testach pilotażowych narzędzie było używane przez smartfon połączony z kamerą, a opisy generowane były niemal natychmiast. Obiekty takie jak laptop, stos papierów czy obrazy na ścianach były opisywane na bieżąco, a poziom szczegółowości zmieniał się w zależności od tego, jak długo dany przedmiot pozostawał w kadrze.

Inteligentne i adaptacyjne narzędzie

WorldScribe korzysta z różnych modeli sztucznej inteligencji, które dostosowują poziom szczegółowości opisu do sytuacji. Na przykład model YOLO World szybko generuje proste opisy obiektów, które pojawiają się tylko na chwilę. Z kolei GPT-4, model od OpenAI, odpowiada za tworzenie bardziej szczegółowych opisów, gdy obiekt pozostaje w kadrze dłużej. Inny model, Moondream, zapewnia opisy o średnim poziomie szczegółowości.
Narzędzie pozwala również użytkownikowi zadawać pytania i priorytetyzować opisy, np. szukać konkretnego przedmiotu w pomieszczeniu, co czyni je jeszcze bardziej użytecznym.

Przyszłość WorldScribe

Naukowcy z Uniwersytetu Michigan pracują nad udoskonaleniem WorldScribe, aby narzędzie mogło być bardziej praktyczne do codziennego użytku, na przykład poprzez integrację z inteligentnymi okularami. Pomimo że obecnie WorldScribe ma pewne ograniczenia, jak trudność w rozpoznawaniu niektórych przedmiotów, takich jak małe butelki, badacze są przekonani, że technologia ta ma ogromny potencjał.
Uniwersytet Michigan zgłosił już patent na WorldScribe i poszukuje partnerów, którzy pomogą wprowadzić to przełomowe narzędzie na rynek.


 

Źródło: University of Michigan