Inżynierowie z Politechniki Krakowskiej opracowali tłumacz dla osób niewidomych – ze zdjęcia tekstu na alfabet Braille’a

Studencki wyświetlacz „od ręki” przetłumaczy każdą książkę czy tekst ze zdjęcia na alfabet Braille’a. Urządzenie wykorzystujące m.in. sztuczną inteligencję może też służyć osobom niewidomym do nauki języka. Prototyp opracowali młodzi inżynierowie z Politechniki Krakowskiej.
Jak poinformowała uczelnia, wyświetlacz Braille’a z systemem przetwarzania znaków i rozpoznawania tekstu opracowali Bartłomiej Szostak i Hubert Orlicki Wydziału Inżynierii Elektrycznej i Komputerowej PK w ramach prac dyplomowych. Urządzenie wykorzystuje detekcję obrazu i funkcjonalność nauczania alfabetu. Zawiera ono kamerę, która gromadzi w czasie rzeczywistym obraz tekstu do przetłumaczenia. Przy wsparciu algorytmów m.in. sztucznej inteligencji (AI) wyświetla następnie układ wypustek tłumaczących obraz na alfabet Braille’a. Przetłumaczony tekst jest wyświetlany od lewej do prawej strony na wyświetlaczu brajlowskim z uwzględnieniem odpowiednich zasad.
Niewielka skrzyneczka wyświetlacza kryje w sobie liczne moduły, połączone w sprawnie działający mechanizm. Sercem urządzenia jest mikrokomputer Raspberry Pi. „Do mikrokomputera podłączona jest kamera oraz sterownik PCA, który umożliwia podłączenie serwonapędów, niezbędnych do wprawiania w ruch pasków przesuwnych. Paski ustawiają piny w odpowiedniej kolejności, którą osoba niewidoma odczytuje dotykiem. W systemie OCR („optical character recognition”) czyli optycznego rozpoznawania znaków, wykorzystywana jest sztuczna inteligencja. System rozpoznawania tekstu jest stworzony w oparciu o silnik Tesseract OCR. Program urządzenia został napisany w języku Python wersji 3.X, z wykorzystaniem bibliotek pomocniczych OpenCV, Adafruit, PySimpleGUI” – wyjaśnia Hubert Orlicki, współautor wyświetlacza cytowany w materiale prasowym.
Reszta urządzenia to m.in. koła magazynujące linkę, pręty naprowadzające, slidery, linki i napinacze, czyli mechanizmy wykorzystywane w celu precyzyjnego ustawiania przepustek. Zostały zaprojektowane w Fusion 360 i wydrukowane z wykorzystaniem druku 3D.
Studencki projekt kosztował zaledwie 1000 zł, a jest już na 6. poziomie gotowości technologicznej (TRL). Tani prototyp urządzenia jest już rozwijany – tak, by mógł trafić do szerszego grona użytkowników. Twórcy chcą, żeby stał się tanim urządzeniem do samodzielnego użytku osób niewidomych, najpierw z przeznaczeniem na polski rynek. Szacują, że potrzeba na to około 2 lat. W przyszłości mogliby z niego korzystać ludzie z całego świata – wystarczyłoby tylko odpowiednie skonfigurowanie i wyposażenie urządzenia w dodatkowe znaki brajlowskie.
„Do stworzenia niskobudżetowego prototypu i przetestowania koncepcji użyliśmy tylko 4 znaków. Teraz już wiemy, że nasz pomysł się sprawdza. Docelowo chcemy rozwinąć klawiaturę do większej liczby np. 12-16 znaków. Chcemy też przenieść wszystkie funkcje (w prototypie obsługiwane przez zewnętrzną klawiaturę) do wnętrza urządzenia, tak, aby osoba niewidoma czy słabowidząca mogła z niego komfortowo korzystać samodzielnie” – zapowiada w komunikacie współautor projektu Bartłomiej Szostak.
Według Huberta Orlickiego szersze wykorzystanie algorytmów AI mogłoby rozwiązać kwestię dokładności geometrii obrazu: tak aby silnik do rozpoznawania tekstu (OCR) był w stanie sobie poradzić z różną geometrią i kształtem obiektów, np. produktów spożywczych, z których odczytywany jest obraz.
Niektóre pomysły na modyfikacje zrodziły się dzięki konsultacjom autorów rozwiązania z ekspertami Polskiego Związku Niewidomych. Młodzi konstruktorzy chcieliby np. ulepszyć design i ergonomię urządzenia, rozszerzyć jego możliwości tak, by umiało odczytać formaty PDF czy skanować etykiety produktów spożywczych. Inżynierowie z PK analizują także możliwości tłumaczenia stron internetowych w formie wyświetlania głównej treści w sposób zbliżony do czytania gazet. Po odpowiednim ulepszeniu wyświetlacz znalazłby nie tylko zastosowanie w codziennych sytuacjach, mógłby być także na wyposażeniu bibliotek, szkół i przedszkoli, we wszystkich miejscach, w których uczy się czytania liter brajlowskich. W tego typu placówkach przydatna byłaby np. funkcja wyświetlania dowolnego wyrazu lub litery na urządzeniu.
Opiekę naukową nad pracami studentów pełnił promotor dr. inż. Tomasz Makowski, a organizacyjnie i finansowo wspierał ich również FutureLab PK. Jak podkreślają studenci, od początku chcieli, aby ich prace inżynierskie rozwiązywały rzeczywiste ludzkie problemy albo były wstępem do badań nad ważnym społecznie tematem.
„Postanowiliśmy skupić się na potrzebach osób niewidomych. Nasz projekt może ułatwić im codzienne życie, a także pomóc w nauce, studiowaniu i intelektualnym rozwoju” – mówi Hubert Orlicki, współautor rozwiązania. Autorzy dostrzegli, że problem z dostępem do dzieł literackich i podręczników dotyczy ogromnej rzeszy osób z niepełnosprawnością wzroku – szacuje się, że tylko 1 proc. książek na świecie zostało przetłumaczonych na alfabet Braille’a.
Tymczasem – jak ustalili studenci – według badań WHO z 2019 r., co najmniej 2,2 mld ludzi ma stwierdzone dysfunkcje wzroku, w tym 39 mln stanowią osoby, które całkowicie utraciły wzrok w wyniku chorób lub obrażeń. Polskie dane (GUS) mówią o 1,8 milionie osób ze stwierdzonym upośledzeniem wzroku, z czego około 100 tys. to osoby całkowicie niewidome. Polskie Ministerstwo Kultury i Dziedzictwa Narodowego szacuje, że nawet 300 tys. osób nie ma możliwości czytania książek wydrukowanych w formie czarnego druku. „Już to podstawowe rozeznanie potrzeb przekonało nas, że podejmujemy niezwykle ważny temat” – ocenił Bartłomiej Szostak.
Rozwiązanie doceniono podczas konferencji Student Cyber(netics) Symposium SCS’2023, na której Hubert Orlicki i Bartłomiej Szostak wygrali ze swoim wyświetlaczem sesję studenckich prezentacji.
Studenci PK są także finalistami Uczelnianej Sesji Kół Naukowych Politechniki Krakowskiej oraz uczestnikami Naukowej Sesji Mistrzów na PK.


 

Źródło: Naukawpolsce.pap.pl