Sztuczna inteligencja "widzi" świat przez dźwięk

Najnowsze badania przeprowadzone przez uczonych z University of Texas at Austin pokazują, że sztuczna inteligencja nie tylko rozpoznaje dźwięki, ale także potrafi interpretować je na tyle precyzyjnie, aby odtworzyć wizualne charakterystyki miejsc. System analizuje krótkie, 10-sekundowe nagrania, takie jak dźwięki ruchu ulicznego, natury czy odgłosy miasta, i generuje obrazy przedstawiające otoczenie z uwzględnieniem takich szczegółów, jak liczba budynków, obszary zieleni czy pogoda.

Czytaj też: Sztuczna inteligencja z ludzkim wzrokiem? To już nie science fiction

Co imponujące, testy wykazały, że w 80 proc. przypadków ludzie poprawnie dopasowywali wygenerowane obrazy do rzeczywistych nagrań, co potwierdza wysoką skuteczność tego rozwiązania opisanego w czasopiśmie Computers, Environment and Urban Systems.

Sztuczna inteligencja “maluje” świat dźwiękiem

System bazuje na modelach uczenia głębokiego (deep learning), które łączą dane dźwiękowe z obrazami. Jednym z kluczowych elementów jest zdolność AI do identyfikacji charakterystycznych cech dźwięków, takich jak akustyka otwartej przestrzeni, odbicia dźwięku od budynków czy intensywność i częstotliwość odgłosów natury. Algorytmy analizują proporcje takich elementów, jak powierzchnie zielone, budynki i niebo, tworząc kompletny obraz przestrzeni. Ponadto, system jest w stanie rozpoznać kontekst akustyczny miejsca, np. różnicę między ulicą w deszczowy dzień a parkiem w ciepłe, letnie popołudnie.

Czytaj też: To coś więcej niż zwykły egzoszkielet. Hyundai i Kia zapowiadają rewolucję w fabrykach

Technologia ta może znaleźć szerokie zastosowanie w różnych dziedzinach. Jednym z potencjalnych kierunków rozwoju jest urbanistyka – analiza akustyczna miast mogłaby pomóc w identyfikacji problemów związanych z hałasem i optymalizacji przestrzeni miejskich. Inną możliwością jest monitoring środowiskowy, gdzie systemy AI mogłyby identyfikować zmiany w ekosystemach na podstawie odgłosów przyrody.

Nowo opracowana technologia może pomóc osobom niewidomym odbierać świat, ale to nie jedyne jej zastosowanie /Fot. University of Texas

Szczególnie obiecujące jest jednak zastosowanie tej technologii w systemach wspomagających osoby niewidome i niedowidzące. Dzięki niej użytkownicy mogliby zyskać wizualne wyobrażenie otoczenia poprzez opisy generowane na podstawie dźwięków, co mogłoby zrewolucjonizować ich codzienną nawigację i interakcje z otoczeniem.

Według dr Yuhao Kanga, kierującego badaniami, narzędzie to ma potencjał, by rewolucjonizować sposoby, w jakie ludzie i maszyny interpretują otoczenie:

Połączenie dźwięku i obrazu w analizie danych to nowy etap w rozwoju sztucznej inteligencji. Technologia ta może stać się podstawą dla bardziej zaawansowanych systemów AI, które będą jeszcze lepiej integrować różne formy danych sensorycznych w jednym systemie analitycznym.

Mimo olbrzymiego potencjału, opisana technologia stoi przed wieloma wyzwaniami. Jednym z nich jest poprawa precyzji w generowaniu obrazów w złożonych akustycznie środowiskach, takich jak centra dużych miast czy przestrzenie przemysłowe. Kolejnym krokiem będzie także uwzględnienie różnic kulturowych i geograficznych, które wpływają na charakterystykę dźwięków w różnych częściach świata.

Badania otwierają także nowe pytania dotyczące etyki wykorzystania AI. Generowanie obrazów na podstawie dźwięków może być wykorzystywane do monitorowania przestrzeni publicznych, co budzi obawy o prywatność i potencjalne nadużycia technologii.