Dla większości miłośników seriali i osób, które mniej więcej wiedzą, co jest na mainstreamowym topie, nie było szokiem, gdy świat obiegła informacja, że w Chinach wprowadzono System Zaufania Społecznego – widzieliśmy to już w jednym z odcinków serialu Netflixa. Użytkownicy social media nie oburzają się już na to, że algorytmy automatycznie rozpoznają twarze przy tagowaniu zdjęć na Facebooku, a Messenger podsłuchuje ich życie prawie przez całą dobę. Przy tej technologii jednak można poczuć dreszczyk niepewności.
Szaleni naukowcy czy geniusze w walce o lepsze jutro?
Technologia stojąca za aplikacją Speech2face brzmi trochę niepokojąco. Jej twórcy to sześcioro naukowców związanych z Laboratorium Informatyki i Sztucznej Inteligencji Insytytutu Technologii w Massachusetts (MIT Computer Science & Artificial Intelligence Lab), którzy ujawnili swój projekt światu, publikując artykuł na łamach serwisu naukowego Arxiv.
Jako cel stworzenia tego oprogramowania określili w nim możliwość odtworzenia portretu człowieka na podstawie krótkiego nagrania głosowego. W raporcie zaznaczyli również, że aplikacja nie jest w stanie odtworzyć rzeczywistego wyglądu właściciela głosu, ale może określić wybrane cechy fizyczne, które determinują jego sposób mówienia.
Artykuł wyjaśnia również, w jaki sposób naukowcy skorzystali z danych zebranych z milionów klipów z serwisu YouTube i stworzyli na ich podstawie model sieci neuronowej, który uczy się cech głosowych wynikających z budowy czaszki i twarzy (np. struktura nosa, czy wysokość podniebienia).
Może nie taki diabeł straszny…
Pada tam również kwestia, nad którą zastanawia się pewnie większość osób – względy prywatności i etyki. Czy to już ostateczny koniec jakiejkolwiek anonimowości? Twórcy Speech2Face przekonują, że aplikacja jest napisana tak, by nie odtwarzać portretów konkretnych osób, a koncentrować się jedynie na luźnych szkicach. Mimo to, gdzieś w głębi obfitego tekstu, zaszyte jest zdanie o tym, że to oparte na sztucznej inteligencji rozwiązanie może “wspierać” przydatne aplikacje, dodając wizualizację twarzy rózmówców telefonicznych. Brzmi nieciekawie, prawda?