Pogadaj z lodówką. Dom, który "słucha" właścicieli

Choć posiadacze smartfonów bardzo je lubią, nie zawsze chcą lub mogą po nie sięgnąć. W takiej sytuacji idealnym rozwiązaniem jest możliwość porozumiewania się z elektroniką na głos. Pomagają w tym technologie takie jak Siri dostępna w systemie iOS, Google Now czy Cortana opracowana przez Microsoft. Sklep Amazon.com z powodzeniem sprzedaje osobne urządzenie zwane Echo. To niewielki głośnik wyposażony w mikrofon i bezprzewodowe połączenie z internetem. Działa jak inteligentny asystent, któremu możemy zadawać pytania i wydawać polecenia. Na rynek trafiają podobne produkty, takie jak Google Home, a koncern Samsung pracuje nad rozwiązaniem, które pozwoli nam na rozmawianie z telewizorami i lodówkami.

Wygoda na zawołanie

Co potrafią zrobić cyfrowi asystenci? Wszystko to, do czego od dawna można użyć smartfona: sprawdzają wiadomości, robią notatki, potrafią znaleźć i odtworzyć utwór muzyczny, na który akurat mamy ochotę, wyszukać w okolicy punkty usługowe takie jak restauracje i kina. Na razie nie są jeszcze zbyt dobrzy w rezerwowaniu stolików, biletów lotniczych czy zamawianiu jedzenia, ale jak zapewniają
twórcy – to kwestia czasu. W niedalekiej przyszłości asystenci będą też pozwalali na kontrolowanie urządzeń domowych: termostatów, systemów oświetlenia czy ekspresów do kawy.

Zastosowania oprogramowania kontrolowanego głosem, które potrafi zamieniać mowę na tekst, są ogromne. Może ono pomóc w nauce języków obcych, przydać się do automatycznego tworzenia napisów w filmach, umożliwić robienie notatek inżynierom na budowach i ułatwić życie niepełnosprawnym – zwłaszcza tym z dużymi wadami wzroku lub z różnych przyczyn niemogącymi pisać ręcznie. W sądach i urzędach przyda się do spisywania protokołów. Wojskowi testują technologię w myśliwcach i śmigłowcach, a kierowcy za pomocą prostych komend mogą już obsługiwać gadżety, np. wybierając stację radiową, której chcą posłuchać.

Jednak jednym z najbardziej chłonnych rynków może być służba zdrowia. „Istotną część pracy lekarzy stanowi wypełnianie dużej ilości dokumentów. Gdyby taki system mógł ich odciążyć choć w połowie, byliby zachwyceni” – przekonuje dr inż. Bartosz Ziółko z Akademii Górniczo-Hutniczej w Krakowie,
który na co dzień zajmuje się modelowaniem języka na potrzeby rozpoznawania mowy. Lekarze mogliby, używając tylko głosu, zarządzać elektroniczną dokumentacją medyczną. Rozpoznawanie mowy można byłoby zastosować także w celach diagnostycznych, w przypadku chorób, które mają wpływ na sposób mówienia.

Podsłuchują cały czas

Taka wygoda ma jednak swoją cenę – jest nią prywatność. Stawiając w domu wyposażonego w mikrofon asystenta, w zasadzie zgadzamy się na to, by cały czas nas słuchał – urządzenie jest przecież aktywowane głosem. „Najprostszy smartfon może zbierać i przetwarzać dane o naszej lokalizacji, metadane komunikacyjne i wszystkie te informacje, które sami w nim zapisujemy lub przy jego pomocy synchronizujemy. Nadal mamy nad tym jednak pewną kontrolę. Kontrola nad inteligentnym asystentem
jest w zasadzie niemożliwa” – mówi Katarzyna Szymielewicz, prezeska Fundacji Panoptykon.

Jej zdaniem zgromadzone przez takie urządzenie dane będą wykorzystywane przede wszystkim po to, by jeszcze skuteczniej sprzedawać użytkownikowi różne produkty i usługi. I ten trend jest już widoczny. Echo umożliwia zamówienie za pomocą komend głosowych taksówki i pizzy, ale nie daje na tym polu niemal
żadnego wyboru. Google Home wydaje się bardziej „demokratyczny”, ale zapewne i tu wkrótce będzie można zapłacić za to, by asystent rekomendował nam konkretne rozwiązania – tak jak dziś robią to reklamy internetowe AdWords.

Specjaliści od marketingu przekonują, że dzięki dzieleniu się danymi z firmami potrzebne informacje, produkty i usługi dostaniemy znacznie szybciej, a na zewnątrz będą trafiały tylko te informacje, na których ujawnienie sami się zgodzimy. A co z naprawdę prywatnymi szczegółami z naszego życia? „Ciągle nasłuchujący nas asystenci zawsze będą pewnym zagrożeniem. Ich twórcy powinni wypracować jasną i restrykcyjną politykę prywatności” – mówi Janakiram MSV,
indyjski analityk rynku nowych technologii.

Z naszego punktu widzenia jest na to jeszcze czas, ponieważ na razie inteligentni asystenci nie rozumieją polszczyzny. „Nasz język znacząco różni się od angielskiego. Zawiera specyficzne dźwięki o wysokich częstotliwościach, takie jak sz, ś, itp. Z drugiej strony ma bardziej przewidywalną wymowę, przy bardziej dowolnym szyku zdania” – wylicza dr Ziółko.

Po polsku – najpierw gry?

Jednak to nie jedyny powód, dla którego będziemy musieli poczekać na polskojęzyczną Siri czy Cortanę. „Globalne firmy technologiczne tworzą technologie uniwersalne. Ponieważ języków jest wiele, dla takiej firmy nie ma ekonomicznego sensu tworzenie osobnej technologii dla każdego z nich” – mówi Łukasz
Osowski, współzałożyciel Ivona Software. Ta polska firma została cztery lata temu przejęta przez Amazon.com – jej technologie zostały wykorzystane przy tworzeniu asystentki Alexa. Największy rynek dla takich rozwiązań jest w krajach anglojęzycznych, więc nic dziwnego, że asystenci posługują się głównie angielskim.

Na rynku jest jednak miejsce także na systemy wyspecjalizowane w polskiej mowie. Nad takimi rozwiązaniami w ramach programu Sarmata pracuje spółka Techmo, zatrudniająca in-
żynierów z AGH, której prezesem jest dr Ziółko. Systemem interesują się głównie firmy potrzebujące bezobsługowych infolinii, służących np. do zgłaszania awarii. Chętnie wykorzystaliby je także producenci wirtualnej rozrywki. W Polsce prowadzi się już prace nad zastosowaniem rozpoznawania mowy w grach wideo. Możliwe więc, że po polsku porozmawiamy najpierw nie z asystentami, lecz z postaciami w kolejnej części „This War of Mine”…