Как с ултразвук може да се заблуди функцията за разпознаване на гласа в Siri

iPhone притежава функция за разпознаване на гласа, която позволява устройството да се ползва единствено от собственика му. Тази функция се използва основно при активирането на виртуалния асистент Siri. За да включи Siri, собственикът на телефона трябва да каже „Hey Siri“ ясно и на висок глас. Тогава Siri се активира и собственикът може да започне да управлява устройството с гласови команди.

Ако обаче друг се опита да активира Siri с гласова команда, опитът му ще е неуспешен, защото Siri разпознава гласа на собственика на телефона и приема команди само от него.

Но в следващото видео се вижда как Siri може да се активира и от записана гласова команда, която не е с гласа на собственика на устройството. Нещо повече: тя е в ултразвуковия диапазон (звуци с честота над 20 kHz), което я прави „незабележима“ за човешкото ухо. Клипчето показва как чрез използването на предварително записани ултразвукови команди вашият Siri асистент може да бъде активиран от някой друг и да бъде накаран да набере определен телефонен номер – и всичко това без вие въобще да изберете.

Видеото е публикувано от един от авторите на т.нар. DolphinAttack, която позволява контрол над умни устройства чрез ултразвук. Един от въпросите, които възникват, е как тази атака успява да заобиколи функцията за разпознаване на гласа на iPhone.

Авторите на атаката предлагат две възможни решения, които са публикувани в проучването им. Единият е да се запише гласът на собственика на устройството и от записа да се сглобят думите Hey Siri, а другият е да се създаде гласова команда с тоналност, достатъчно близка до тази на гласа на собственика.

При първия вариант е необходимо да има достъп до собственика на телефона. Такъв запис може да се направи от колега на жертвата или пък да се запише от медия, ако жертвата работи в такава или пък е дала интервю. Ако жертвата е английскоговоряща, Hey Siri може да се сглоби от думите He(хи), cake(кейк), city(сити) и carry(кери).

За втория вариант е необходим text to speech софтуер, който трансформира написан текст в глас. Авторите на проучването предлагат няколко решения: Selvy Speech, Baidu, Sestek, NeoSpeech, Vocalware и др., като според тях всички работят с определен процент на ефективност. Необходимо е само да се генерира глас, който е достатъчно близък като тон и тембър до гласа на собственика на смартфона.

Атаката изглежда трудоемка за изпълнение, но ако работи, това я прави доста ефективна. Тя повдига въпроса за сигурността на умните устройства, които работят с гласови команди. Някои от тях, като домашния асистент Alexa, навлизат във все повече домове. Според New York Times това превръща умните домове в лесна жертва на атака, която може да се изпълни дори през телевизията или радиото.

Макар да звучи твърде антиутопично – все пак не всеки може да манипулира какво излъчват електронните медии, подобна атака не е немислима. Всеки може да качи песен в Youtube или Soundcloud, която съдържа в себе си скрити гласови команди.

Оставете коментар

Коментарите в този блог са публични. Ако не желаете истинското ви име да бъде публикувано, използвайте псевдоним.