"Очевидец": можно ли обмануть людей при помощи сгенерированной ИИ эстонской речи?

Несмотря на все предупреждения, жители Эстонии все равно становятся жертвами телефонных мошенников. Эстоноязычное население до сих пор главным образом защищал экзотический для мошенников язык, но специалисты предупреждают, что с развитием технологий ситуация может ухудшиться. Редакция "Очевидца" проверила, можно ли обмануть людей с помощью сгенерированной искусственным интеллектом эстонской речи?
Год назад, когда людям начали массово поступать мошеннические звонки на эстонском языке, во время которых у них пытались выманить PIN-коды, возник вопрос: присоединились ли к международной сети мошенников эстонцы или иностранные мошенники могут использовать для генерации эстонской речи искусственный интеллект?
"Для синтеза речи не нужно знать грамматику. Достаточно преобразовать текст в речь. Я считаю, что через пару лет человек уже не сможет только по голосу отличить, является ли он синтезированным или естественным", – сказал заведующий лабораторией языковых технологий Института теории программного обеспечения ТТУ Танель Алумяэ.
Год назад у Алумяэ возникла идея выяснить, мог ли синтез эстонской речи, которая в таком виде до сих пор звучала скорее с сильным финским акцентом и явно искусственно, стать настолько хорошим, что синтезированную речь уже не отличить на слух от естественной?
Ученые понимают, что преступники только и ждут, как можно будет убедительно генерировать с помощью искусственного интеллекта голос человека, однако с точки зрения науки у этого есть и много положительных применений. Например, искусственный голос может использоваться как вспомогательное средство в медицине.
"Это очень важно для людей, потерявших голос. Это позволило бы им общаться с помощью клонирования голоса – чтобы они писали текст и он преобразовывался бы в их голос", – пояснила студентка кафедры информационных технологий ТТУ Аннабель Кукк.
Осенью профессор Алумяэ поручил Кукк исследование этой темы. Используя несколько программ преобразования голоса и проведя множество экспериментов, Кукк этой весной закончила написание своей бакалаврской работы.
"Я изучила преобразование голоса на основе эстонской речи. Это конкретный метод создания искусственного голоса, и в контексте эстонского языка он практически не изучался", – рассказала Кукк в выходящей на ETV передаче "Очевидец".
Для исследования нужно было создать множество образцов искусственного голоса на эстонском языке, чтобы затем протестировать их. Кукк задавала нескольким компьютерным программам короткие аудиоклипы с человеческим голосом, после чего вводила текст, который машина должна была произнести голосом соответствующего человека.
Участники эксперимента должны были оценить каждый образец и сказать, звучит ли он для них скорее как человеческий или как искусственный голос. Помимо голосов обычных людей Кукк привлекла к эксперименту известных людей, поскольку их голоса воспринимаются на слух иначе. Так свои образцами голоса для науки поделились три журналиста ERR – Ану Вяльба, Таави Эйлат и Мерилин Пярли.
На волне научной работы Кукк и в сотрудничестве с ней небольшой эксперимент провела и редакция "Очевидца". Кукк синтезировала голоса Вяльба, Эйлата и Пярли, после чего их коллег по телевидению попросили оценить, принадлежал ли голос реальному человеку или роботу?
Сгенерированный при помощи ИИ голос Вяльба журналисты распознать сумели. При этом сама Вяльба признала, что голос звучит очень правдоподобно, хотя, когда соглашась принять участие в эксперименте, и подумать не могла, что это реально.
По странным паузам в речи журналисты также определили, что голос Эйлата сгенерирован, хотя сам Эйлат считает, что искусственному интеллекту удалось хорошо скопировать именно смысловые паузы.
Синтезированный голос Пярли журналисты распознать не смогли и приняли его за оригинальный.
"Вывод таков, что это можно делать довольно убедительно. Возможно, пока не настолько убедительно, как в случае английского языка, но все же. Я думаю, что в ближайшее время подобные мошенничества станут реальностью", – подытожил итоги экспериментов Алумяэ.
Полиция: договоритесь с близкими о кодовом слове
Хотя упорно распространяются рассказы о сгенерированных искусственным интеллектом голосах близких, которые истерично плачут по телефону и просят деньги, у полиции нет полной уверенности в том, что голоса были сымитированы с помощью искусственного интеллекта. Однако никто не сомневается, что все именно к этому и идет.
"Если человек утверждает, что это был голос его ребенка или близкого человека, нам сложно это опровергнуть. Нельзя с полной уверенностью сказать, используется ли сгенерированный искусственным интеллектом голос и насколько широко, однако мы видим, что технологии развиваются с каждым днем, и, разумеется, мошенники следят за этим развитием и стараются использовать эти возможности", – констатировал глава отдела Пыхьяской префектуры по расследованию тяжких преступлений Элари Хаугас.
К сожалению, инструментов, с помощью которых можно клонировать или синтезировать голос, становится все больше, и, по сути, уже каждый может экспериментировать с генерацией голосов. Поэтому, отправляя голосовые сообщения или разговаривая по телефону с мошенниками, следует учитывать, что образец голоса можно записать, а затем с помощью искусственного интеллекта преобразовать в голос нужный текст.
"Мы рекомендуем людям договориться со своими близкими о кодовом слове. Если человеку позвонит близкий, коллега, начальник и попросит перевести деньги или предоставить какие-то данные, но можно попросить назвать кодовое слово. Если человек не может назвать кодовое слово, следует просто прервать разговор", – пояснил Хаугас.
Однако наука развивается. Если созданные Аннабель Кукк клоны голосов во всех протестированных программах все еще были несколько неуклюжими, а странное произношение выдавало их искусственное происхождение, то всего пару недель назад появилась новая прорывная технология, которой во время экспериментов Кукк еще просто не существовало.
Редактор: Евгения Зыбина





















