Как понять что голосовое сообщение прослушали в Телеграмме

В соцсетях и мессенджерах набирает популярность новая страшилка. Телеграм-каналы делятся рассказом, как мошенники воруют голосовые сообщения, а потом с их помощью выманивают деньги у близких и знакомых жертв. Лайф разбирается, насколько правдива эта история.

Что случилось?

Намедни по новостным телеграм-каналам разошлась история, что хакеры освоили новый способ мошенничества. Дескать, злоумышленники выбирают жертву в соцсетях или мессенджере, собирают её голосовые сообщения, а потом в аудиоредакторе из «сырья» компилируют предложения вроде «нет времени объяснять — переведи мне 5000 рублей». Кроме того, в этом вбросе говорится, что поддельные голосовые сообщения используются для ложных сообщений о минировании зданий. За пару дней обсуждаемая публикация набрала более десяти тысяч просмотров. При этом у канала, в котором появилось сообщение, на тот момент было менее одной тысячи подписчиков. Можно заключить, что эта новость встревожила людей и они начали ею делиться друг с другом.

Лайф поинтересовался у автора текста, кто выступил источником и есть ли доказательства. Последовал типичный для телеграм-тусовки ответ: инсайд пришёл от некого анонима из правоохранительных органов.

Даже если это утка с целью привлечь внимание, тема не перестаёт быть животрепещущей и актуальной. Многие пользуются голосовыми сообщениями, у многих есть пожилые мамы и бабушки в «Вотсапе» или «Вайбере», которые не сильно разбираются в нюансах современных технологий. Страшно представить, как они разволнуются и что сделают, если получат голосовое сообщение от сына или внучки, якобы попавших в беду и просящих деньги.

В общем, мы побеседовали о потенциальной новой угрозе со специалистами по информационной безопасности и звукорежиссёром, чтобы разобраться, можно ли на самом деле с помощью фейковых войсов украсть деньги.

Хакер ни за что не украдёт мой голос — у меня сложный пароль

Антон Розенберг, разработчик ООО «Телеграф», компании, связанной с «Телеграмом», рассказал нам, что не слышал о таком виде мошенничества. Однако допускает его существование. При этом он отметил, что не обязательно взламывать какого-то конкретного человека. Подойдёт аккаунт любого более или менее активного юзера.

— Взломав кого-то одного, из входящих сообщений можно получить аудиосообщения всех его собеседников, что существенно упрощает задачу злоумышленникам. То есть достаточно взломать не вас, а кого-то из тех, кому вы такие сообщения отправляли, — рассуждает Антон Розенберг. Проще говоря, даже если конкретный юзер пользуется всеми доступными инструментами защиты, его могут подставить друзья, приятели или родственники, с которыми он обменивается войсами.

Кроме того, большинство современных мессенджеров поддерживает групповые чаты. Аналогичные каналы коммуникации работают и во «ВКонтакте». Многие из них насчитывают сотни участников, а некоторые — тысячи. В них люди общаются в том числе и через голосовые сообщения. В чатах можно собрать «сырьё» для компрометации любого, кто ленится печатать. Кроме того, там же злоумышленнику ничего не стоит мотивировать поклонника войсов записать нужную для монтажа фразу или слово.

Еще по теме:  Как в Телеграмме выключить оконный режим

Не стоит забывать про уязвимость и утечку соцсетей и мессенджеров. Так, например, в апреле этого года во «ВКонтакте» нашли ошибку, которая открывала доступ к голосовым сообщениям всех пользователей неофициальных клиентов. Для наглядности: у одного из самых популярных приложений из этой категории — Kate Mobile — более десяти миллионов загрузок только на Android.

Ну украли мои войсы, а дальше что?

Из собранных образцов голоса в аудиоредакторе мошенники создают конкретные предложения. Так ли это просто? Звукорежиссёр и певец Роман Бакши, специализирующийся на обработке голосов, говорит, что собрать предложение из случайных фраз можно. Вопрос в том, насколько убедительно будет звучать подделка.

— Нужно, чтобы человек говорил это максимально естественно. Маловероятно, что нужные мошеннику фразы из разных сообщений совпадут по интонации или темпу произнесения, — говорит Роман Бакши. По его словам, чтобы сделать убедительную подделку, злоумышленнику потребуется очень много голосовых сообщений жертвы. Их общий хронометраж должен достигать нескольких часов. — В своё время мне пришлось прослушать около пяти часов разговоров, чтобы синтезировать одно слово, — объясняет Бакши. Фейки же, собранные на скорую руку, по мнению звукорежиссёра, будут звучать не многим убедительнее, чем фейки, созданные синтезатором речи.

Что думают специалисты по кибербезопасности?

В компании Positive Technologies говорят, что в социальной инженерии использование голосов — не редкость. — Злоумышленники часто используют технику «холодного обзвона», при которой одно и то же сообщение, например «У меня беда. Срочно переведи мне на этот телефон 5 000 рублей — потом всё объясню», рассылается наугад огромному числу абонентов — до нескольких миллионов раз единовременно. Обычно они отправляются ночью. Причём сообщения записываются на фоне помех: оживлённая трасса, громкая музыка и не только, — рассказывает директор компании Positive Technologies по методологии и стандартизации Дмитрий Кузнецов.

Кузнецов говорит, что мошенники ставят на то, что среди большой выборки найдётся определённый процент людей, переживающих за кого-то из близких, которые в этот момент находятся вдали от них. — При получении тревожного сообщения абонент перестаёт рассуждать здраво, поддаётся панике и думает, что узнал голос объекта своей тревоги, — пояснил специалист.

Однако надо понимать, что этот метод базируется не столько на подделывании голосов, сколько на масштабности. А что касается создания фальшивых войсов, то здесь кибербезопасники в большинстве своём сходятся во мнении, что это слишком трудоёмкий процесс. Мол, техническая возможность сделать фейковое голосовое сообщение на основе собранных образцов есть, но это заведомо невыгодный сценарий, ведь подделка голоса требует специфических навыков, которые мошенник может использовать с гораздо большим выхлопом.

Еще по теме:  Как в телефоне с двуля симками пользоваться Телеграмм

То есть можно выдохнуть?

Скорее да, чем нет. Однако покой этот, наверняка, продлится недолго. Впереди нашествие нейросетей, которые уже сегодня делают подделки невероятного качества. Многие наверняка слышали про Deepfake — методика позволяет совмещать, например, лица голливудских звёзд с телам актрис порнороликов. Или про искусственный интеллект Samsung, который создаёт видео с убедительной мимикой, изучив одну только фотографию человека.

Есть наработки и в создании нейросетей для подделывания голосов. Более того, если верить компании по информационной безопасности Symantec, некоторые из них уже используются злоумышленниками. По словам Symantec, в их практике было минимум три случая, когда людей обманули посредством применения синтезированного голоса. Ирония в том, что во всех сценариях на удочку попались топ-менеджеры крупных компаний. Каждого обманом заставили перевести огромные суммы на счета мошенников. Речь идёт о миллионах долларов.

По словам специалиста Symantec Александра Адама, в некоторых случаях хакерам хватало всего 20 минут образцов, чтобы создать профиль, который мог синтезировать нужные предложения голосом жертвы.

Разумеется, преступникам это влетело в копеечку. Адам утверждает, что тренировка нейросети в каждом случае стоила тысячи фунтов стерлингов. Однако, как видим, дорогостоящая затея себя окупила.

Источник: life.ru

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Команда SberDevices запустила бесплатный бот в Telegram, который конвертирует русскоязычные голосовые сообщения и аудиофайлы в текстовый формат. Бот работает на основе технологии распознавания речи SmartSpeech и станет удобным инструментом для журналистов, копирайтеров, переводчиков и представителей других профессий, которые работают с текстами. Он позволит сэкономить часы работы, сократить рутину и значительно повысит эффективность при производстве контента. Также бот незаменим в ситуациях, когда у пользователя нет возможности прослушать голосовое сообщение: на встрече или в общественном транспорте. Бот можно использовать как в личной переписке, так и добавлять в групповые чаты. Он обеспечивает расшифровку голосовых сообщений и загруженных одноканальных аудиофайлов до 20 Мб в кодировках MP3, WAV (8-96 кГц), FLAC и OggOpus.

Что под капотом

При создании Telegram-бота мы использовали особую модель распознавания речи. Она очень похожа на ту, которая используется в работе виртуальных ассистентов Салют — как по архитектуре, так и по количеству параметров. Однако у этой модели есть существенное отличие — оно в обучающих данных.

Еще по теме:  Telegram не могу зарегистрироваться

Главной задачей наших моделей, используемых виртуальными ассистентами, является распознавание запроса: команды или вопроса (“Салют, включи спокойную музыку”, “Джой, сколько сейчас градусов”). Обычно это очень короткие фразы. Кроме того, важная особенность таких моделей — игнорирование фоновой речи и речи, не обращённой непосредственно к виртуальному ассистенту.

Когда мы попробовали использовать существующие модели для распознавания аудиосообщений, очевидно, не получили необходимого качества: аудиосообщения зачастую длинные, а распознавать нужно весь запрос, не пропуская ни одного слова.

Отлично. Проблема найдена, переходим к решению.

Сначала мы собрали из различных открытых источников длинные монологи, от нескольких десятков секунд до нескольких часов, порезали на короткие куски длиной не более 25 секунд и с помощью краудсорсинга получили для них транскрипции. А также перестали игнорировать фоновую речь.

Основная проблема такого подхода — трата большого количества времени на получение транскрипций. Процесс это долгий, и достаточное количество данных быстро таким образом не собрать. Пришлось прибегнуть к трюку.

На самом деле, модель, обученная не пропускать фоновую речь, у нас уже была – это модель, которая используется для распознавания телефонных разговоров. Однако для её обучения использовался принципиально другой звук: частота дискретизации 8кГц, а для голосовых сообщений мы взяли за основу 16кГц.

Напрямую, без потери информации, использовать её было нельзя, но с её помощью нам удалось расширить обучающую выборку. Мы взяли короткие куски монологов, для которых у нас ещё не было транскрипций, понизили их частоту до 8 кГц и сделали псевдоразметку: распознали записи с помощью модели для телефонии. Дальше просто привязали полученные транскрипции к исходному звуку с качеством 16 кГц.

Кроме того, для формирования обучающей выборки мы использовали полученные ранее аудиозаписи с транскрипциями, на которых обучалась модель телефонии, повысив частоту дискретизации.

Таким образом, нам удалось значительно увеличить обучающую выборку, перестать игнорировать фоновую речь, и, как следствие, улучшить качество распознавания аудиосообщений в нашем Telegram-боте.

Пунктуация

Бот способен расставлять знаки пунктуации и делить текст на предложения. Это довольно простая seq2seq-модель 4-классовой классификации (пустота, точка, запятая, знак вопроса), обученная на открытых данных общения из интернета. В отличие от большинства моделей, наша не анализирует текст полностью, а учитывает паузы между словами для разбиения текста на значимые части, которые анализируются независимо. Это позволяет распознавать быстрее. А ещё мы не ставим точку в конце единичного предложения — так же, как и вы при общении в мессенджере.

Источник: habr.com

Рейтинг
( Пока оценок нет )
Загрузка ...