Аудиосообщения лезут из всех щелей? Новомодное «средство» общения бесит не только вас. Прослушать минутный спич друга о том, как он провел ночь в ночном клубе — это ОК. Слушать технической задание по проекту на 10 минут — это не ОК. В телеграме уже давно есть инструмент для того, что бы не тратить своё время и, что важней, нервы. Слава ботам!
Для расшифровки аудиосообщений можно пользоваться ботом Voicy https://t.me/voicybot. Это бот, который переводит все голосовые сообщения и аудио файлы (.ogg, .flac, .wav, .mp3), которые получает, в текст. Используется только внутри телеги, но бот умеет переходить по внешним ссылкам (скачивать файлы и затем преобразовывать)
Начинаем работу командой /start
Перевод голосовых сообщений в текстовые сообщения в Telegram
Как запустить?
Чтобы бот начал конвертацию звука в текст — его необходимо добавить в приватный или групповой чат. «Старт» бота производится командой /files
Команда /eingine переключает движок распознавания речи — всего их встроено два wit.ai и Google Speech. Поэтому, если транскрипция какого-то движка будет сбоить — попробуйте другой (по опыту использования Google Speech с русской речью справляется лучше)
Если бот не может расшифровать сообщение:
Если бот может расшифровать:
Точность конкретно русского языка достаточно точная, но иногда бот неверно расшифровывает окончания слов.
Как вам статья?
Источник: storedigital.ru
5 причин, почему технология Google для перевода голоса в текст в Telegram — это безопасно
22 июня в русскоязычном информационном пространстве распространилась информация о том, что Telegram использует технологию распознавания речи Google для перевода голосовых сообщений в текст. Эта фишка доступна в подписке Telegram Premium.
На это обратил внимание пользователь Хабра, который возмутился, что Telegram, «явно обозначавший свой стек и стремление к «независимости», не разработал своё in-house решение (или не лицензировал on-premise решение) и просто отправляет данные клиентов в API Google».
Издание SVTV NEWS и вовсе утверждает, что «теперь, когда личные данные пользователей отправляют на обработку третьим лицам, Telegram никак не может гарантировать приватность голосовых сообщений».
А Telegram-канал «Двач» пишет: «многоходовочка, играющая на паранойе войсодетей. ЧЗХ!? Войсов наконец-то станет меньше!?» Негативный контекст, вызванный возмущением использования технологии Google, приобретает массовый характер.
«Код Дурова» объясняет, почему использование технологии распознавания речи от третьей стороны в Telegram – это безопасно.
Автоматически никакие данные никуда не передаются
Telegram не скрывает факт использования технологии от третьей стороны. Это прописано в пункте 7.4 условий обслуживания мессенджера и пункте 8.5 Политики конфиденциальности Telegram. Важно то, что абсолютно любой человек, продолжая использовать Telegram, соглашается с «Условиями обслуживания».
Некоторые пользователи могут преобразовать голосовое сообщение в текст, нажав на значок перевода голоса в текст («->A»), отображаемый в голосовых сообщениях .
Функция перевода голосовых сообщений для пользователей Telegram Premium задействуется только с теми сообщениями, в которых обладатель подписки целенаправленно нажал на кнопку преобразования голоса в текст («->A») и тем самым передал Google соответствующую речь.
Автоматически распознавание голосового сообщения и, соответственно, его обработка технологией от Google не задействуется. Это видно на практике:
- Только после нажатия на кнопку начинается процесс перевода . Он длится несколько секунд и если голосовое сообщение длинное, на преобразование может потребоваться время.
- Если бы Telegram автоматически отсылал речь Google, все голосовые сообщения при их появлении сразу же были бы переведены в текст и после нажатия на кнопку он мог появляться моментально. Но так это не работает .
Процесс конвертации голосового сообщения в текст запускается лишь в случае, когда пользователь, у которого и так есть доступ к голосовому сообщению, нажатием на кнопку «Перевести в голос» передаёт Google соответствующую речь.
- Это говорит о том, что у пользователя есть своё право и желание обрабатывать полученную информацию так, как ему захочется. И Telegram фактически упрощает то, что пользователи делали и ранее.
- Никто не беспокоился из-за того, что отправлял для перевода в текст голосовые cообщения, например, сторонним ботам , которые, к слову, для реализации функции используют те же технологии, что и мессенджер.
Google не получает персональные данные
Если верить официальной информации, очевидным становится, что Telegram задействует возможности, которые предоставляются GCP Cloud Speech API. Реализацию преобразования голоса в текст можно осуществлять через соответствующий сервис в Cloud Speech-to-Text.
Согласно «Условиям регистрации данных», прописанным в Google Cloud, компания предупреждает о правилах Политики конфиденциальности Google и указывает на то, что Google не регистрирует все данные, а использует только те, которые передаются в Speech-to-Text с включенным протоколированием :
Только ограниченный круг уполномоченных сотрудников и подрядчиков Google имеет доступ к вашим данным, собранным с помощью регистрации данных. Google использует эти данные исключительно для обучения и улучшения продуктов и служб Google.
Более того, Google позволяет сохранять контроль над своей инфраструктурой и защищёнными речевыми данными (в случае с Telegram — голосовыми сообщениями), используя технологию распознавания речи компании в собственных частных центрах обработки данных.
Как сообщил «Коду Дурова» источник, близкий к команде Telegram, до Google доходит только голос. Какие-либо уязвимые персональные данные пользователя, в том числе IP-адрес или номер телефона Google не получает , а это значит, что таргетирование рекламы на пользователя не является возможным.
Пользователь «Хабра» верно отметил факт того, что у Google «очень прочная политика конфиденциальности»:
То есть твои голосовые не прослушает ни один федерал, а уж тем более в России.
В качестве объяснения параллель можно провести с сервисами Google Play Services, которые по умолчанию установлены на невероятное количество Android-смартфонов. Дело в том, что Google изначально имеет доступ к устройствам подавляющего большинства пользователей, в том числе к геолокации или пуш-уведомлениям .
Даже если у человека iPhone, пуши от его сообщений, адресованные владельцу Android-смартфона, обрабатываются Google Play Services.
Google не может слить ту информацию, которую получил
Возвращаясь к технологии распознавания речи, сам Google, которого в народе прозвали «корпорацией зла», утверждает, что в рамках своей технологии использует данные лишь для расшифровки и последующего предоставления пользователю текста :
Google не использует ваши данные или какую-либо персонально идентифицируемую информацию, содержащуюся в собранных вами данных, для целевого назначения продуктов, услуг или рекламы вам, вашим пользователям или вашим клиентам.
Политике конфиденциальности Google можно не доверять, но компании , которая и так часто сталкивается с различными обвинениями и судебными процессами, сегодня нет никакого смысла нарушать свою же политику и подставляться под скандалы, потерю репутации и штрафы от мировых регулирующих органов на десятки миллиардов долларов.
Злоупотребление полученными данными в теории позволило бы компании использовать их для генерации дополнительной прибыли, однако здесь есть важные моменты:
- Google , как один из мировых лидеров в сфере распознавания и перевода речи, и так достаточно зарабатывает на своей технологии .
- С данными , которые компания получает для преобразования речи в текст, фактически ничего сделать нельзя . Они обезличены и для условных таргетинговых компаний их невозможно использовать.
Это не работает в секретных чатах
Для всех самых ярых защитников конфиденциальности у Telegram есть особая функция — секретные чаты. Напомним, этот метод использует шифрование по криптографическому протоколу MTProto с передачей сообщений от устройства до устройства. Он не оставляет следов общения на серверах Telegram.
Исключается попадание хоть какой-либо информации и в случае с функцией конвертации голосовых сообщений в текст. Дело в том, что эта фишка не работает в секретных чатах. Это важный момент, который вновь напоминает о том, что Telegram придерживается своих принципов и идеологии секретных чатов.
Сейчас трудно создать свой аналог этой технологии
Действительно, многие считают, что Telegram мог бы сделать собственное in-house решение — продукт, который позволяет хранить данные на своих серверах, полностью их контролировать и предотвращать вероятность утечки какой-либо информации. Для этого нужны деньги .
Telegram только недавно запустил рекламную платформу и подписку Premium. По словам Павла Дурова, от 2,5 до 3% премиум-подписчиков от общего числа пользователей смогут полностью покрыть расходы мессенджера. Но нужное количество подписчиков для начала необходимо собрать.
На использование on-premise решения в виде технологии Cloud Speech-to-Text команда Telegram тратит до одного доллара с обладателя подписки Telegram Premium. Об этом «Коду Дурова» сообщил близкий к мессенджеру источник.
Собеседник уточнил, что Telegram в этой ситуации пошёл на значительные дополнительные издержки ради максимизации качества транскрипции.
Сейчас достаточных для реализации in-house решений средств, очевидно, нет — нужно понимать, что собранные на коленке решения приведут лишь к худшему качеству их работы на практике . А вот с on-premise решением мессенджер уже предоставляет лучшие условия в Telegram Premium на старте запуска продукта.
Позже можно будет привлекать специалистов, которые реализуют технологию распознавания речи не хуже, чем у Cloud Speech-to-Text от Google или Yandex SpeechKit от Яндекса. Telegram мог бы самостоятельно реализовать функцию как тот же ВКонтакте, однако мессенджер нуждается не только в русском языке — их десятки .
Следовательно, создание собственного in-house решения является в десятки раз более масштабной задачей . На уровне Cloud Speech-to-Text, который уже в 2018 году поддерживал 120 языков, её невозможно решить даже за пару-тройку лет .
Источник: kod.ru
Вступление
У каждого из нас есть друг, которому лень набирать сообщения и он просто заваливает вас голосовыми сообщениями, а если нет – то, скорее всего, вы и есть этот друг.
Это нормально, все мы не без недостатков, и, честно говоря, этот недостаток не самый худший. Большинство людей мирятся с этим и терпеливо слушают ваши аудиозаписи ужасного качества, на улице, через Bluetooth-наушники, с движением на заднем плане. Но что если этот человек находится в месте, где он не может просто слушать ваше аудиосообщение (например, в церкви)? Ну…