Бизнесу выгодно звонить с помощью роботов — в среднем они стоят в несколько раз дешевле операторов. Но далеко не все любят общаться с бездушным алгоритмом: по данным исследовательского холдинга 4Service, 78% респондентов предпочитают слышать в трубке человека вместо робота. Чтобы сэкономить деньги и оставить клиентов довольными, нужно сделать разговор с машиной максимально похожим на человеческий.
В проекте Dig(IT)al рассказываем о технологиях, которые помогут вам заработать. Переходите на цифровую сторону бизнеса.
При создании робота заказчик встаёт перед вопросом: представить его машиной или сделать похожим на человека? Правильный ответ зависит от бизнес-задачи.
Машинами должны представляться роботы, которые оказывают услуги: записывают к врачу, дают справки, собирают показания счетчиков. Зная, что на проводе робот, клиент будет чётко формулировать просьбы и помогать алгоритму понять запрос. Разговор станет эффективнее и принесёт больше пользы.
RB рекомендует лучших поставщиков цифровых решений для вашего бизнеса — по ссылке
КАК СДЕЛАТЬ ГОЛОС роБОТА НА ЛЮБОМ УСТРОЙСТВЕ?
«Человечные» роботы нужны там, где люди ждут живого общения — в холодных продажах, опросах и рекламе. В этих сферах не любят звонки от машин: клиенты хотят, чтобы их мнение и взгляды оценил живой человек. Распознав робота, могут испытать негатив или даже повесить трубку.
Рассказываю, как сделать сценарий для звонка, чтобы вашего робота приняли за оператора колл-центра.
Настройка робота: общие принципы
Голосовые роботы распознают речь собеседника. Они ведут разговор по алгоритму из блоков «набор ключей — ответ». Робот слышит в речи клиента ключевое слово или фразу и ведёт разговор по привязанной к ней ветке сценария.
В ключи не добавляйте каждую мелочь. Чтобы клиент мог заказать чай, не обязательно писать «выпить чаю», «хочу чай», «выбираю чай», «можно чайку» и так далее. Достаточно слов «чай», «чаю», «чая»; даже если собеседник попросит «изысканного индийского чая», алгоритм поймёт его и пойдёт по чайной ветке разговора.
Рассчитывайте скрипт максимум на полторы минуты — общаясь с роботом дольше, клиенты часто уводят разговор за пределы сценария. Задавайте только закрытые вопросы и каждый вариант ответа выносите в отдельную ветвь скрипта.
Создаём скрипт
Шаг 1: перенять опыт человека
Составьте скелет разговора. Это общая схема веток сценария: с чего начинается разговор, к чему может прийти и какими путями. Проще всего сделать набросок скелета, опираясь на скрипт операторов-людей. Представьте скрипт в виде алгоритма, а после вместо конкретных фраз сформулируйте суть каждого этапа.
Затем доработайте набросок. Объедините этапы, после которых диалог не ветвится — например, предложение услуги из трёх блоков. Всё, что можно убрать без потери смысла, сократите. Скрипт станет более коротким и конкретным — как раз то, что нужно для звонка робота.
КАК ОЗВУЧИТЬ ПРОФЕССИОНАЛЬНО ЛЮБОЙ ТЕКСТ, КОТОРЫЙ ТЫ ЗАХОЧЕШЬ!!! #shorts
Что делать, если у операторов нет скриптов. Составьте скелет самостоятельно. Не бойтесь ошибиться — у вас ещё будет время доработать сценарий. Прослушав записи нескольких тестовых звонков, вы узнаете, как люди реагируют на скрипт, и дополните его новыми ветками.
Шаг 2: закрыть вопросы
Следующий шаг — сделать вопросы робота короткими и закрытыми. Вопросы должны предоставлять выбор из ограниченного числа вариантов, чтобы вы могли подготовить ключи для каждого ответа. Если вопрос будет открытым, вписать все ключи не выйдет: это всё равно что пытаться угадать все ответы на «как дела?».
Как не надо
- Что вы думаете насчёт мероприятия?
- Какие задачи есть у вашего бизнеса?
- Как вы сейчас продвигаетесь в интернете?
Как надо
- Интересно ли вам посетить данное мероприятие?
- Есть ли у вас на данный момент такие задачи?
- Актуально ли для вашего бизнеса SMM-продвижение?
Впишите закрытые вопросы во все этапы скрипта, кроме завершающих. Блоки, где это сделать невозможно, лучше убрать — например удалить блок «что вас останавливает» и просто создать ветки, где вместо «да» или «нет» клиент выдаёт возражение.
Некоторые возражения можно отработать заранее. Чтобы клиент не спрашивал, откуда вы взяли его номер, расскажите об этом в приветствии: «Добрый день, это …. Вы много раз делали заказы в нашей сети. Мы ценим это и хотим сделать уникальное предложение как старому клиенту. ». Перед «добрый день» не забудьте добавить паузу в пару секунд, чтобы клиент успел сказать «алло».
Затем добавьте ключи для согласия, несогласия и возражений. Конечно, клиенты не будут чеканить «да», «нет», «актуальна», «не актуальна». У них найдётся куча вариантов того, как выразиться — от «в принципе, вполне» до «скорее всего, думаю, что нет». Вот подборка положительных ответов, которой я часто пользуюсь: Да, Давайте, Хорошо, Говорите, Слушаю, Можно, Готов, Ладно, Согласен, Давай, Согласна, Внимательно, Конечно, Естественно, Ого, Скорее, Наверно, Помню, Знаю, Может быть, Хочу, Узнать, Ещё, Вполне. А в качестве отрицательных добавляю Нет, Не интересно, Не надо, До свидания, Не звоните.
Не забудьте вписать ключи-ответы, которые предполагает конкретный вопрос. Если спрашиваете «актуально ли для вас создание сайта?», добавьте Актуально к положительным ключам.
Ключи для возражений выдерните из фраз, которыми говорят клиенты. Если возражение звучит «мы работаем на площадке-агрегаторе, нам не нужен сайт», то ключами будут Работаем, Площадка, Агрегатор.
Шаг 3: добавить случай, когда робот не понял клиента
Люди непредсказуемы, при ответе роботу клиент может пожаловаться на соседку, рассказать анекдот или назначить свидание. Все ответы не предугадать при всём желании. Но и не нужно: для таких случаев есть ключ «любое слово».
«Любое слово» — это фраза, внутри которой робот не нашёл ключей. Такие ответы уводят разговор за пределы скрипта. Чтобы вернуть диалог на рельсы заготовленного сценария, робот должен объяснить, что не понял человека, и задать вопрос ещё раз. Можно использовать фразы «извините, я вас не очень понял (повторение вопроса)», «простите, не расслышал (повторение вопроса)», «ой, извините, связь пропадает, не услышал вас (повторение вопроса)», «алло, алё, простите, глючит связь, плохо слышно (повторение вопроса)».
Неловкие моменты будут разрешаться примерно так:
— . эта задача актуальна для вашего бизнеса?
— Вы знаете, про задачи своего бизнеса я могу сказать, что много чего не выполняется. Продажи вроде есть, но чувствую, получится сделать лучше. Есть куча вещей, которые надо сделать, но знать бы, как распределить ресурсы.
— Извините, я вас не очень понял. Повторите, пожалуйста, так задача аналитики рекламы — она актуальна для вас?
— Эх… Да, в целом актуальна. Говорю же, много чего надо сделать.
Добавьте ключ «любое слово» ко всем основным этапам сценария, чтобы подготовить робота к нестандартным ответам. Ответы машины на каждом шаге должны чуть-чуть отличаться — если на первом стоит «простите, связь глючит», то на следующем пусть будет «алло, алё, извините, плохо слышно». Так клиент не поймёт, что говорит с роботом: даже дважды попав в «любое слово», он услышит разные ответы.
Шаг 4: предусмотреть неожиданности
Не все неожиданные повороты разговора можно закрыть с помощью «любого слова». Например, клиент может быть за рулём — в этот момент роботу лучше с пониманием повесить трубку, чем отвлекать человека от вождения. Внесите в скрипт часто встречающиеся неожиданности:
- Клиенту неудобно говорить,
- Клиент пошутил,
- Проблемы со связью, и клиент не услышал робота,
- Клиент заподозрил, что говорит с роботом.
Клиенту может быть неудобно говорить в начале разговора, а может стать во время. Чтобы робот не растерялся, добавьте ветвь скрипта с этим набором ключей: Перезвоню, Неудобно, Позже, Потом, Перезвоните, Не могу, Говорить, Разговаривать, Занят, Позднее. В ответ робот должен пообещать перезвонить позже, не указывая точное время — так вы не обманете клиента, даже если сотрудник прослушает запись разговора и перезвонит только через неделю.
Иногда робот сталкивается с шутками и заигрываниями. Для этих случаев в скрипте уже есть «любое слово» — фраза «извините, я вас не очень понял», сказанная серьёзным голосом, заставляет общаться конструктивно. Но клиент мог просто пошутить и не иметь в виду ничего обидного.
Чтобы он не чувствовал себя неловко, добавьте после «любого слова» ветку разговора с ключами Шутка, Пошутил, Пошутила, Шучу, Шуткую. Робот должен разрядить обстановку и снова подтолкнуть диалог в нужное русло: «Хах, простите, не сразу понял, что вы пошутили (небольшая пауза). Так что насчёт…».
Если у клиента проблемы со связью, во время звонка он услышит только кваканье в трубке. Подготовьте робота на этот случай — добавьте ключи Алло, Не слышу, Не услышал, Не слышно, Повторите, Что вы сказали, Что-то со связью, Связь, Глючит, Барахлит. Услышав их, робот должен повторить предложение ещё раз, только громче и медленнее. Если клиент не услышал два раза подряд, лучше пообещать перезвонить потом и положить трубку.
Как бы ни был хорош скрипт, клиент может заподозрить, что говорит с машиной. Некоторые так недоверчиво относятся к звонкам, что сразу спрашивают: «Извините, а вы не робот?». На этот случай добавьте ключи Робот, Живая, Живой, Человек. Роботу лучше не обманывать клиента и признаться, что он машина, но сделать это с юмором.
Например, сказать «да, но мне не нужны мотоцикл и одежда — я создан только для приятного общения» или «да, я робот-помощник такой-то компании. Обсудите предложение с железным человеком?». Улыбка вызывает доверие и располагает продолжить разговор. А если клиент всё же захочет говорить с менеджером, робот узнает это по ключам Живой, Оператор, Живого, Человек, Менеджер, Сотрудник. В этом случае добавьте перевод звонка на оператора либо обещание, что человек перезвонит позже.
Ключи для ситуаций, когда клиенту неудобно говорить, клиент пошутил, есть проблемы со связью или клиент распознал робота, добавьте к каждому этапу разговора.
Шаг 5: добавить действия окончания разговора
В скрипте пустуют только блоки с окончанием разговора. Заполните их нужным действием. Если клиент заинтересовался, используйте один из вариантов:
- Перевод звонка на менеджера. Для перевода подходят фразы вроде «отлично, сейчас я соединю вас с коллегой, и он поможет вам … (целевое действие)» или «понял, сейчас соединю с коллегой, он расскажет о предложении подробнее». Перевод звонка нужен, когда клиент готов купить прямо сейчас либо у него быстро может пропасть интерес, и важно сразу предложить сделку.
- Обещание перезвонить позже. Робот может сказать, что принял заявку, и скоро клиенту перезвонит его коллега. Подходит, когда не требуется делать продажу сразу и можно обработать лид позже.
- Отправка смс после звонка. Можно отправить клиенту смс со ссылкой на сайт, где он оформит заявку сам. Такую ссылку лучше сопроводить промокодом — скидка повышает вероятность того, что клиент обратится именно к вам.
Если клиент отказался от предложения, стоит вежливо с ним попрощаться: «Хорошо, понял вас. До свидания, хорошего вам дня!».
Шаг 6: записать «живые» ролики
Вы составили скрипт разговора. Настало время сделать аудиоролики, которыми будет говорить робот. Их должен записать диктор с подходящим голосом: например, для рекламы охотничьих ружий подойдёт уверенный мужской, а для записи к врачу — приятный женский.
Чтобы ролики звучали живо, в них должны присутствовать эканья, покашливания, смешки и другие засоряющие разговор мелочи. В жизни наша речь звучит неидеально, того же эффекта должен достигнуть робот. Если диктор ещё и мило картавит, это замечательно — встретить робота с дефектом речи клиент точно не ожидает.
Пример разговора робота с клиентом
Шаг 7: доработать после запуска
Сделайте пробные 100-200 звонков и прослушайте записи разговоров. Вы наверняка услышите ответы, которые часто дают клиенты, но которые не учтены в скрипте. Добавьте нужные ветки и ключи и сделайте тест ещё раз. Если повторные звонки в целом пройдут гладко, робота можно отправить звонить по всей клиентской базе.
Однажды мы запустили холодные звонки с предложением бесплатной юридической консультации. На вопрос робота «есть ли у вас актуальные юридические вопросы на данный момент?» одна женщина сказала: «Ой, у нас с мужем суд будет». Ключей о суде не было в скрипте, и робот дважды провёл собеседницу по ветке «любое слово». Она не говорила ни «да», ни «нет» и всё повторяла фразу про мужа.
В итоге робот положил трубку. Когда мы прослушали запись разговора, то добавили «суд» в ключи с положительными ответами, а менеджер компании отправился звонить женщине — ей правда нужна была юридическая помощь.
Алгоритм кратко
Обычно составить скрипт для голосового робота помогают сотрудники сервиса, который этого робота предоставляет. Но с этим алгоритмом вы справитесь и сами:
- Составьте скелет разговора — общую схему веток сценария: с чего начинается разговор, к чему может прийти и какими путями.
- Уберите из скрипта лишние блоки, раздробленные блоки объедините. Сформулируйте для каждого блока закрытый вопрос и пропишите ключи для вариантов ответа.
- Добавьте к каждому шагу ветку с ключом «любое слово».
- Добавьте к каждому шагу ветки: клиенту неудобно говорить, клиент пошутил, клиент распознал робота.
- Добавьте действия для окончания разговора.
- Запишите «живые» ролики с эканьями, покашливаниями, смешками.
- Сделайте 100-200 тестовых звонков и доработайте скрипт.
Фото на обложке: Antonio Guillem / Shutterstock
Источник: rb.ru
Лучшие синтезаторы речи для озвучки текста 2023
4.6 Оценок: 31 (Ваша: )
Необходимо синтезировать женский или мужской голос на основе написанных данных? Вы можете воспользоваться специальными инструментами для преобразования текста в речь. Развитие искусственного интеллекта позволило добиться более естественного звучания, которые во многих случаях почти неотличимо от реальных людей.
Приложения содержат опции для превращения текстовых документов и веб-страницы в аудио, озвучки видео, прослушивания книги, обучения новому языку. Также они чрезвычайно полезны для людей с ограниченными возможностями. В этой статье мы собрали лучшие синтезаторы речи в 2023 году.
Синтезированную аудиозапись можно улучшить в специальном программном обеспечение. С помощью редактора АудиоМАСТЕР вы сможете удалить лишние фрагменты и паузы, отрегулировать громкость трека, склеить и смешать материал с музыкой, изменить тембр и тон, применить эффекты и многое другое.
АудиоМАСТЕР отличается простым интерфейсом и подходит начинающим пользователям. Скачайте ПО бесплатно:
Для Windows 11, 10, 8, 7, XP
2уха
Платформа: Веб
Лучший сервис для преобразования текста в аудиофайлы на русском языке. 2уха позволит загрузить документ размером до 100 КБ или ввести сведения в специальное поле. Вы сможете точно настроить параметры озвучки, а затем прослушать медиа онлайн или загрузить его на ПК.
- регулирование скорости, высоты тона и громкости;
- экспорт данных в MP3 или AWB;
- загрузка текстовых документов;
- хранение аудиоконтента в течение 2 суток на сервере.
- только два диктора на выбор;
- материал звучит ненатурально;
- для создания звукозаписи нужно каждый раз вводить капчу.
Балаболка
Платформа: Windows
Софт для чтения контента вслух, который подключается к речевым синтезаторам, установленным на компьютере. Вы сможете воспроизводить запись, ставить ее на паузу и останавливать. В Балаболке можно загрузить мультимедиа с жесткого диска или вставить скопированные сведения. Сохранить итог можно во всех популярных форматах.
- произносит содержимое из буфера обмена;
- управление ПО с помощью горячих клавиш;
- проверка орфографии;
- импорт медиафайлов AZW, DOC, EPUB, FB2, MOBI, PDF и т.д.
- для использования нужен речевой синтезатор;
- чтобы изменить голос, необходимо скачать дополнительные плагины.
Синтезатор речи Google
Платформа: Android
Мобильный озвучиватель для Андроид, который содержит расширенные функции преобразования текста. Синтезатор речи Google интегрируется с другими сервисами Гугл, позволяет управлять телефоном и читает вслух электронные книги.
- интеграция с Гугл Картами, заметками и сообщениями;
- работа с Google Books и Translate;
- голосовая обратная связь;
- автоматически установлено на большинстве смартфонов.
- пропускает абзацы и предложения;
- не умеет произносить даты, цифры и сокращения;
- нельзя настроить скорость речи вручную — можно только выбрать готовые режимы.
Говорилка
Платформа: Windows
Бесплатный генератор для озвучки текста на русском языке. В Говорилке можно записывать данные в аудиофайл, открывать большие документы, произносить материал из буфера обмена и субтитры из запущенного софта. Также вы сможете загружать дополнительные движки и голоса.
- чтение с повышенной скоростью;
- регулировка высоты тона;
- прокрутка данных по мере произнесения;
- простой русскоязычный интерфейс.
- размер читаемого текста ограничен 2 ГБ;
- не читает некоторые известные расширения, например, FB2.
ApiHost
Платформа: Веб
Многофункциональный онлайн-сервис для озвучки данных. На сайте вы сможете не только озвучить содержимое поля, но и выбрать диктора, высоту и тон, скорость, длину пауз. ApiHost работает со множеством языков, от английского до японского. Также на сайте есть несколько движков, содержащие разные настройки выводимого аудио.
- вывод в формате MP3 и WAV;
- большой выбор голосов;
- изменение ударения специальным символом;
- качественная и натуральная речь.
- часть опций и голосовых пресетов доступны только в платной версии;
- максимальное количество символов 1000.
Texttospeech
Платформа: Веб
Портал для синтезирования речи из текстовых данных. С помощью Texttospeech можно выбрать русскоязычного и англоязычного робота, настроить высоту и темп голоса, выбрать формат и сохранить синтезированную запись на ПК.
- разные цветовые схемы оформления сайта;
- большой каталог голосовых пресетов;
- указание паузы и ударения.
- ограничено количество символов — до 200.
- Для расширения возможностей ресурса нужно оплачивать символы. Стоимость начинается от 0.6 рублей за 1000.
- Оплата списывается даже при прослушивании аудио онлайн.
TexttoSpeechRobot
Платформа: Веб
Платформа для формирования MP3-файла и прослушивания вставленного текста или загруженного документа. TexttoSpeechRobot предлагает различные голоса, позволяет настроить скорость произношения и установить эмоции.
- более 20 пресетов;
- возможность загрузить дополнительные варианты озвучки;
- полностью бесплатно.
- частичный перевод интерфейса;
- некоторые роботы звучат нереалистично.
VoxWorker
Платформа: Веб
Онлайн-сервис, озвучивающий английские и русские тексты. На платформе VoxWorker можно выбрать одного из пяти дикторов, а также установить темп и высоту тона. Помимо этого вы сможете добавить паузы, загрузить результат на ПК или зарегистрироваться на платформе и сохранить итог на сервер.
- регулирование высоты голоса;
- увеличение скорости произношения;
- русскоязычное меню.
- обрабатывает не более 1500 символов за раз;
- боты звучат ненатурально;
- вывод результата только в одном медиаформате.
Ivona
Платформа: Веб
Инструмент для синтеза речи, который можно использовать онлайн или подключить к программе TextAloud 4. Ivona предоставляет различные голоса и позволяет прослушать аудиоконтент в браузере. При использовании веб-ресурса вы не сможете скачать медиафайл на ПК.
- поддержка большого количества языков: немецкий, английский, французский и т.д.;
- возможность увеличить поле ввода;
- работает в браузере.
- интерфейс на английском;
- мало пресетов для предложений на русском.
Acapela
Платформа: Веб
Удобное решение для TTS. В Acapela можно ввести текстовые данные, сгенерировать сообщение для аэропорта или создать прогноз погоды. Вы можете прослушать демо аудио в браузере, а затем принять решение о покупке компьютерного продукта.
- пресеты для аэропорта и железнодорожной станции;
- обширная коллекция языков и дикторов;
- живая и реалистичная речь.
- только женские голоса для русского языка;
- нельзя отрегулировать скорость и темп;
- невозможно загрузить синтезированное мультимедиа на ПК.
Microsoft Azure
Платформа: Веб
Облачный сервис, который позволяет сгенерировать реалистичную речь и внедрить ее в приложение или на веб-страницу. Microsoft Azure предлагает расширенные средства управления звуком: скорость, высота, произношение и паузы. Звукозапись можно воспроизвести в браузере.
- реалистичная речь;
- настраиваемые голоса;
- доступно 110 дикторов и более 45 языков.
- в месяц можно преобразовывать до 500 тысяч символов;
- сложно загрузить контент на сайт или в ПО.
Yandex SpeechKit
Платформа: Веб
Решение на основе ИИ для внедрения голосовых помощников на сайты или в ПО. Также Yandex SpeechKit предлагает веб-платформу с демоголосами. Вы сможете синтезировать аудио, установить скорость и настроение материала.
- закачка синтезированных онлайн данных в формате OGG;
- 8 русскоязычных пресетов;
- коррекция произношения;
- отображение кода API-запроса.
- для получения полноценного продукта нужно написать запрос в Yandex.Cloud;
- веб-версия ограничивает количество символов — можно ввести до 500 знаков.
VoiceMaker
Платформа: Веб
Портал для преобразования текстовых сведений и генерации речи. В VoiceMaker можно отрегулировать длительность пауз, установить скорость, высоту тона, громкость и скорректировать параметры экспорта аудиофайла.
- точная настройка звука;
- экспорт итога в MP3, OGG, WAV;
- применение эффектов в платном пакете.
- большинство роботов доступны по премиум-подписке;
- в базовом пакете можно написать не более 250 символов;
- для создания натуральной и естественной речи нужно купить пакет за 5 долларов в месяц.
Озвучка текста Яндекс Алисой
Платформа: Веб, Android
Для озвучки содержания веб-страниц или PDF-файлов можно воспользоваться голосовым помощником Яндекс.Алиса. Вы сможете выделить отрывок в Яндекс.Браузере и использовать специальную опцию для генерации слов. Также озвучка текста Яндекс Алисой возможна для медиафайлов с диска.
- постановка чтения на паузу;
- произношение выделенного фрагмента;
- использование функции на компьютерах и телефонах.
- нельзя скачать аудиоматериал на устройство;
- озвучка возможна только на русском.
Voice Aloud Reader
Платформа: Android, iOS
Приложение, которое читает вслух веб-страницы, новостные статьи, длинные электронные письма, медиа TXT, PDF, DOC, DOCX, RTF, документы OpenOffice, книги и многое другое. Voice Aloud Reader работает на смартфонах, но вы также можете установить ПО на компьютеры с помощью APK.
- оптическое распознавание знаков;
- регулировка темпа, тембра и громкости;
- работа без доступа к сети;
- расширить предустановки можно за счет сторонних TTS, например, Vocalizer.
- часть функций доступна только в премиум-подписке стоимостью 8.99 долларов;
- пользователи отмечают нестабильную работу ПО.
Voicebot
Платформа: Windows
Бот для выполнения голосовых команд и управления службами ПК. Voicebot предназначен для геймеров, которые хотят создать макросы, сложные сценарии и синхронизировать игровые профили между компьютерами.
- создание голосовых команд;
- оформление игровых макросов;
- совместимость с VR-техников;
- регулирование скорости и уровня звука.
- ПО доступно только на бесплатный 30-дневный период;
- стоимость лицензии — от 15 долларов.
OddCast
Платформа: Веб
Платформа для озвучивания текста, введенного в соответствующее поле. OddCast предоставляет различные пресеты на разных языках. Вы сможете настраивать высоту тона, добавить эхо, шепот и реверберацию.
- поддерживает более 30 языков;
- каталог содержит 185 голосов;
- точное регулирование звучания.
- голоса низкого качества;
- ограничение введенных данных 600 символами.
Rapidtables
Платформа: Веб
Портал для озвучивания материала и документов с ПК. В Rapidtables вы сможете прослушивать аудиоданные в браузере и вводить неограниченное количество знаков. Однако ресурс не позволяет загрузить результат на компьютер.
- настройка масштаба поля для ввода;
- импорт медиафайлов;
- полностью бесплатно.
- неественная речь;
- интерфейс не переведен;
- только один обработчик для текста на русском.
NaturalReaders
Платформа: Веб, Windows, MacOS
Гибкое программное обеспечение и веб-платформа для генерации речи. В NaturalReaders вы можете выделить любой фрагмент на странице и нажать горячую клавишу. Затем программа прочитает материал вслух. Платная версия также позволяет создавать и сохранять звуковой файл.
- в компьютерном софте есть инструмент для распознавания символов;
- технология One-Click для чтения;
- обширная коллекция голосов.
- нет возможности пропускать отрывки в документе;
- стоимость платной версии — от 99.50 долларов;
- для использования ресурса нужно пройти регистрацию.
UNITOOLS
Платформа: Веб
Онлайн-платформа, позволяющая озвучить текст голосом. На UNITOOLS представлено более 500 предустановок от различных разработчиков. При работе с текстом вы сможете озвучивать диалоги разными голосами, создавая аудиокниги. Дикторы на сайте делятся на две категории: обычные и премиум с соответствующей стоимостью в 1 и 4 рубля за 1000 знаков.
- большой выбор предустановок;
- озвучка несколькими голосами в одном файле;
- сохранение в MP3 и WAV.
- бесплатно доступно 540 знаков;
- высокая стоимость символов.
Источник: free-video-editors.ru
Будущее уже здесь: как работают голосовые роботы и что они умеют делать
Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.
В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.
Сначала кейс, ну а потом — разбор технологий
Один из наиболее интересных кейсов — замена сотрудников колл-центра компании-партнера голосовым роботом. Возможности последнего применили не для штатных ситуаций вроде уточнения адреса доставки, а для того, чтобы выяснить, почему некоторые покупатели стали реже заходить на сайт компании.
Технология базировалась на использовании полноценной нейросети, а не отдельных скриптов. Именно нейросеть позволила решить проблемы, которые обычно ставят роботов в тупик. В первую очередь, речь идет об ответах собеседника вроде «ну я пока не знаю, возможно да, хотя нет» или даже «да нет». Обычные для человека слова становятся непреодолимым препятствием для робота.
В ходе обучения робот стал понимать, какой смысл закладывается в ту либо иную фразу, и каким должен быть ответ. Голосов у робота было несколько — как мужских, так и женских. Основная задача состояла в «очеловечивании» робота с тем, чтобы собеседник-человек не испытывал возможности машины, а вел диалог по целевому сценарию.
Ниже — пример того, что получилось.
Робот слушает собеседника, давая ответ в зависимости от смысла того, что сказал клиент. Общее количество веток сценария, по которым может пойти разговор — более тысячи.
Главной целью этого робота было понять причину снижения активности клиента компании на сайте и сделать интересное предложение каждому. Это была одна из первых попыток компании автоматизировать работу колл-центров.
Новые роботы более совершенны. Вот еще несколько примеров общения роботов с человеком: первый, второй, третий примеры.
Теперь о технологиях
Есть три ключевых технологических особенности, которые позволяют роботу работать:
- распознавание пола собеседника по голосу,
- распознавание возраста,
- построение диалога с собеседником-человеком.
Распознавание пола собеседника по голосу
Зачем это нужно? Изначально эта функция создавалась для проведения опросов при помощи роботов. Раньше работа по проведению опросов проводилась людьми, которые заполняли ряд пунктов. Например — пол собеседника. Понятно, что человеку для определения этого параметра не нужно спрашивать, с кем он говорит — мужчиной или женщиной.
В 99% все и так понятно. С роботами другое дело, для того, чтобы они более-менее точно научились распознавать голоса, пришлось провести масштабную работу. И она не была напрасной, сейчас технология используется для персонализации предложения и голосовых промптов в зависимости от пола.
Важный момент — женский голос универсален и применим для работы с самым широким спектром продукции, а особенно он важен для продуктов для женщин. Согласно разным исследованиям, женский голос воспринимается любой аудиторией положительно, соответственно, в этом случае конверсия больше. Исключение — при продвижении “мужских” продуктов предпочтительнее мужской голос.
Как это работает? Сначала производится первичная обработка данных, она осуществляется на основе обработки голосовых записей и фрагментов продолжительностью по 20 мс. Все собранные голосовые фрагменты проходят предварительную обработку в компоненте VAD (Voice Activity Detection). Это необходимо для отделения «зерен от плевел», то есть речи от шумов. Весь мусор удаляется, благодаря чему увеличивается точность работы моделей.
Для распознавания используется так называемое пространство кепстральных коэффициентов, первой и второй разностей. Основа — метод GMM — Gauss Mixture Models.
Так, на интервале в 10-20 мс вычисляется текущий спектр мощности, после чего применяется обратное преобразование Фурье от логарифма спектра, с поиском необходимых коэффициентов.
Наши GMM-модели настроены отдельно для обучения мод мужской и женский голоса, также используются модели для определения взрослых и детских голосов. Конечно, с нуля обучить систему нельзя, нужны размеченные голосовые записи.
Для того, чтобы повысить эффективность работы системы, применяются коэффициенты тембральных моделей голоса:
- Тембральная резкость.
- Тембральная теплота.
- Тембральная яркость.
- Тембральная глубина.
- Тембральная твердость.
- Тембральный рост.
- Тембральная неровность.
- Тембральная ревербация.
Главная часть системы — модуль классификации данных на основе многослойного персептрона, MLP. В нее передаются данные от моделей мужского, женского голосов, данные тембральных моделей. На входе в систему получаем массив проклассифицированных значений, а на выходе — результат определения пола.
Технология, которая здесь описывается, используется для работы как в онлайн (по первой фразе клиента), так и оффлайн режиме классификации (после разговора). Точность распознавания пола составляет около 95%. Важный момент — задержка при работе в онлайне не превышает 120-150 мс, что крайне важно для «очеловечивания» робота. Обычно паузы в общении робота и человека составляют не миллисекунды, а секунды, что, конечно, для собеседника-человека выглядит странно, и сразу понятно, что общение ведет цифровая система.
В планах добавление работы с текстом, точнее — окончаниями. Если собеседник говорит «я могла бы» — однозначно, это женщина. В ближайшее время эта технология будет дорабатываться и внедряться в систему распознавания.
Определение возраста собеседника
Зачем это нужно? В первую очередь, для того, чтобы не предлагать различные продукты и услуги несовершеннолетним. Кроме того, идентифицировать возраст полезно для того, чтобы персонализировать предложения по возрастным категориям.
Как это работает? Используются точно те же технологии, что и в предыдущем случае. Точность работы системы составляет около 90%.
Построение диалогов
И теперь приступаем к самому интересному — принципу построения диалогов.
Зачем это нужно? Для того, чтобы грамотно заменять человека, робот должен уметь работать как по линейному, так и по нелинейному сценариям ведения диалога. В первом случае это может быть опросник, во втором — работа с абонентами колл-центра, линии техподдержки компании и т.п.
А как это работает? Мы используем NLU Engine, основа которого — семантический разбор полученного от ASR-систем текста. Далее из него выделяются такие объекты распознавания, как entities (сущности) и intents (намерения), которые применяются в логике построения conversational flow.
Вот пример работы технологии.
Текст полученный от системы распознавания речи (ASR):
«Мне в целом интересно ваше предложение, но хотелось бы подешевле. И я сейчас немного занят, вы могли бы мне перезвонить завтра часиков в шесть».
Объекты, заполненные NLU Engine:
Intents:
confirmation=true
objection=expensive
question=null
callback=true
wrong_time=true
Entities:
date= 02.01.2019 (предположим, что дата звонка 01.01.2019)
time=18:00
amount=6
Принцип заполнения объектов в данном примере:
Intents (намерения):
- Текст «мне интересно ваше предложение» был переведен в intent «confirmation» с значением «true».
- Текст «хотелось бы подешевле» был переведен в intent «objection» с значением «expensive».
- Текст «я сейчас немного занят» был переведен в intent «wrong_time» с значением «true».
- Текст «могли бы мне перезвонить» был переведен в intent «call_back» с значением «true».
- Абонент не задал ни одного вопроса, поэтому intent «question» имеет значение null
- Текст «завтра» был автоматически переведен в entity «date» с значением «02.01.2019», используя формулу current_date + 1 (предположим, что дата звонка 01.01.2019).
- Текст «часиков в шесть» был переведен в entity «time» с значением «18:00»,
- Текст «шесть» был переведен в entity «amount» с значением «6», которое в данной логике может игнорироваться, так как есть entities с более высоким приоритетом.
Теперь поговорим об алгоритмах работы, которые поддерживаются системой NLU Engine. Она включает два уровня.
Первый уровень — работает на относительно небольшой выборке данных порядка 600-1000 записей. Здесь используются ML-алгоритмы. Точность распознавания: 90-95%.
Второй уровень — переход на него осуществляется после запуска проекта и накопления большой выборки данных, включающей более 1 млн записей. Здесь уже используются DL-алгоритмы. Точность распознавания: 95-98%.
Решение работает с двумя подсистемами:
- подсистема категоризации и классификации текстовых данных,
- подсистема формирования диалога.
Подсистема формирования диалога для построения нелинейных сценариев построена на нейронной сети. На входе в систему передается распознанный из голосовой фразы текст абонента, на выходе — решение о том, что должно быть проиграно в следующий момент.
Для первой линии поддержки подходит нелинейный сценарий — робот не знает, кто звонит, по поводу какого именно продукта и с какими вопросами. Здесь от ответа клиента зависит дальнейшее построение диалога.
А вот для исходящего обзвона наилучшим решением будет линейный сценарий. Его пример был подан в самом начале статьи. Еще один вариант линейного сценария — проведение опроса, когда неважно, что именно ответит клиент, это будет анализироваться в дальнейшем специалистами. Зато важно провести клиента через все вопросы, которые есть в списке.
Как итог, хочется подчеркнуть, что голосовые роботы не заменят людей. Сейчас они отлично справляются с рутинной работой — обзвоном людей с целью задать им какие-то вопросы и выслушать/записать/проанализировать ответы. Таким образом, операторы колл-центров и техподдержки избавлены от необходимости проводить одни и те же рутинные процедуры. Вместо этого они могут сосредоточиться на решении действительно интересных вопросов и задач.
- распознавание голоса
- voice recognition
- голос
- роботы
- машинное обучение
- Блог компании Neuro.net
- Машинное обучение
- Искусственный интеллект
- Natural Language Processing
- Голосовые интерфейсы
Источник: habr.com