Давно зрела потребность написать обзор об искусственных голосах и технологии преобразования текста в голос, известной как text-to-speech или сокращенно TTS. Потребность основана на профессиональном интересе авторов нашего сайта и его целевой аудитории, а также на необходимости решать реальные практические задачи с использованием этой технологии. Однако тема обширная и появилось понимание, что в одну публикацию вложиться не получится, поэтому будет целая серия статей на эту тему. А для того, чтобы погрузить вас в тему, начнем с тестирования возможностей Zvukogram: https://zvukogram.com/speech/ - одного из самых заметных онлайн сервисов преобразования текста в голос.
Краткий обзор возможностей Zvukogram
Тем, кто еще не слышал про этот сервис - короткий список возможностей.
- Огромная коллекция разных языков и голосов.
- Настройки голоса: скорость, ударение, эмоции, высота, усиление, интонация, паузы.
- Удобный рейтинговый список примеров голоса для выбора подходящего варианта.
- Кабинет пользователя с возможностью хранения озвучек, APi-токеном.
- Лучшая в интернете коллекция звуков для монтажа своих дорожек.
- Пакетный конвертер аудио из Ютуба
- Интуитивно понятный интерфейс, что обеспечивает удобство работы.
Согласитесь, вы все чаще слышите синтетические голоса в Ютюб-роликах, в озвучке текстов, аудио-книгах, в фильмах. И почти всегда можете отличить их от живых человеческих. Но, иногда уже можно и спутать голос робота и человека, а Звукограмм вносит свой вклад в очеловечивание синтетики. Просто послушайте эти примеры нейронных голосов и вы услышите в них уже и настроение робота и его эмоции. Высокое качество голосов и удобство сервиса стали причиной нашего внимания к сервису.
Тестируем Zvukogram
Наслушавшись приятных, почти человеческих, электронных голосов, показанных на сайте как примеры, мы все же решили попробовать все своими руками. Попробуем скормить сервису пару-тройку наших текстов и посмотрим что из этого получится. Итак, сразу подготовим типовой тестовый текст.
Здесь, на нашем сайте primat.org мы расскажем вам о возможностях системы Звукограмм, выполняющей преобразование текста в голос, выполним тестирование технологии text to speech и попробуем ее слегка - потроллить.
Как вы видите, мы включили в текст сложные конструкции: название сайта, английский текст и жаргонное слово. Фраза также содержит знаки препинания.
Ну как вам? Вполне достойно, согласитесь. Как и ожидалось, есть запинка с названием сайта - там есть точка (пауза) которую не произносит голос, и ударение не понятно куда ставит. Но, ударения можно попробовать настроить и произношение точки тоже. Голос был выбран по умолчанию, без дополнительных настроек.
Ну а теперь, как мы любим. Пишем текст, который и живому-то человеку будет не просто произнести с первого раза. Попробуйте сами прочитать, перед тем как слушать и вы поймете о чем речь. Итак, текст для эксперимента:
Неистовствующее человеконенавистничество облагодетельствованное выкристаллизовавшимися фантасмагорическими сюрреалиями.
А теперь смотрим и слушаем компьютерную версию.
Ну, скажем так, не зря мы мучились с текстом, составленным из общепризнанных труднопроизносимых слов. Но, согласитесь, вы скорее всего не будете использовать повседневно такие тексты. Однако, возможности звукограмма не исчерпаны и вы уже можете самостоятельно, зарегистрировавшись попробовать улучшить наш треш-текст настраивая электронный голос и расставляя акценты, паузы и ударения.
И еще один лайфхак: если вам станет скучно - можете развлечь себя коллекцией звуков от Звукограм. Залипательное занятие.
А теперь немного критики
По определению, тестирование предполагает выявление недостатков и имеет целью помочь разработчикам сервиса его улучшить. Итак, то что нам удалось заметить.
1) Регистрация на сайте дает стартовые токены. Мысль хорошая. Но, токены появляются только после подтверждения регистрации в письме, которое приходит. И тут небольшой нюанс - письмо может попасть в спам и там затеряться. Мелочь, а кого-то это может сбить с толку. Можно просто на форме регистрации добавить фразу о том, что письма могут попасть в спам. Ну или таки сделать правильные настройки для авто-рассылки.
2) 10 бесплатных токенов кому-то будет маловато, чтобы почувствовать вкус и разобраться с настройками.
3) Некоторые элементы интерфейса не очевидны. Например, есть неоднозначности при сохранении в профиль результатов озвучки - см. картинку ниже. Не совсем очевидным есть и списание токенов за озвучку. Разработчикам можно было бы сделать какой-то счетчик, показывающий какое число токенов будет списано за текст, который загружен для озвучки. А что будет если токенов не будет хватать на полную озвучку? Также не совсем прозрачен случай изменения текста и списания токенов. Поправили, например, грамматическую ошибку в тексте, а сервис будет считать, что это новый текст? Не совсем понятно.
Выводы. В целом же сервис понравился. Качество голосов на высоте. Много форматов для скачивания озвучки. И множество вариаций позволит вам легко сформировать свой фирменный голос из имеющихся так, чтобы вашим пользователям голос не казался таким, как у всех остальных.