Урок 7: Создание реалистичной речи через ИИ с помощью текстового запроса

Добро пожаловать на последний урок нашего курса! Сегодня мы научимся синтезировать реалистичную человеческую речь с помощью мощного и бесплатного инструмента от Google. Вы сможете создавать аудиодорожки для видео, подкастов, озвучивать презентации или просто разыгрывать друзей диалогами в стиле известных персонажей.

Что нам понадобится?

  • VPN: Как мы обсуждали в первом уроке, для доступа к некоторым сервисам может потребоваться VPN. Убедитесь, что он активирован.
  • Аккаунт Google: Это обязательное условие для работы с инструментами Google.

Пошаговая инструкция:

Перед дальнейшем прочтением инструкции, просмотрите видео, расположенное выше. Это позволит вам более быстро усвоить материал.

Шаг 1: Открываем раздел Generate-Speech в Google AIStudio

Перейдите по этой ссылке в сервис Google Text-to-Speech Studio: https://aistudio.google.com/u/1/generate-speech

Как создать реалистичный голос из текста - Создание реалистичной речи с помощью текстового запроса бесплатно курс

Шаг 2: Создаем новый аудиофайл

В интерфейсе студии вы увидите поле для ввода текста. Здесь и начинается магия.

  1. Выберите тип контента: Вам доступны два варианта:
    • Одиночная речь: Подходит для озвучки одного сплошного текста одним голосом.
    • Диалог (SSML): Это наш главный инструмент сегодня. SSML (Speech Synthesis Markup Language) позволяет размечать текст, указывая, где один говорящий заканчивает, а другой начинает. Это то, что нужно для создания беседы.

Шаг 3: Настраиваем голоса и стиль

Это самая интересная часть процесса!

  1. Выбор голоса: Google предлагает огромную библиотеку голосов с разными языками, акцентами, мужскими и женскими вариантами. Вы можете выбрать разных говорящих для каждой реплики в диалоге.
  2. Настройка стиля: Многие голоса поддерживают разные стили произношения и тональности. Например, вы можете выбрать:
    • Экспрессивный: делает речь более эмоциональной и живой;
    • Новостной: более формальный и четкий стиль диктора;
    • Радостный, спокойный и др. — экспериментируйте.

Шаг 4: Пишем и генерируем диалог

Теперь ваша очередь проявить творчество!

  • В поле для текста напишите диалог между двумя персонажами. Для разметки используйте кнопки интерфейса.
  • Назначьте каждой реплике свой голос и настройте стиль.
  • Когда все готово, нажмите кнопку «Run».

Шаг 5: Прослушиваем, редактируем и сохраняем

  • Через 20-30 секунд ваша аудиодорожка будет готова. Внимательно прослушайте ее;
  • Если что-то не понравилось (темп, произношение, эмоция), просто вернитесь назад, отредактируйте текст или настройки голоса и сгенерируйте аудио заново;
  • Когда результат вас устраивает, нажмите кнопку «Скачать» (Download). Файл сохранится на ваше устройство в формате WAV.

Что в итоге

Вы только что освоили профессиональный инструмент для синтеза речи! Это наглядный пример того, как ИИ (в данном случае, сложные нейросетевые модели генерации речи) становится доступным и простым в использовании для решения повседневных творческих задач.

Как создать реалистичный голос из текста - Создание реалистичной речи с помощью текстового запроса бесплатно курс

Что можно делать с этим дальше?

  • Озвучивать свои видео;
  • Создавать аудиокниги или озвучку для презентаций;
  • Генерировать аудиопримеры для изучения языков и пр.

Потратьте немного времени на эксперименты с разными голосами и настройками — вы будете поражены качеством и возможностями этого инструмента

Платформа по саморазвитию sar.by