Урок 7: Создание реалистичной речи через ИИ с помощью текстового запроса

Добро пожаловать на последний урок нашего курса! Сегодня мы научимся синтезировать реалистичную человеческую речь с помощью мощного и бесплатного инструмента от Google. Вы сможете создавать аудиодорожки для видео, подкастов, озвучивать презентации или просто разыгрывать друзей диалогами в стиле известных персонажей.

Что нам понадобится?

VPN: Как мы обсуждали в первом уроке, для доступа к некоторым сервисам может потребоваться VPN. Убедитесь, что он активирован.
Аккаунт Google: Это обязательное условие для работы с инструментами Google.

Пошаговая инструкция:

Перед дальнейшем прочтением инструкции, просмотрите видео, расположенное выше. Это позволит вам более быстро усвоить материал.

Шаг 1: Открываем раздел Generate-Speech в Google AIStudio

Перейдите по этой ссылке в сервис Google Text-to-Speech Studio: https://aistudio.google.com/u/1/generate-speech

Как создать реалистичный голос из текста - Создание реалистичной речи с помощью текстового запроса бесплатно курс

Шаг 2: Создаем новый аудиофайл

В интерфейсе студии вы увидите поле для ввода текста. Здесь и начинается магия.

Выберите тип контента: Вам доступны два варианта:
- Одиночная речь: Подходит для озвучки одного сплошного текста одним голосом.
- Диалог (SSML): Это наш главный инструмент сегодня. SSML (Speech Synthesis Markup Language) позволяет размечать текст, указывая, где один говорящий заканчивает, а другой начинает. Это то, что нужно для создания беседы.

Шаг 3: Настраиваем голоса и стиль

Это самая интересная часть процесса!

Выбор голоса: Google предлагает огромную библиотеку голосов с разными языками, акцентами, мужскими и женскими вариантами. Вы можете выбрать разных говорящих для каждой реплики в диалоге.
Настройка стиля: Многие голоса поддерживают разные стили произношения и тональности. Например, вы можете выбрать:
- Экспрессивный: делает речь более эмоциональной и живой;
- Новостной: более формальный и четкий стиль диктора;
- Радостный, спокойный и др. — экспериментируйте.

Шаг 4: Пишем и генерируем диалог

Теперь ваша очередь проявить творчество!

В поле для текста напишите диалог между двумя персонажами. Для разметки используйте кнопки интерфейса.
Назначьте каждой реплике свой голос и настройте стиль.
Когда все готово, нажмите кнопку «Run».

Шаг 5: Прослушиваем, редактируем и сохраняем

Через 20-30 секунд ваша аудиодорожка будет готова. Внимательно прослушайте ее;
Если что-то не понравилось (темп, произношение, эмоция), просто вернитесь назад, отредактируйте текст или настройки голоса и сгенерируйте аудио заново;
Когда результат вас устраивает, нажмите кнопку «Скачать» (Download). Файл сохранится на ваше устройство в формате WAV.

Что в итоге

Вы только что освоили профессиональный инструмент для синтеза речи! Это наглядный пример того, как ИИ (в данном случае, сложные нейросетевые модели генерации речи) становится доступным и простым в использовании для решения повседневных творческих задач.

Что можно делать с этим дальше?

Озвучивать свои видео;
Создавать аудиокниги или озвучку для презентаций;
Генерировать аудиопримеры для изучения языков и пр.

Потратьте немного времени на эксперименты с разными голосами и настройками — вы будете поражены качеством и возможностями этого инструмента

Список всех уроков