Speech synthesis
-
История и развитие
- Первые попытки создания машин для имитации речи относятся к древности.
- В 1779 году Кристиан Готлиб Краценштейн выиграл конкурс за модель голосового тракта.
- В 1837 году Чарльз Уитстон создал «говорящую машину».
- В 1930-х годах Bell Labs разработала вокодер, а в 1940-х годах Haskins Laboratories создала Pattern playback.
-
Электронные устройства
- Первые компьютерные системы синтеза речи появились в конце 1950-х годов.
- В 1961 году Джон Ларри Келли и Луи Герстман использовали IBM 704 для синтеза речи.
- В 1975 году Фумитада Итакура разработал метод LSP для сжатия речи.
- В 1975 году была выпущена система MUSA, способная читать и петь на итальянском языке.
-
Современные системы
- В 1980-х и 1990-х годах доминировали системы DECtalk и Bell Labs.
- В 1970-х годах появились первые портативные устройства с синтезом речи, такие как Telesensory Systems Inc. Speech+.
- В 1980 году была выпущена первая видеоигра с синтезом речи, Stratovox.
-
Технологии синтеза
- Важные качества синтезатора: естественность и понятность.
- Основные технологии: конкатенативный синтез и форматный синтез.
- Конкатенативный синтез основан на соединении сегментов записанной речи, но может иметь дефекты.
- Форматный синтез использует модели голосового тракта и других характеристик голоса.
-
Создание базы данных
- Каждое записанное высказывание сегментируется на отдельные звуки, дифоны, полуфоны, слоги, морфемы, слова, фразы и предложения.
- Сегментация выполняется с помощью модифицированного речевого распознавателя с ручной коррекцией.
- Создается индекс единиц на основе сегментации и акустических параметров.
-
Выбор единиц
- Во время выполнения определяется лучшая цепочка единиц из базы данных.
- Используется взвешенное дерево решений.
- Единицы выбираются с минимальной цифровой обработкой сигнала.
- Единицы могут быть выбраны из менее подходящих мест, что приводит к менее естественному синтезу.
-
Diphone синтез
- Используется минимальная база данных, содержащая все дифоны языка.
- В базе данных содержится только один пример каждого дифона.
- Просодия накладывается на дифоны с помощью методов цифровой обработки сигнала.
- Метод страдает от звуковых сбоев и роботизированного звучания.
-
Domain-specific синтез
- Конкатенация заранее записанных слов и фраз для создания полных высказываний.
- Используется в приложениях с ограниченным набором текстов, таких как объявления и погодные сводки.
- Уровень естественности высок, но ограничен словами и фразами в базе данных.
-
Formant синтез
- Синтез без использования человеческих образцов речи.
- Используются параметры, такие как фундаментальная частота и шум, для создания искусственной речи.
- Метод может быть надежным и быстрым, но не всегда обеспечивает максимальную естественность.
-
Articulatory синтез
- Синтез на основе моделей голосового тракта и артикуляционных процессов.
- Первый синтезатор ASY разработан в 1970-х годах.
- Современные системы включают модели биомеханики голосовых связок и аэродинамики.
-
HMM-based синтез
- Синтез на основе скрытых марковских моделей.
- Частота спектра, фундаментальная частота и длительность моделируются одновременно.
- Волны генерируются на основе критерия максимального правдоподобия.
-
Sinewave синтез
- Замена формантов на чистые тоновые свисты.
-
Deep learning-based синтез
- Использование глубоких нейронных сетей для синтеза речи из текста или спектра.
- Обучение моделей на большом количестве записанной речи.
- Модель 15.ai использует мульти-спикер модель для обучения и обобщения эмоционального контекста.
-
Приложение ElevenLabs
- Поддерживает ручную настройку эмоций с помощью эмоциональных контекстуализаторов
- Использует ИИ для синтеза речи с эмоциями и интонацией
- Адаптирует интонацию и темп речи в зависимости от контекста
-
Особенности и технологии
- Многоязычная генерация речи и создание контента с контекстно-зависимыми голосами
- Использует DNN для приближения к естественности человеческого голоса
- Проблемы с тональными языками и ошибками тонального санджи
-
Аудиофейки
- В 2023 году VICE журналист использовал инструмент ElevenLabs для создания голосовых фейков
-
Проблемы нормализации текста
- Нормализация текста сложна из-за гетеронимов, чисел и аббревиатур
- Используются различные методы для решения проблем, включая HMMs
-
Проблемы преобразования текста в речь
- Используются два подхода: словарный и правило-базовый
- Словарный подход быстр, но не работает с новыми словами
- Правило-базовый подход работает на любом входе, но сложен для сложных языков
-
Проблемы оценки
- Отсутствие универсальных критериев оценки
- Качество зависит от техники производства и воспроизведения
- С 2005 года используются общие наборы данных для оценки
-
Проблемы просодики и эмоционального содержания
- Слушатели могут определять эмоции по голосу
- Модификация тональности для различных типов предложений
- Просодика остается сложной задачей для синтезаторов
-
Специализированное оборудование
- Icophone, General Instrument SP0256-AL2, National Semiconductor DT1050 Digitalker, Texas Instruments LPC Speech Chips
-
История и развитие
- Texas Instruments был пионером в синтезе речи в 1980-х
- Mattel Intellivision использовала SP0256 Narrator для синтеза речи в 1982 году
-
История синтеза голоса
- Сэм стал первой коммерческой программой для синтеза голоса в 1982 году.
- MacinTalk от Apple был первой речевой системой, интегрированной в операционную систему.
- AmigaOS также имела расширенные возможности синтеза речи.
-
Современные системы и технологии
- Современные системы Windows используют SAPI 4 и SAPI 5 для синтеза и распознавания речи.
- Android поддерживает синтез речи с версии 1.6.
- Интернет-технологии позволяют читать сообщения и веб-страницы вслух.
-
Открытые и коммерческие системы
- Доступны программные системы с открытым исходным кодом, такие как eSpeak и gnuspeech.
- Коммерческие системы, такие как Amazon Alexa и Amazon Kindle, используют синтез речи.
-
Будущее и инновации
- Исследователи работают над улучшением синтеза речи, используя нейронные сети.
- Синтез изображений человека улучшился настолько, что его трудно отличить от реального.
-
Технологии подделки видео
- В 2016 году представлены методы подделки выражений лица в 2D видео.
- В 2017 году представлен цифровой двойник верхней части тела Барака Обамы.
-
Генерация голосов
- В марте 2020 года выпущено бесплатное веб-приложение 15.ai для генерации голосов.
- Приложение включает голоса персонажей из различных медиа.
-
Языки разметки речи
- Установлены языки разметки для преобразования текста в речь.
- Наиболее распространенный язык — Speech Synthesis Markup Language (SSML).
- Другие языки включают Java Speech Markup Language (JSML) и SABLE.
-
Применение синтеза речи
- Синтез речи важен для людей с различными нарушениями.
- Используется в экранных читателях, системах для людей с дислексией и детей.
- Применяется для людей с тяжелыми нарушениями речи.
-
Использование в развлечениях
- Синтез речи используется в играх и анимации.
- Animo Limited разработала FineSpeech для генерации диалогов.
- NEC Biglobe создала сервис для создания фраз из аниме.
-
Новые применения
- Синтез речи используется для взаимодействия с мобильными устройствами.
- Созданы виртуальные помощники с использованием 15.ai.
- Синтез речи применяется в изучении второго языка.
-
Анализ и оценка речевых расстройств
- Синтезатор голоса имитирует физику фонации.
- Используется для анализа и оценки речевых расстройств.
-
Синхронизация пения
- Синхронизация пения с помощью робота Pavarobotti.
- Описание процесса синтеза пения роботом.