Speech synthesis

  • История и развитие

    • Первые попытки создания машин для имитации речи относятся к древности.  
    • В 1779 году Кристиан Готлиб Краценштейн выиграл конкурс за модель голосового тракта.  
    • В 1837 году Чарльз Уитстон создал «говорящую машину».  
    • В 1930-х годах Bell Labs разработала вокодер, а в 1940-х годах Haskins Laboratories создала Pattern playback.  
  • Электронные устройства

    • Первые компьютерные системы синтеза речи появились в конце 1950-х годов.  
    • В 1961 году Джон Ларри Келли и Луи Герстман использовали IBM 704 для синтеза речи.  
    • В 1975 году Фумитада Итакура разработал метод LSP для сжатия речи.  
    • В 1975 году была выпущена система MUSA, способная читать и петь на итальянском языке.  
  • Современные системы

    • В 1980-х и 1990-х годах доминировали системы DECtalk и Bell Labs.  
    • В 1970-х годах появились первые портативные устройства с синтезом речи, такие как Telesensory Systems Inc. Speech+.  
    • В 1980 году была выпущена первая видеоигра с синтезом речи, Stratovox.  
  • Технологии синтеза

    • Важные качества синтезатора: естественность и понятность.  
    • Основные технологии: конкатенативный синтез и форматный синтез.  
    • Конкатенативный синтез основан на соединении сегментов записанной речи, но может иметь дефекты.  
    • Форматный синтез использует модели голосового тракта и других характеристик голоса.  
  • Создание базы данных

    • Каждое записанное высказывание сегментируется на отдельные звуки, дифоны, полуфоны, слоги, морфемы, слова, фразы и предложения.  
    • Сегментация выполняется с помощью модифицированного речевого распознавателя с ручной коррекцией.  
    • Создается индекс единиц на основе сегментации и акустических параметров.  
  • Выбор единиц

    • Во время выполнения определяется лучшая цепочка единиц из базы данных.  
    • Используется взвешенное дерево решений.  
    • Единицы выбираются с минимальной цифровой обработкой сигнала.  
    • Единицы могут быть выбраны из менее подходящих мест, что приводит к менее естественному синтезу.  
  • Diphone синтез

    • Используется минимальная база данных, содержащая все дифоны языка.  
    • В базе данных содержится только один пример каждого дифона.  
    • Просодия накладывается на дифоны с помощью методов цифровой обработки сигнала.  
    • Метод страдает от звуковых сбоев и роботизированного звучания.  
  • Domain-specific синтез

    • Конкатенация заранее записанных слов и фраз для создания полных высказываний.  
    • Используется в приложениях с ограниченным набором текстов, таких как объявления и погодные сводки.  
    • Уровень естественности высок, но ограничен словами и фразами в базе данных.  
  • Formant синтез

    • Синтез без использования человеческих образцов речи.  
    • Используются параметры, такие как фундаментальная частота и шум, для создания искусственной речи.  
    • Метод может быть надежным и быстрым, но не всегда обеспечивает максимальную естественность.  
  • Articulatory синтез

    • Синтез на основе моделей голосового тракта и артикуляционных процессов.  
    • Первый синтезатор ASY разработан в 1970-х годах.  
    • Современные системы включают модели биомеханики голосовых связок и аэродинамики.  
  • HMM-based синтез

    • Синтез на основе скрытых марковских моделей.  
    • Частота спектра, фундаментальная частота и длительность моделируются одновременно.  
    • Волны генерируются на основе критерия максимального правдоподобия.  
  • Sinewave синтез

    • Замена формантов на чистые тоновые свисты.  
  • Deep learning-based синтез

    • Использование глубоких нейронных сетей для синтеза речи из текста или спектра.  
    • Обучение моделей на большом количестве записанной речи.  
    • Модель 15.ai использует мульти-спикер модель для обучения и обобщения эмоционального контекста.  
  • Приложение ElevenLabs

    • Поддерживает ручную настройку эмоций с помощью эмоциональных контекстуализаторов  
    • Использует ИИ для синтеза речи с эмоциями и интонацией  
    • Адаптирует интонацию и темп речи в зависимости от контекста  
  • Особенности и технологии

    • Многоязычная генерация речи и создание контента с контекстно-зависимыми голосами  
    • Использует DNN для приближения к естественности человеческого голоса  
    • Проблемы с тональными языками и ошибками тонального санджи  
  • Аудиофейки

    • В 2023 году VICE журналист использовал инструмент ElevenLabs для создания голосовых фейков  
  • Проблемы нормализации текста

    • Нормализация текста сложна из-за гетеронимов, чисел и аббревиатур  
    • Используются различные методы для решения проблем, включая HMMs  
  • Проблемы преобразования текста в речь

    • Используются два подхода: словарный и правило-базовый  
    • Словарный подход быстр, но не работает с новыми словами  
    • Правило-базовый подход работает на любом входе, но сложен для сложных языков  
  • Проблемы оценки

    • Отсутствие универсальных критериев оценки  
    • Качество зависит от техники производства и воспроизведения  
    • С 2005 года используются общие наборы данных для оценки  
  • Проблемы просодики и эмоционального содержания

    • Слушатели могут определять эмоции по голосу  
    • Модификация тональности для различных типов предложений  
    • Просодика остается сложной задачей для синтезаторов  
  • Специализированное оборудование

    • Icophone, General Instrument SP0256-AL2, National Semiconductor DT1050 Digitalker, Texas Instruments LPC Speech Chips  
  • История и развитие

    • Texas Instruments был пионером в синтезе речи в 1980-х  
    • Mattel Intellivision использовала SP0256 Narrator для синтеза речи в 1982 году  
  • История синтеза голоса

    • Сэм стал первой коммерческой программой для синтеза голоса в 1982 году.  
    • MacinTalk от Apple был первой речевой системой, интегрированной в операционную систему.  
    • AmigaOS также имела расширенные возможности синтеза речи.  
  • Современные системы и технологии

    • Современные системы Windows используют SAPI 4 и SAPI 5 для синтеза и распознавания речи.  
    • Android поддерживает синтез речи с версии 1.6.  
    • Интернет-технологии позволяют читать сообщения и веб-страницы вслух.  
  • Открытые и коммерческие системы

    • Доступны программные системы с открытым исходным кодом, такие как eSpeak и gnuspeech.  
    • Коммерческие системы, такие как Amazon Alexa и Amazon Kindle, используют синтез речи.  
  • Будущее и инновации

    • Исследователи работают над улучшением синтеза речи, используя нейронные сети.  
    • Синтез изображений человека улучшился настолько, что его трудно отличить от реального.  
  • Технологии подделки видео

    • В 2016 году представлены методы подделки выражений лица в 2D видео.  
    • В 2017 году представлен цифровой двойник верхней части тела Барака Обамы.  
  • Генерация голосов

    • В марте 2020 года выпущено бесплатное веб-приложение 15.ai для генерации голосов.  
    • Приложение включает голоса персонажей из различных медиа.  
  • Языки разметки речи

    • Установлены языки разметки для преобразования текста в речь.  
    • Наиболее распространенный язык — Speech Synthesis Markup Language (SSML).  
    • Другие языки включают Java Speech Markup Language (JSML) и SABLE.  
  • Применение синтеза речи

    • Синтез речи важен для людей с различными нарушениями.  
    • Используется в экранных читателях, системах для людей с дислексией и детей.  
    • Применяется для людей с тяжелыми нарушениями речи.  
  • Использование в развлечениях

    • Синтез речи используется в играх и анимации.  
    • Animo Limited разработала FineSpeech для генерации диалогов.  
    • NEC Biglobe создала сервис для создания фраз из аниме.  
  • Новые применения

    • Синтез речи используется для взаимодействия с мобильными устройствами.  
    • Созданы виртуальные помощники с использованием 15.ai.  
    • Синтез речи применяется в изучении второго языка.  
  • Анализ и оценка речевых расстройств

    • Синтезатор голоса имитирует физику фонации.  
    • Используется для анализа и оценки речевых расстройств.  
  • Синхронизация пения

    • Синхронизация пения с помощью робота Pavarobotti.  
    • Описание процесса синтеза пения роботом.  

Полный текст статьи:

Синтез речи

Оставьте комментарий

Прокрутить вверх