Распознавание речи
-
История распознавания речи
- Распознавание речи началось в 1950-х годах с систем, распознающих цифры.
- В 1960-х годах появились модели создания речи и методы кодирования речи.
- В 1970-х годах DARPA финансировало исследования, направленные на увеличение словарного запаса.
- В 1980-х годах HMM стали доминирующим алгоритмом распознавания речи.
-
Развитие технологий
- В 1990-х годах появились системы с большим словарным запасом и непрерывным распознаванием речи.
- В 2000-х годах DARPA спонсировало программы EARS и GALE, а Google начал использовать распознавание речи.
-
Современные приложения
- Распознавание речи используется в голосовых интерфейсах, маршрутизации вызовов, управлении приборами и поиске по ключевым словам.
- В образовании распознавание речи применяется для оценки произношения.
- В авиации распознавание речи используется для ввода данных.
-
Технологические достижения
- Глубокое обучение и большие данные внесли значительный вклад в развитие распознавания речи.
- Современные системы распознавания речи используют методы глубокого обучения и большие данные.
-
История распознавания речи
- В начале 2000-х доминировали традиционные подходы, такие как скрытые марковские модели и искусственные нейронные сети.
- В 2007 году LSTM начал превосходить традиционные методы в некоторых приложениях.
- В 2015 году производительность распознавания речи Google возросла на 49% благодаря LSTM.
-
Глубокое обучение и LSTM
- LSTM-нейронные сети избегают проблемы исчезающего градиента и могут обучаться «Очень глубокому обучению».
- В 2009 году Джеффри Хинтон и его коллеги внедрили глубокие прямые сети для акустического моделирования.
- В 2010-х годах глубокое обучение позволило преодолеть трудности, связанные с уменьшением градиента и слабой временной корреляцией.
-
Современные методы распознавания речи
- Современные системы распознавания речи основаны на скрытых марковских моделях (HMM).
- HMM используются для аппроксимации речи как кусочно-стационарного сигнала.
- Современные системы используют различные комбинации методов для улучшения результатов.
-
Декодирование речи
- Декодирование речи использует алгоритм Витерби для поиска наилучшего пути.
- Возможны подходы с динамическим созданием комбинации HMM или предварительным статическим объединением.
- Улучшение процесса декодирования включает сохранение набора хороших кандидатов и использование функции повторной оценки.
-
Распознавание речи на основе динамического искажения времени (DTW)
- Динамическое искажение времени исторически использовалось для распознавания речи.
- В настоящее время DTW в значительной степени вытеснен подходом на основе HMM.
-
Технология DTW
- Применяется к видео, аудио и графике
- Позволяет находить оптимальное соответствие между последовательностями
- Используется в контексте скрытых марковских моделей
-
Нейронные сети в распознавании речи
- Появились в конце 1980-х годов
- Используются для классификации фонем, распознавания слов и аудиовизуального распознавания речи
- Обладают рядом качеств, делающих их привлекательными моделями распознавания речи
-
Глубокие нейронные сети
- Исследуются глубокие нейронные сети и автоэнкодеры
- Глубокие нейронные сети с прямой связью (DNN) моделируют сложные нелинейные взаимосвязи
- Успех в распознавании речи с большим словарным запасом достигнут в 2010 году
-
Комплексное автоматическое распознавание речи
- С 2014 года наблюдается интерес к «сквозному» ASR
- Комплексные модели совместно изучают все компоненты распознавателя речи
- Современные коммерческие системы ASR развертываются в облаке
-
Модели на основе CTC
- Первая попытка сквозного ASR с помощью систем на основе CTC
- Совместно изучают произношение и акустическую модель, но не могут выучить язык
- Модели CTC допускают много орфографических ошибок и требуют отдельную языковую модель
-
Модели на основе внимания
- Представлены в 2016 году
- Не предполагают независимости от условий и могут изучать все компоненты распознавателя речи
- Превзошли модели CTC и достигли значительного успеха
-
Приложения
- Автомобильные системы: распознавание речи для управления телефоном, радио и музыкой
- Образование: автоматическая оценка произношения для проверки правильности речи и диагностики речевых расстройств
-
Оценка разборчивости речи
- Важна для предотвращения неточностей в оценке с высокими ставками
- Включает слова с множественным правильным произношением и ошибки кодирования фонем
- Новые системы преобразования речи в текст дают оценки достоверности слов и фраз
-
Здравоохранение
- Распознавание речи используется на начальном и завершающем этапах оформления медицинской документации
- Интерфейсное распознавание речи: диктор диктует текст, диктор редактирует и подписывает документ
- Серверное распознавание речи: провайдер вводит текст, распознанный черновик передается редактору
- Проблемы: ARRA требует хранения значительного объема данных, системы EHR не адаптированы для распознавания голоса
-
Терапевтическое применение
- Длительное использование распознавания речи улучшает кратковременную память у пациентов с АВМ головного мозга
- Необходимы дальнейшие исследования для определения когнитивных преимуществ
-
Военный
- Распознавание речи успешно применяется на истребителях, включая настройку радиочастот и управление автопилотом
- Проблемы: ухудшение распознавания при перегрузках, адаптация улучшает результаты
- Системы на Eurofighter Typhoon и F-35 Lightning II показывают точность слов выше 98%
-
Вертолеты
- Проблемы: акустический шум, отсутствие лицевой маски у пилотов
- Значительные программы испытаний и оценки систем распознавания речи на вертолетах
- Результаты: управление радиостанциями, настройка навигационных систем, автоматизированная система наведения на цель
-
Обучение авиадиспетчеров
- Системы распознавания речи устраняют необходимость в псевдо-пилотах
- Теоретически, задачи управления воздушным движением структурированы, но на практике это редко
- ВВС США и другие организации используют симуляторы УВД с распознаванием речи
-
Телефония и другие домены
- ASR используется в телефонии и компьютерных играх
- В телефонии ASR интегрирован с системами IVR
- В смартфонах ASR используется для создания предопределенных команд
-
Люди с ограниченными возможностями
- Глухие и слабослышащие люди используют ASR для создания субтитров
- Слепые и слабовидящие люди могут использовать ASR для передачи слов и управления компьютером голосом
-
Преимущества распознавания речи для учащихся с ограниченными возможностями
- Избавление от необходимости ручного ввода и работы с scribe
- Возможность использования компьютера без физического использования мыши и клавиатуры
- Улучшение плавности написания и орфографии
-
Применение распознавания речи в медицине и реабилитации
- Восстановление кратковременной памяти у пациентов с инсультом и трепанацией черепа
- Помощь людям с трудностями в использовании рук
-
Проблемы и ограничения распознавания речи
- Ошибки в распознавании слов
- Сложности для людей с ограниченными интеллектуальными возможностями
- Необходимость обучения технологии
-
Другие области применения распознавания речи
- Аэрокосмическая промышленность
- Автоматическое создание субтитров и распознавание эмоций
- Автоматический перевод и обнаружение электронных данных
- Домашняя автоматизация и мобильная телефония
- Робототехника и безопасность
-
Оценка производительности систем распознавания речи
- Точность оценивается по частоте ошибок в словах (WER)
- Скорость измеряется в реальном времени
- Факторы, влияющие на точность: объем словарного запаса, зависимость говорящего, изолированная речь
-
Многоуровневая задача распознавания речи
- Акустические сигналы структурированы в иерархию единиц измерения
- Использование вероятностного объединения решений на нижних уровнях
- Нейронные сети для расширения знаний о распознавании речи
-
Соображения безопасности
- Распознавание речи может стать средством нападения и кражи
- Злоумышленники могут получить доступ к личной информации
- Примеры атак с использованием искусственных звуков
-
Конференции и журналы
- Конференции ACL, NAACL, EMNLP и HLT включают доклады по обработке речи
- Важные журналы: IEEE Transactions on Speech and Audio Processing, Computer Speech and Language, речевая коммуникация
-
Книги
- «Основы распознавания речи» Лоуренса Рабинера (1993)
- «Статистические методы распознавания речи» Фредерика Елинека (2001)
- «Обработка разговорной речи» Сюэдуна Хуана и др. (2001)
- «Компьютерная речь» Манфреда Р. Шредера (2004)
- «Обработка речи: динамический подход, ориентированный на оптимизацию» Ли Денга и Дуга О’Шонесси (2003)
- «Речь и языковая обработка» Джурафски и Мартина (2008)
- «Основы распознавания говорящих» (2014)
- «Голос в машине. Создание компьютеров, понимающих речь» Роберто Пьераччини (2012)
- «Автоматическое распознавание речи: подход к глубокому обучению» Д. Ю и Л. Дэн (2014)
- «Глубокое обучение: методы и приложения» Л. Дэн и Д. Yu (2014)
-
Программное обеспечение
- Sphinx Университета Карнеги-Меллона
- HTK book и HTK toolkit
- Kaldi toolkit
- Common Voice (2017)
- Coqui STT (2020)
- Google Gboard
- Коммерческие облачные API-интерфейсы
-
Дополнительные ресурсы
- Эффект искусственного интеллекта
- АЛЬПАК
- Применение искусственного интеллекта
- Распознавание артикуляционной речи
- Интеллектуальный анализ звука
- Аудиовизуальное распознавание речи
- Автоматический переводчик языков
- Автомобильное головное устройство
- Мозг
- Языковая модель кэширования
- Дракон, говорящий от природы
- Технология беглой передачи голоса
- Голосовой поиск Google
- Компания IBM viavoice выступает
- Поиск ключевых слов
- Kinect (Кинект)
- Мондегрин
- Поиск мультимедийной информации
- Происхождение речи
- Технология фонетического поиска
- Ведение дневника диктора
- Распознавание говорящего
- Речевой анализ
- Руководство по речевому интерфейсу
- Программное обеспечение для распознавания речи для Linux
- Синтез речи
- Проверка речи
- Подзаголовок (субтитры)
- Голосовой интерфейс
- Воксфордж
- Распознавание речи Windows
- Список программ для распознавания речи
- Список новых технологий
- Общие сведения об искусственном интеллекте
- Временная шкала речи и распознавания голоса
- Рекомендации
- Дальнейшее чтение
- Внешние ссылки
- Речевые технологии в Curlie