Распознавание речи

  • История распознавания речи

    • Распознавание речи началось в 1950-х годах с систем, распознающих цифры.  
    • В 1960-х годах появились модели создания речи и методы кодирования речи.  
    • В 1970-х годах DARPA финансировало исследования, направленные на увеличение словарного запаса.  
    • В 1980-х годах HMM стали доминирующим алгоритмом распознавания речи.  
  • Развитие технологий

    • В 1990-х годах появились системы с большим словарным запасом и непрерывным распознаванием речи.  
    • В 2000-х годах DARPA спонсировало программы EARS и GALE, а Google начал использовать распознавание речи.  
  • Современные приложения

    • Распознавание речи используется в голосовых интерфейсах, маршрутизации вызовов, управлении приборами и поиске по ключевым словам.  
    • В образовании распознавание речи применяется для оценки произношения.  
    • В авиации распознавание речи используется для ввода данных.  
  • Технологические достижения

    • Глубокое обучение и большие данные внесли значительный вклад в развитие распознавания речи.  
    • Современные системы распознавания речи используют методы глубокого обучения и большие данные.  
  • История распознавания речи

    • В начале 2000-х доминировали традиционные подходы, такие как скрытые марковские модели и искусственные нейронные сети.  
    • В 2007 году LSTM начал превосходить традиционные методы в некоторых приложениях.  
    • В 2015 году производительность распознавания речи Google возросла на 49% благодаря LSTM.  
  • Глубокое обучение и LSTM

    • LSTM-нейронные сети избегают проблемы исчезающего градиента и могут обучаться «Очень глубокому обучению».  
    • В 2009 году Джеффри Хинтон и его коллеги внедрили глубокие прямые сети для акустического моделирования.  
    • В 2010-х годах глубокое обучение позволило преодолеть трудности, связанные с уменьшением градиента и слабой временной корреляцией.  
  • Современные методы распознавания речи

    • Современные системы распознавания речи основаны на скрытых марковских моделях (HMM).  
    • HMM используются для аппроксимации речи как кусочно-стационарного сигнала.  
    • Современные системы используют различные комбинации методов для улучшения результатов.  
  • Декодирование речи

    • Декодирование речи использует алгоритм Витерби для поиска наилучшего пути.  
    • Возможны подходы с динамическим созданием комбинации HMM или предварительным статическим объединением.  
    • Улучшение процесса декодирования включает сохранение набора хороших кандидатов и использование функции повторной оценки.  
  • Распознавание речи на основе динамического искажения времени (DTW)

    • Динамическое искажение времени исторически использовалось для распознавания речи.  
    • В настоящее время DTW в значительной степени вытеснен подходом на основе HMM.  
  • Технология DTW

    • Применяется к видео, аудио и графике  
    • Позволяет находить оптимальное соответствие между последовательностями  
    • Используется в контексте скрытых марковских моделей  
  • Нейронные сети в распознавании речи

    • Появились в конце 1980-х годов  
    • Используются для классификации фонем, распознавания слов и аудиовизуального распознавания речи  
    • Обладают рядом качеств, делающих их привлекательными моделями распознавания речи  
  • Глубокие нейронные сети

    • Исследуются глубокие нейронные сети и автоэнкодеры  
    • Глубокие нейронные сети с прямой связью (DNN) моделируют сложные нелинейные взаимосвязи  
    • Успех в распознавании речи с большим словарным запасом достигнут в 2010 году  
  • Комплексное автоматическое распознавание речи

    • С 2014 года наблюдается интерес к «сквозному» ASR  
    • Комплексные модели совместно изучают все компоненты распознавателя речи  
    • Современные коммерческие системы ASR развертываются в облаке  
  • Модели на основе CTC

    • Первая попытка сквозного ASR с помощью систем на основе CTC  
    • Совместно изучают произношение и акустическую модель, но не могут выучить язык  
    • Модели CTC допускают много орфографических ошибок и требуют отдельную языковую модель  
  • Модели на основе внимания

    • Представлены в 2016 году  
    • Не предполагают независимости от условий и могут изучать все компоненты распознавателя речи  
    • Превзошли модели CTC и достигли значительного успеха  
  • Приложения

    • Автомобильные системы: распознавание речи для управления телефоном, радио и музыкой  
    • Образование: автоматическая оценка произношения для проверки правильности речи и диагностики речевых расстройств  
  • Оценка разборчивости речи

    • Важна для предотвращения неточностей в оценке с высокими ставками  
    • Включает слова с множественным правильным произношением и ошибки кодирования фонем  
    • Новые системы преобразования речи в текст дают оценки достоверности слов и фраз  
  • Здравоохранение

    • Распознавание речи используется на начальном и завершающем этапах оформления медицинской документации  
    • Интерфейсное распознавание речи: диктор диктует текст, диктор редактирует и подписывает документ  
    • Серверное распознавание речи: провайдер вводит текст, распознанный черновик передается редактору  
    • Проблемы: ARRA требует хранения значительного объема данных, системы EHR не адаптированы для распознавания голоса  
  • Терапевтическое применение

    • Длительное использование распознавания речи улучшает кратковременную память у пациентов с АВМ головного мозга  
    • Необходимы дальнейшие исследования для определения когнитивных преимуществ  
  • Военный

    • Распознавание речи успешно применяется на истребителях, включая настройку радиочастот и управление автопилотом  
    • Проблемы: ухудшение распознавания при перегрузках, адаптация улучшает результаты  
    • Системы на Eurofighter Typhoon и F-35 Lightning II показывают точность слов выше 98%  
  • Вертолеты

    • Проблемы: акустический шум, отсутствие лицевой маски у пилотов  
    • Значительные программы испытаний и оценки систем распознавания речи на вертолетах  
    • Результаты: управление радиостанциями, настройка навигационных систем, автоматизированная система наведения на цель  
  • Обучение авиадиспетчеров

    • Системы распознавания речи устраняют необходимость в псевдо-пилотах  
    • Теоретически, задачи управления воздушным движением структурированы, но на практике это редко  
    • ВВС США и другие организации используют симуляторы УВД с распознаванием речи  
  • Телефония и другие домены

    • ASR используется в телефонии и компьютерных играх  
    • В телефонии ASR интегрирован с системами IVR  
    • В смартфонах ASR используется для создания предопределенных команд  
  • Люди с ограниченными возможностями

    • Глухие и слабослышащие люди используют ASR для создания субтитров  
    • Слепые и слабовидящие люди могут использовать ASR для передачи слов и управления компьютером голосом  
  • Преимущества распознавания речи для учащихся с ограниченными возможностями

    • Избавление от необходимости ручного ввода и работы с scribe  
    • Возможность использования компьютера без физического использования мыши и клавиатуры  
    • Улучшение плавности написания и орфографии  
  • Применение распознавания речи в медицине и реабилитации

    • Восстановление кратковременной памяти у пациентов с инсультом и трепанацией черепа  
    • Помощь людям с трудностями в использовании рук  
  • Проблемы и ограничения распознавания речи

    • Ошибки в распознавании слов  
    • Сложности для людей с ограниченными интеллектуальными возможностями  
    • Необходимость обучения технологии  
  • Другие области применения распознавания речи

    • Аэрокосмическая промышленность  
    • Автоматическое создание субтитров и распознавание эмоций  
    • Автоматический перевод и обнаружение электронных данных  
    • Домашняя автоматизация и мобильная телефония  
    • Робототехника и безопасность  
  • Оценка производительности систем распознавания речи

    • Точность оценивается по частоте ошибок в словах (WER)  
    • Скорость измеряется в реальном времени  
    • Факторы, влияющие на точность: объем словарного запаса, зависимость говорящего, изолированная речь  
  • Многоуровневая задача распознавания речи

    • Акустические сигналы структурированы в иерархию единиц измерения  
    • Использование вероятностного объединения решений на нижних уровнях  
    • Нейронные сети для расширения знаний о распознавании речи  
  • Соображения безопасности

    • Распознавание речи может стать средством нападения и кражи  
    • Злоумышленники могут получить доступ к личной информации  
    • Примеры атак с использованием искусственных звуков  
  • Конференции и журналы

    • Конференции ACL, NAACL, EMNLP и HLT включают доклады по обработке речи  
    • Важные журналы: IEEE Transactions on Speech and Audio Processing, Computer Speech and Language, речевая коммуникация  
  • Книги

    • «Основы распознавания речи» Лоуренса Рабинера (1993)  
    • «Статистические методы распознавания речи» Фредерика Елинека (2001)  
    • «Обработка разговорной речи» Сюэдуна Хуана и др. (2001)  
    • «Компьютерная речь» Манфреда Р. Шредера (2004)  
    • «Обработка речи: динамический подход, ориентированный на оптимизацию» Ли Денга и Дуга О’Шонесси (2003)  
    • «Речь и языковая обработка» Джурафски и Мартина (2008)  
    • «Основы распознавания говорящих» (2014)  
    • «Голос в машине. Создание компьютеров, понимающих речь» Роберто Пьераччини (2012)  
    • «Автоматическое распознавание речи: подход к глубокому обучению» Д. Ю и Л. Дэн (2014)  
    • «Глубокое обучение: методы и приложения» Л. Дэн и Д. Yu (2014)  
  • Программное обеспечение

    • Sphinx Университета Карнеги-Меллона  
    • HTK book и HTK toolkit  
    • Kaldi toolkit  
    • Common Voice (2017)  
    • Coqui STT (2020)  
    • Google Gboard  
    • Коммерческие облачные API-интерфейсы  
  • Дополнительные ресурсы

    • Эффект искусственного интеллекта  
    • АЛЬПАК  
    • Применение искусственного интеллекта  
    • Распознавание артикуляционной речи  
    • Интеллектуальный анализ звука  
    • Аудиовизуальное распознавание речи  
    • Автоматический переводчик языков  
    • Автомобильное головное устройство  
    • Мозг  
    • Языковая модель кэширования  
    • Дракон, говорящий от природы  
    • Технология беглой передачи голоса  
    • Голосовой поиск Google  
    • Компания IBM viavoice выступает  
    • Поиск ключевых слов  
    • Kinect (Кинект)  
    • Мондегрин  
    • Поиск мультимедийной информации  
    • Происхождение речи  
    • Технология фонетического поиска  
    • Ведение дневника диктора  
    • Распознавание говорящего  
    • Речевой анализ  
    • Руководство по речевому интерфейсу  
    • Программное обеспечение для распознавания речи для Linux  
    • Синтез речи  
    • Проверка речи  
    • Подзаголовок (субтитры)  
    • Голосовой интерфейс  
    • Воксфордж  
    • Распознавание речи Windows  
    • Список программ для распознавания речи  
    • Список новых технологий  
    • Общие сведения об искусственном интеллекте  
    • Временная шкала речи и распознавания голоса  
    • Рекомендации  
    • Дальнейшее чтение  
    • Внешние ссылки  
    • Речевые технологии в Curlie  

Полный текст статьи:

Распознавание речи

Оставьте комментарий

Прокрутить вверх