Аудиовизуальное распознавание речи

Аудиовизуальное распознавание речи Основы аудиовизуального распознавания речи (AVSR) AVSR объединяет возможности обработки изображений и распознавания речи для повышения точности распознавания.  […]

Аудиовизуальное распознавание речи

  • Основы аудиовизуального распознавания речи (AVSR)

    • AVSR объединяет возможности обработки изображений и распознавания речи для повышения точности распознавания. 
    • Системы AVSR работают отдельно, а затем их результаты объединяются для получения более точных результатов. 
  • Структура AVSR

    • AVSR состоит из звуковой и визуальной частей. 
    • В звуковой части используются функции, такие как log mel-спектрограмма и mfcc, для создания вектора признаков из аудиосэмплов. 
    • Визуальная часть использует сверточные нейронные сети для сжатия изображений в векторы признаков. 
  • Объединение звуковых и визуальных данных

    • Объединение звуковых и визуальных векторов признаков позволяет предсказывать целевые объекты. 
  • Дополнительные ресурсы

    • Ссылки на исследования IBM и блог Google по теме искусственного интеллекта. 
    • Призыв к расширению статьи в Википедии, связанной с компьютерной лингвистикой. 

Полный текст статьи:

Аудиовизуальное распознавание речи — Википедия

Оставьте комментарий

Прокрутить вверх