Аудиовизуальное распознавание речи
-
Основы аудиовизуального распознавания речи (AVSR)
- AVSR объединяет возможности обработки изображений и распознавания речи для повышения точности распознавания.
- Системы AVSR работают отдельно, а затем их результаты объединяются для получения более точных результатов.
-
Структура AVSR
- AVSR состоит из звуковой и визуальной частей.
- В звуковой части используются функции, такие как log mel-спектрограмма и mfcc, для создания вектора признаков из аудиосэмплов.
- Визуальная часть использует сверточные нейронные сети для сжатия изображений в векторы признаков.
-
Объединение звуковых и визуальных данных
- Объединение звуковых и визуальных векторов признаков позволяет предсказывать целевые объекты.
-
Дополнительные ресурсы
- Ссылки на исследования IBM и блог Google по теме искусственного интеллекта.
- Призыв к расширению статьи в Википедии, связанной с компьютерной лингвистикой.