Шепот (система распознавания речи)
- Whisper – модель машинного обучения для распознавания и транскрипции речи, созданная OpenAI.
- Он способен транскрибировать речь на английском и нескольких других языках, а также переводить несколько неанглоязычных текстов на английский.
- OpenAI утверждает, что сочетание различных обучающих данных привело к улучшению распознавания акцентов, фонового шума и жаргона по сравнению с предыдущими подходами.
- Whisper – это акустическая модель глубокого обучения со слабым контролем, созданная с использованием архитектуры преобразователя кодер-декодер.
- Версия Whisper V2 была выпущена 8 декабря 2022 года, а версия Whisper V3 – в ноябре 2023 года.
- Распознавание речи имеет долгую историю исследований, и подходы с использованием глубоких нейронных сетей стали более распространенными в моделях распознавания речи.
- Трансформаторы, представленные Google в 2017 году, вытеснили многие предшествующие современные подходы ко многим проблемам машинного обучения.
- Whisper был обучен с использованием полуавтоматического обучения на 680 000 часов многоязычных и многозадачных данных.
- Whisper не превосходит модели, специализирующиеся на наборе данных LibriSpeech, но при тестировании на многих наборах данных он оказывается более надежным и допускает на 50% меньше ошибок, чем другие модели.
Полный текст статьи: