Whisper (система распознавания речи)

Шепот (система распознавания речи) Whisper — модель машинного обучения для распознавания и транскрипции речи, созданная OpenAI.  Он способен транскрибировать речь […]

Шепот (система распознавания речи)

  • Whisper — модель машинного обучения для распознавания и транскрипции речи, созданная OpenAI. 
  • Он способен транскрибировать речь на английском и нескольких других языках, а также переводить несколько неанглоязычных текстов на английский. 
  • OpenAI утверждает, что сочетание различных обучающих данных привело к улучшению распознавания акцентов, фонового шума и жаргона по сравнению с предыдущими подходами. 
  • Whisper — это акустическая модель глубокого обучения со слабым контролем, созданная с использованием архитектуры преобразователя кодер-декодер. 
  • Версия Whisper V2 была выпущена 8 декабря 2022 года, а версия Whisper V3 — в ноябре 2023 года. 
  • Распознавание речи имеет долгую историю исследований, и подходы с использованием глубоких нейронных сетей стали более распространенными в моделях распознавания речи. 
  • Трансформаторы, представленные Google в 2017 году, вытеснили многие предшествующие современные подходы ко многим проблемам машинного обучения. 
  • Whisper был обучен с использованием полуавтоматического обучения на 680 000 часов многоязычных и многозадачных данных. 
  • Whisper не превосходит модели, специализирующиеся на наборе данных LibriSpeech, но при тестировании на многих наборах данных он оказывается более надежным и допускает на 50% меньше ошибок, чем другие модели. 

Полный текст статьи:

Whisper (система распознавания речи) — Википедия

Оставьте комментарий

Прокрутить вверх