N-грамм
-
Определение и использование n-грамм
- N-грамма — это последовательность из n смежных символов, которые могут быть буквами, слогами, словами или фонемами.
- Они собираются из текстовых или речевых корпусов и могут быть униграммами, биграммами и т.д., в зависимости от размера n.
- В вычислительной биологии n-граммы используются для получения полимеров или олигомеров, называемых к-мерами.
- В контексте обработки естественного языка n-граммы помогают моделям набора слов фиксировать порядок слов.
-
Примеры и рекомендации
- В статье приведены примеры использования n-грамм в английском языке, включая 3-граммовые и 4-граммовые последовательности.
- Для дальнейшего чтения рекомендуется книга «Основы статистической обработки естественного языка» и другие источники.
- В статье также упоминаются программы просмотра n-грамм, такие как Google Books n-gram viewer, и внешние ссылки на проекты и программы, связанные с n-граммами.
Полный текст статьи: