Corpus linguistics

Вики

Консорциум лингвистических данных

Консорциум лингвистических данных Консорциум лингвистических данных Открытый консорциум, объединяющий университеты, компании и исследовательские лаборатории.  Создает и распространяет базы данных, лексиконы […]

Вики

Конкордансер

Согласующий Определение и применение согласующего устройства Согласующее устройство автоматически создает соответствие между данными.  Выходные данные согласующего устройства используются для машинного

Вики

ФреймНет

ФреймНет Основы FrameNet FrameNet – это онлайн-база данных, основанная на теории семантики фреймов.  Фреймы представляют собой описания событий, связей или

Вики

Древесный берег

Берег деревьев Определение и история древовидных банков Древовидный банк – это анализируемый текст, комментирующий синтаксическую или семантическую структуру предложений.  Революция

Вики

Параллельный текст

Параллельный текст Определение и примеры параллельных текстов Параллельный текст – текст на двух языках, расположенный рядом.  Примеры: классические библиотеки, библии

Вики

Извлечение коллокаций

Извлечение словосочетаний Извлечение словосочетаний Извлечение словосочетаний – задача автоматического выделения словосочетаний из корпуса.  Традиционный метод основан на статистических оценках, таких

Вики

Маркировка частей речи

Маркировка частей речи Основы разметки частей речи Разметка частей речи (POS) – это процесс определения частей речи в тексте.  POS-тегирование

Вики

Совместное возникновение

Одновременное возникновение Определение совпадения в лингвистике Совпадение – это частота, превышающая вероятность случайного появления двух терминов рядом.  Совпадение может указывать

Вики

ВордНет

Сеть WordNet Обзор WordNet WordNet – это лексико-семантическая сеть, разработанная в 1980-х годах.  Она содержит более 2 миллионов лексических единиц

Вики

н-грамм

N-грамм Определение и использование n-грамм N-грамма – это последовательность из n смежных символов, которые могут быть буквами, слогами, словами или

Вики

Текстовый корпус

Текстовый корпус Определение и использование корпусов Корпусы – это наборы данных, состоящие из языковых ресурсов, включая аннотированные и неаннотированные.  Они

Вики

Тематическая модель

Тематическая модель Тематическая модель – статистическая модель для обнаружения абстрактных тем в документах.  Тематическое моделирование – инструмент интеллектуального анализа текста

Вики

Корпусная лингвистика

Корпусная лингвистика Корпусная лингвистика – эмпирический метод изучения языка с использованием текстовых корпусов.  Корпусы – сбалансированные, часто стратифицированные коллекции аутентичных

Вики

Коллокация

Словосочетание Словосочетания в корпусной лингвистике – это набор слов или терминов, встречающихся чаще, чем можно было бы ожидать.  Во фразеологии

Прокрутить вверх