Оглавление
Текстовый корпус
-
Определение и использование корпусов
- Корпусы – это наборы данных, состоящие из языковых ресурсов, включая аннотированные и неаннотированные.
- Они используются в корпусной лингвистике для статистического анализа и проверки лингвистических правил.
- В поисковых технологиях они служат основой для поиска.
-
Типы и аннотации корпусов
- Корпуса могут быть одноязычными или многоязычными.
- Аннотации включают тегирование частей речи и указание лемматических форм слов.
- Для двуязычного использования применяются подстрочные текстовые пометки.
- Существуют структурированные уровни анализа, включая морфологию, семантику и прагматику.
-
Применение корпусов
- Корпусы являются основой для корпусной лингвистики и используются в различных областях, включая компьютерную лингвистику, распознавание речи и машинный перевод.
- Они полезны для обучения языкам и написания текстов на иностранном языке.
- Выровненные параллельные корпуса используются для сравнения текстов на разных языках.
-
Примеры корпусов
- Амарнские письма и “Тексты Кюльтепе” являются примерами коротких археологических корпусов.
- Существуют различные бесплатные и коммерческие корпуса, включая COCA, BNC и другие.
-
Рекомендации и ресурсы
- Статья содержит ссылки на руководства по разработке лингвистических корпусов и ресурсы для изучения языков.
Полный текст статьи: