Оглавление
- 1 Берег деревьев
- 1.1 Определение и история древовидных банков
- 1.2 Этимология термина
- 1.3 Процесс создания
- 1.4 Сложность и время создания
- 1.5 Типы древовидных банков
- 1.6 Форматы файлов и представления
- 1.7 Применение в компьютерной лингвистике
- 1.8 Семантические древовидные банки
- 1.9 Универсальные подходы к аннотациям
- 1.10 Инструменты поиска
- 1.11 Дополнительные ресурсы
- 1.12 Полный текст статьи:
- 2 Древесный берег — Википедия
Берег деревьев
-
Определение и история древовидных банков
- Древовидный банк – это анализируемый текст, комментирующий синтаксическую или семантическую структуру предложений.
- Революция в компьютерной лингвистике в начале 1990-х годов связана с использованием крупномасштабных эмпирических данных.
-
Этимология термина
- Термин “древобанк” введен лингвистом Джеффри Личем в 1980-х годах, связан с древовидной структурой синтаксической и семантической структуры.
- Термин parsed corpus используется как синоним, акцентируя внимание на первичности предложений, а не деревьев.
-
Процесс создания
- Древовидные списки создаются поверх корпусов с тегами частей речи.
- Ряды деревьев могут быть дополнены семантической или другой лингвистической информацией.
- Создание полностью вручную или полуавтоматически с проверкой и исправлением лингвистами.
-
Сложность и время создания
- Полная проверка и завершение синтаксического анализа занимают много времени у лингвистов.
- Уровень детализации аннотаций и широта лингвистической выборки влияют на сложность и время создания.
-
Типы древовидных банков
- Существуют базы данных, комментирующие структуру фраз (например, Penn Treebank) и структуры зависимостей (например, Prague Dependency Treebank).
-
Форматы файлов и представления
- Ряды деревьев строятся в соответствии с определенной грамматикой, но форматы файлов могут быть разными.
- Существуют разные форматы файлов, включая текстовые, XML-схемы и условные обозначения.
-
Применение в компьютерной лингвистике
- Древовидные базы данных используются для разработки систем обработки естественного языка.
- Автоматически проанализированные корпуса могут быть полезны для улучшения синтаксического анализатора.
- Древовидные структуры используются для изучения синтаксических и семантических явлений.
-
Семантические древовидные банки
- Семантические древовидные банки содержат предложения с аннотированным значением.
- Существуют различные уровни семантической аннотации, например, Гронингенский банк значений и PropBank.
-
Универсальные подходы к аннотациям
- Обсуждаются универсальные схемы аннотаций для кросс-языковых задач.
-
Инструменты поиска
- Инструменты поиска зависят от схемы аннотаций и могут быть сложными или простыми для пользователей.
-
Дополнительные ресурсы
- Ссылки на другие связанные темы, такие как текстовый корпус, грамматика структуры фраз и грамматика зависимостей.