Оглавление
Дистилляция знаний
-
Основы дистилляции знаний
- Дистилляция знаний – это процесс обучения меньшей сети на основе знаний, извлеченных из большой сети.
- Дистилляция знаний используется для уменьшения размера модели без потери точности классификации.
-
Применение дистилляции знаний
- Дистилляция знаний применяется в задачах классификации изображений, где она может улучшить результаты.
- Она также связана с концепцией поведенческого клонирования.
-
Формулировка дистилляции знаний
- Дистилляция знаний включает обучение меньшей сети на основе набора данных transfer set с использованием перекрестной энтропии.
- Высокая температура в softmax-функции увеличивает энтропию и обеспечивает более высокую скорость обучения.
-
Связь с сжатием модели
- Сжатие модели является частным случаем дистилляции знаний, где градиент потери эквивалентен сопоставлению логитов двух моделей.
-
Рекомендации
- В статье приведены рекомендации по форматированию и использованию дистилляции знаний в контексте парсера Википедии.