Оглавление [Скрыть]
Функция взмаха
-
Определение функции swish
- Функция swish – это математическая функция с обучаемым параметром β или постоянным β = 1.
- При β = 1 функция swish эквивалентна сигмовидной линейной единице или SiLU.
-
История и открытия
- SiLU была повторно открыта как функция линейных единиц, взвешенных по сигмовидной форме, в обучении с подкреплением.
- Swish был предложен без обучаемого параметра β, но позже обновлен с обучаемым параметром.
-
Свойства функции swish
- При β = 0 функция swish становится масштабируемой линейной функцией.
- При β → ∞ функция swish приближается к функции ReLU.
- Swish можно рассматривать как функцию сглаживания между линейной функцией и функцией ReLU.
-
Применение функции swish
- В 2017 году Google обнаружил, что использование swish в искусственных нейронных сетях улучшает производительность по сравнению с ReLU и сигмоидом.
- Считается, что swish помогает устранить проблему исчезающего градиента при обратном распространении.
-
Рекомендации
- Обычно исследователи принимают β = 1, но можно использовать и обучаемый параметр β.
Полный текст статьи: