3.6. Усовершенствование градиентного алгоритма обучения нейронной сети ВР.
При реализации градиентного алгоритма обучения нейронной сети ВР может проявиться ряд сложностей, присущих градиентным алгоритмам оптимизации:
Рис.1а |
Рис.1б |
1. Градиентный метод с коррекцией шага обучения (метод отката).
Для преодоления вышеуказанных трудностей, связанных с использованием градиентного метода, был разработан градиентный метод с коррекцией шага обучения. Здесь величина шага на (t+1)-ой итерации описывается следующим рекуррентным выражением:
(1)
Рекомендуется выбирать .
Коррекцию шага можно проводить, если проведено несколько последовательных шагов, например, t-2, t-1, t.
2. Метод с выбиванием из локальных минимумов (shock BP).
Этот метод используется в случае многоэкстремальной зависимости E(w) при необходимости поиска глобального минимума (см. рис.2).
Рис.2
В случае, если мы застряли в локальном минимуме и ошибка Е в течение длительного времени не меняется, то имеет смысл сделать большой шаг в случайном направлении , чтобы выскочить из данной пологой впадины и попасть в область притяжения другого минимума . Тогда
,
где равномерно распределена в интервале [-1;+1].
3. Метод с векторным шагом обучения (Super SAB).
Основной недостаток классического градиентного метода состоит в том, что шаг по всем направлениям одинаковый . Он не учитывает того обстоятельства, что по разным компонентам мы можем находиться на разном расстоянии от искомой точки минимума (т.е. по одним компонентам далеко, а по другим – близко).
Поэтому Almeida и da Silva разработали метод с векторным шагом поиска, который они назвали Super SAB. В этом методе поиск происходит согласно выражению
(2)
где (3)
Изменение весов происходит в соответствии с выражением
(4)
4. Автономный градиентный метод с аппроксимацией рельефа квадратичной функцией.
Пусть мы находимся в точке w(t). Вычисляем градиент и антиградиент и делаем два пробных шага:
Вычисляем . Далее, предполагая, что E(w) может быть аппроксимирована параболой, находим по трем точкам точку минимума.
Основной недостаток метода состоит в том, что функция E(w) может иметь значительно более сложный вид, и поэтому эту процедуру аппроксимации приходится повторять многократно, что требует больших вычислительных затрат.