4.1. Основные принципы и общая схема метода.

Он предложен в конце 60-х - 70-х академиком А.Г.Ивахненко (ИК АН УССР).

Этот метод использует идеи самоорганизации и механизмы живой природы – скрещивание (гибридизацию) и селекцию (отбор).


рис 4.1

По результатам наблюдений надо определить F(x). Причем даже структура модели F(x) неизвестна.

Пусть имеется выборка из N наблюдений:

Наиболее полная зависимость между входами X(i) и выходами Y(i) может быть представлена с помощью обобщенного полинома Колмогорова-Габора.

Пусть есть , тогда такой полином имеет вид:

где все коэффициенты а не известны.

При построении модели (при определении значений коэффициентов) в качестве критерия используется критерий регулярности (точности):

Нам надо .

Принцип множественности моделей: существует множество моделей на данной выборке, обеспечивающих нулевую ошибку (достаточно повышать степень полинома модели). Т.е. если имеется N узлов интерполяции, то можно построить целое семейство моделей, каждая из которых при прохождении через экспериментальные точки будет давать нулевую ошибку

Обычно степень нелинейности берут не выше n-1, если n - количество точек выборки.

Обозначим S – сложность модели (определяется числом членов полинома Колмогорова-Габора).

Значение ошибки зависит от сложности модели. Причем по мере роста сложности сначала она будет падать, а затем расти. Нам же нужно выбрать такую оптимальную сложность, при которой ошибка будет минимальна. Кроме того, если учитывать действие помех, то можно выделить следующие моменты:

  1. При различном уровне помех зависимость от сложности S будет изменяться, сохраняя при этом общую направленность (имеется ввиду, что с ростом сложности она сначала будет уменьшаться, а затем – возрастать).
  2. При увеличении уровня помех величина будет расти.
  3. С ростом уровня помех, будет уменьшаться (оптимальное значение сложности будет смещаться влево) см.рис 4.2 Причем , если уровень помех не нулевой.


рис 4.2

Теорема неполноты Гёделя: В любой формальной логической системе имеется ряд утверждений и теорем, которые нельзя ни опровергнуть, ни доказать, оставаясь в рамках этой системы аксиом.

В данном случае эта теорема означает, что выборка всегда неполна.

Один из способов преодоления этой неполноты – принцип внешнего дополнения. В качестве внешнего дополнения используется дополнительная выборка (проверочная), точки которой не использовались при обучении системы (т.е. при поиске оценочных значений коэффициентов полинома Колмогорова-Габора).

Поиск наилучшей модели осуществляется таким образом:

отбираются лучшие модели.

Входной вектор имеет размерность N .

Принцип свободы выбора (неокончательности промежуточного решения):

  1. Для каждой пары строятся частичные описания (всего ) вида:
  2. Определяем коэффициенты этих моделей по МНК, используя обучающую выборку. Т.е. находим .
  3. Далее на проверочной выборке для каждой из этих моделей ищем оценку
    (где - действительное значение выходное значение в k-той точке проверочной выборки; - выходное значение в k-той точке проверочной выборки в соответствии с s-той моделью) и определяем F лучших моделей.

    рис 4.3
    Выбранные подаются на второй ряд. Ищем
    Оценка здесь такая же, как на первом ряде. Отбор лучших осуществляется опять так же, но .
    Процесс конструирования рядов повторяется до тех, пока средний квадрат ошибки будет падать. Когда на слое m получим увеличение ошибки ,то прекращаем.

Если частичные описания квадратичные и число рядов полинома S, то получаем, что степень полинома k=2S.

В отличие от обычных методов статистического анализа, при таком подходе можно получить достаточно сложную зависимость, даже имея короткую выборку.

Есть проблема: на первом ряде могут отсеяться некоторые переменные , которые оказывают влияние на выходные данные.

В связи с этим предложена такая модификация: на втором слое подавать , т.е.:

.
Это важно при большем уровне помех, чтобы обеспечить несмещенность.

Возникает два способа отбора лучших кандидатов частичных описаний передаваемых на определенном слое.

  1. Критерий регулярности (точности)
  2. Критерий несмещенности. Берем всю выборку, делим на две части R=+
    Первый эксперимент: - обучающая выборка, - проверочная; определяем выходы модели ,i=1..R
    Второй эксперимент: - обучающая выборка, - проверочная; определяем выходы модели , i=1..R
    и сравниваем. Критерий несмещенности:

Чем меньше , тем более несмещенной является модель.

Такой критерий определяется для каждого частичного описания первого уровня и затем находится для уровня в целом

для F лучших моделей. В ряде вариантов F=1. Такое же самое на втором слое .

И процесс селекции осуществляется до тех пор, пока этот критерий не перестанет уменьшаться, т.е. до достижения условия

Применение МГУА для задач оперативного прогноза.

Пусть есть выборка наблюдений

, где n=1,2…

Нужно построить прогнозирующий полином. В качестве Y выбираем

Вопрос в выборе шаблона для прогноза, какие переменные включить в модель. Значения надо предсказать по известным значениям в точках . По сути, строим .


рис 4.4


рис 4.5

Поскольку речь идет о прогнозировании полей, то можем использовать шаблон, использующий значение концентрации в соседних точках с q[n]

.


рис 4.6

Проблема состоит в выборе наиболее подходящего шаблона. Перебор по всем шаблонам требует больших затрат. Поэтому обычно ограничиваются только перспективными кандидатами, и тогда число шаблонов становится ограниченным.


рис 4.7

Далее с помощью МГУА осуществляется выбор прогнозирующего полинома.

Достоинства

  1. Можно восстановить неизвестную сколь угодно сложную зависимость по ограниченной выборке. Число неизвестных параметров модели может быть больше, чем число точек обучающей последовательности.
  2. Возможность адаптации параметров модели при получении новых данных экспериментов. (Используя РМНК)

Алгоритм самоорганизации МГУА и его применение в задачах прогнозирования и РО.

Многорядный МГУА. Существует два подхода при выборе частных описаний и построения МГУА.

  1. Точностной
  2. Робастный

При первом подходе в алгоритме МГУА при выборе описаний используется критерий регулярности последовательности или точностной критерий, который определяется следующим образом

Обучение происходит на выборке А, проверка на В, где

- фактический выход на выборке В

- предсказание по модели.

Этот критерий достаточно хорош и применяется на практике. Первый подход используется для получения наиболее точной модели по выборке данных.

В основе робастного подхода лежит применение дифференциального критерия непротиворечивости

где , - это выходы модели по выборке А и В.

Этот критерий - критерий согласованности моделей, хорош при зашумленных данных.

Чтобы получить наиболее острый глубокий минимум по этому критерию выборки А и В выбираются так, чтобы выполнялось условие

и их дисперсии были примерно одинаковы, а взаимная дисперсия была как можно больше.

Следующий вопрос о выборе предикатов (переменных), которые вводятся в модель.

Прежде всего, для каждого – вектор-столбец (некоторое наблюдение). Все переменные нормализируются:

Мы определяем предварительные коэффициенты корреляции наблюдений с выходом

Далее проверяем гипотезу о том, что коэффициент корреляции отличен от нуля.

В модель выбираем те переменные, для которых , где - некоторый порог. Если есть необходимость исследовать нестационарные процессы можно использовать подход с выделением трендов.