4.1. Основные принципы и общая схема метода.
Он предложен в конце 60-х - 70-х академиком А.Г.Ивахненко (ИК АН УССР).
Этот метод использует идеи самоорганизации и механизмы живой природы – скрещивание (гибридизацию) и селекцию (отбор).
По результатам наблюдений надо определить F(x). Причем даже структура модели F(x) неизвестна.
Пусть имеется выборка из N наблюдений:
Наиболее полная зависимость между входами X(i) и выходами Y(i) может быть представлена с помощью обобщенного полинома Колмогорова-Габора.
Пусть есть , тогда такой полином имеет вид:
где все коэффициенты а не известны.
При построении модели (при определении значений коэффициентов) в качестве критерия используется критерий регулярности (точности):
Принцип множественности моделей: существует множество моделей на данной выборке, обеспечивающих нулевую ошибку (достаточно повышать степень полинома модели). Т.е. если имеется N узлов интерполяции, то можно построить целое семейство моделей, каждая из которых при прохождении через экспериментальные точки будет давать нулевую ошибку
Обозначим S – сложность модели (определяется числом членов полинома Колмогорова-Габора).
Значение ошибки зависит от сложности модели. Причем по мере роста сложности сначала она будет падать, а затем расти. Нам же нужно выбрать такую оптимальную сложность, при которой ошибка будет минимальна. Кроме того, если учитывать действие помех, то можно выделить следующие моменты:
Теорема неполноты Гёделя: В любой формальной логической системе имеется ряд утверждений и теорем, которые нельзя ни опровергнуть, ни доказать, оставаясь в рамках этой системы аксиом.
В данном случае эта теорема означает, что выборка всегда неполна.
Один из способов преодоления этой неполноты – принцип внешнего дополнения. В качестве внешнего дополнения используется дополнительная выборка (проверочная), точки которой не использовались при обучении системы (т.е. при поиске оценочных значений коэффициентов полинома Колмогорова-Габора).
Поиск наилучшей модели осуществляется таким образом:
Входной вектор имеет размерность N .
Принцип свободы выбора (неокончательности промежуточного решения):
Если частичные описания квадратичные и число рядов полинома S, то получаем, что степень полинома k=2S.
В отличие от обычных методов статистического анализа, при таком подходе можно получить достаточно сложную зависимость, даже имея короткую выборку.
Есть проблема: на первом ряде могут отсеяться некоторые переменные , которые оказывают влияние на выходные данные.
В связи с этим предложена такая модификация: на втором слое подавать , т.е.:
Возникает два способа отбора лучших кандидатов частичных описаний передаваемых на определенном слое.
Чем меньше , тем более несмещенной является модель.
Такой критерий определяется для каждого частичного описания первого уровня и затем находится для уровня в целом
И процесс селекции осуществляется до тех пор, пока этот критерий не перестанет уменьшаться, т.е. до достижения условия
Применение МГУА для задач оперативного прогноза.
Пусть есть выборка наблюдений
, где n=1,2…
Нужно построить прогнозирующий полином. В качестве Y выбираем
Вопрос в выборе шаблона для прогноза, какие переменные включить в модель. Значения надо предсказать по известным значениям в точках
. По сути, строим
.
Поскольку речь идет о прогнозировании полей, то можем использовать шаблон, использующий значение концентрации в соседних точках с q[n]
.
Проблема состоит в выборе наиболее подходящего шаблона. Перебор по всем шаблонам требует больших затрат. Поэтому обычно ограничиваются только перспективными кандидатами, и тогда число шаблонов становится ограниченным.
Далее с помощью МГУА осуществляется выбор прогнозирующего полинома.
Достоинства
Алгоритм самоорганизации МГУА и его применение в задачах прогнозирования и РО.
Многорядный МГУА. Существует два подхода при выборе частных описаний и построения МГУА.
При первом подходе в алгоритме МГУА при выборе описаний используется критерий регулярности последовательности или точностной критерий, который определяется следующим образом
Обучение происходит на выборке А, проверка на В, где
- фактический выход на выборке В
- предсказание по модели.
Этот критерий достаточно хорош и применяется на практике. Первый подход используется для получения наиболее точной модели по выборке данных.
В основе робастного подхода лежит применение дифференциального критерия непротиворечивости
где ,
- это выходы модели по выборке А и В.
Этот критерий - критерий согласованности моделей, хорош при зашумленных данных.
Чтобы получить наиболее острый глубокий минимум по этому критерию выборки А и В выбираются так, чтобы выполнялось условие
и их дисперсии были примерно одинаковы, а взаимная дисперсия была как можно больше.
Следующий вопрос о выборе предикатов (переменных), которые вводятся в модель.
Прежде всего, для каждого – вектор-столбец (некоторое наблюдение). Все переменные нормализируются:
Мы определяем предварительные коэффициенты корреляции наблюдений с выходом
Далее проверяем гипотезу о том, что коэффициент корреляции отличен от нуля.
В модель выбираем те переменные, для которых , где
- некоторый порог. Если есть необходимость исследовать нестационарные процессы можно использовать подход с выделением трендов.