2.6. Агломеративный иерархический алгоритм кластер-анализа
Общая схема всех алгоритмов: формируется последовательность порогов , которая связана с построением дерева кластеризации. Начинается с кластеризации, при которой каждая точка есть отдельный кластер.
На первом шаге объединяются те точки, мера близости которых не превышает , т.е.
Прежде всего, для построения правила останова будет использовано понятие минимального дистанционного разбиения , где e-эталон.
Разбиение называется несмещенным, если это разбиение с точностью до множества меры нуль совпадает с минимальным дистанционным разбиением порождаемым векторами средних
Правильной кластеризацией называется несмещенное разбиение точек выборки на кластеры для которых выполняется следующие условия:
Описание алгоритма кластеризации
Начальный этап
Заданы последовательность , начальный набор средних
, где
, i=1..N. Начальное разбиение
, где
, i=1..N,
.
1-ая итерация:
На 2-ой итерации объединяем соседние кластеры, расстояние между которыми
r-ая итерация (r>1):
Продолжаем выполнять итерации до тех пор, пока не начнут выполнятся условие (то есть, когда расстояние между каждой парой кластеров не станет
)
Лемма Пусть для заданного кластера внутрикластерное расстояние (максимальному пороговому значению), тогда при реализации алгоритма суммы отклонений текущих средних (центров кластеров) на r-той итерации от некоторых истинных эталонных значений кластеров, которое определяется следующим образом:
Следствием этой леммы является теорема, устанавливающая достаточное условие сходимости к несмещенному разбиению .
Теорема: Пусть выборка допускает правильную кластеризацию относительно множества
, где
- центр кластера
, причем максимальное пороговое значение
находится в следующих пределах
, где
- максимальное внутрикластерное расстояние, а
- минимальное межкластерное расстояние при данном разбиении.
Тогда этот алгоритм за конечное число шагов сходится к несмещенному разбиению
, а центры
независимо от выбора значений
.
REM (здесь основным является выбор )
Если выборка не допускает правильной кластеризации, то данный алгоритм сходится к кластеризации
, в которой заданные центры классов являются наиболее представительными.