2.6. Агломеративный иерархический алгоритм кластер-анализа
Общая схема всех алгоритмов: формируется последовательность порогов , которая связана с построением дерева кластеризации. Начинается с кластеризации, при которой каждая точка есть отдельный кластер.
На первом шаге объединяются те точки, мера близости которых не превышает , т.е.
Прежде всего, для построения правила останова будет использовано понятие минимального дистанционного разбиения , где e-эталон.
Разбиение называется несмещенным, если это разбиение с точностью до множества меры нуль совпадает с минимальным дистанционным разбиением порождаемым векторами средних
Правильной кластеризацией называется несмещенное разбиение точек выборки на кластеры для которых выполняется следующие условия:
Описание алгоритма кластеризации
Начальный этап
Заданы последовательность , начальный набор средних , где , i=1..N. Начальное разбиение , где , i=1..N, .
1-ая итерация:
На 2-ой итерации объединяем соседние кластеры, расстояние между которыми
r-ая итерация (r>1):
Продолжаем выполнять итерации до тех пор, пока не начнут выполнятся условие (то есть, когда расстояние между каждой парой кластеров не станет )
Лемма Пусть для заданного кластера внутрикластерное расстояние (максимальному пороговому значению), тогда при реализации алгоритма суммы отклонений текущих средних (центров кластеров) на r-той итерации от некоторых истинных эталонных значений кластеров, которое определяется следующим образом:
Следствием этой леммы является теорема, устанавливающая достаточное условие сходимости к несмещенному разбиению .
Теорема: Пусть выборка допускает правильную кластеризацию относительно множества , где - центр кластера , причем максимальное пороговое значение находится в следующих пределах , где - максимальное внутрикластерное расстояние, а - минимальное межкластерное расстояние при данном разбиении.
Тогда этот алгоритм за конечное число шагов сходится к несмещенному разбиению , а центры независимо от выбора значений .
REM (здесь основным является выбор )
Если выборка не допускает правильной кластеризации, то данный алгоритм сходится к кластеризации , в которой заданные центры классов являются наиболее представительными.