Кластерный анализ
Кластерный анализ
При проведении географических исследований, как правило, возникает проблема объединения по сходству (кластеризация) объектов, которые характеризуются множеством признаков, выраженных в разных единицах измерения. Для этой цели используется кластерный анализ. Поскольку кластерный анализ занимается классификацией объектов, а факторный исследует связи между ними, то оба метода дополняют друг друга и между ними иногда трудно провести четкие границы.
Методологические особенности кластерного анализа сводятся к выявлению единой меры, охватывающей ряд исследуемых признаков. Эти признаки объединяются с помощью метрики (расстояния) в один кластер сходства группируемых объектов.
Исследование нескольких аналогичных объектов (городов) обязывает проводить разбиение совокупности объектов на однородные группы, т. е. провести их классификацию по сходству признаков (х1, х2 …). Содержательная постановка задачи при кластерном анализе заключается в следующем. Имеется некоторая совокупность объектов, которые характеризуются рядом признаков. Объекты необходимо разбить на несколько кластеров (классов) таким образом, чтобы объекты из одного класса были сходными по характеризующих их признакам, например, сравнение ландшафтов, выявление сходных тенденций в развитии экономических субъектов.
В зависимости от специальности и природы используемых методов исследователи называют классификацию многомерных наблюдений как распознавание образов с учителем (численной таксономией), кластеранализом без учителя, дискриминантным анализом.
Таксономические методы классификации объектов основываются на выделении групп объектов наиболее близких в многомерном пространстве. Для определения степени сходства объектов вычисляются таксономические расстояния между ними. Если исследователь имеет перед собой образы будущих групп – обучающие выборки, то группировка выполняется методом дискриминантного анализа. При отсутствии обучающих выборок используется кластерный анализ (В. В. Глинский, В. Г. Ионин, 1998). В отличие от дискриминантного анализа (С. А. Айвазян и др., 1984), отсутствие классифицированных обучающих выборок в кластерном анализе значительно усложняет решение задачи классификации.
При относительной формализации методов кластерного анализа они носят эвристический (теоретический) характер, реализуют принцип здравого смысла. Для оценки сходства объектов по ряду признаков используют три типа мер:
• коэффициент подобия – для группировки объектов и признаков, если уровни показателей являются действительно целыми числами;
• коэффициенты связи – чаще применяются для группировки признаков с использованием коэффициента корреляции;
• показатели расстояния – характеризуют степень взаимной удаленности признаков и применяются в основном для кластеризации объектов; признаки объектов должны быть независимыми, что предварительно можно уточнить с помощью корреляционного анализа.
Многомерное наблюдение может быть интерпретировано геометрически в виде точки в многомерном пространстве. Геометрическая близость точек в пространстве означает близость физических состояний объектов, их однородность. Решающим в интерпретации остается выбор масштаба метрики, т. е. задание расстояния между объектами, которые объединяют или разъединяют объекты. В результате разбиения объектов на группы по сходству признаков образуются кластеры (таксоны, образы). Необходимость разбиений совокупности объектов на однородные группы возникает при проведении социальноэкономических, землеустроительных, географических исследований и т. д.
Выбор метрики (меры близости) является важнейшим моментом исследования, который определяет окончательный вариант разбиения объектов на группы. Это зависит от цели исследования, физической и статистической природы вектора наблюдений (х), полноты априорных сведений о характере вероятностного распределения х.
В задачах кластеранализа широко используются следующие метрики: Эвклида, Махаланобиса, Хемминга, меры близости задаваемые потенциальной функцией. Эвклидова метрика наиболее употребительна.
Эти метрики применяются в следующих случаях:
• наблюдения х извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей (совместное изменение двух признаков), где компоненты х взаимно независимы и имеют одинаковую дисперсию;
• компоненты х1, х2, … , хр вектора наблюдений х однородны по своему физическому смыслу и все важны;
• факторное пространство совпадает с геометрическим; понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве.
Таким образом, при решении задач классификации могут быть использованы разные меры сходства между объектами. Выбор метрики зависит от вида информации, характеризующей объекты в пространстве признаков и требует тщательного критического анализа.
Покажем на общих примерах основные приемы кластерного анализа. На основании данных, содержащихся в множестве х, необходимо разбить множество объектов I на т кластеров (подмножеств) так, чтобы каждый объект Ii принадлежал лишь одному подмножеству разбиения, а объекты, принадлежащие одному кластеру, были сходными. Объекты, принадлежащие разным кластерам, должны быть разнородными (несходными). Задача заключается в том, чтобы сгруппировать п стран по уровню развития с учетом природных факторов. Для выполнения поставленной задачи лучше подходит кластерный анализ, чем другие методы с использованием группировки.
При субъективном разбиении множества показателей на группы остается неизвестным, действительно ли такое разбиение оптимально. Еще не разработан удовлетворительный статистический критерий, который позволил бы оценить проведенное разбиение и принадлежность данного показателя к определенной группе. В практической работе исследователя это может привести к ошибке в таких сложных вопросах, как группировка ландшафтов, их классификация и районирование. Лишь проведение кластерного анализа на моделях с четкой структурой является наиболее объективным.
Число кластеров определяется в ходе разбиения имеющегося объема совокупности. При большом числе вариант в совокупности пользуются методом случайного отбора Общее рассеяние множества кластеров будет тем больше, чем выше доля допустимых разбиений. Находим необходимое число разбиений S в зависимости от значений вероятности Р и заданной доли допустимых разбиений в множестве всех возможных β.
В качестве меры разнородности рассматривается мера принадлежности. При решении задач кластерного анализа принимаются следующие условия: а) выбранные характеристики допускают желательное разбиение на кластеры; б) единицы измерения (масштаб) выбраны правильно (это обусловлено тем, что разбиение на кластеры зависит от выбора масштаба). Наиболее прямой способ решения задачи заключается в полном переборе всех возможных разбиений на кластеры и отыскании такого, которое ведет к оптимальному (минимальному) значению целевой функции. Целевая функция как критерий оптимальности представляет собой некоторый функционал, выражающий уровни возможности различных разбиений и группировок. Например, в качестве целевой функции может быть использована внутригрупповая сумма квадратов отклонений . Приведем пример кластеризации с помощью полного перебора (все возможные варианты сочетаний). Если число объектов п = 8, кластеров т = 4, то число возмож¬ных разбиений составляет 1701, т. е. существует 1701 способ разбить 8 объектов на 4 кластера (табл. 3.2). Число разбиений можно определить также по формуле .
Разбиение в конечном итоге должно удовлетворять критерию оптимальности, т. е. целевому функционалу (целевой функции).
Метод дендритов. Исследуемые объекты, разделенные на кластеры, можно изобразить в виде дендрограммы, которая представляет собой графическое изображение матрицы расстояний или сходства. Такой анализ объектов исследования носит название метода дендритов. Имея п объектов, можно построить большое количество дендрограмм, которые соответствуют избранной процедуре кластеризации. Для конкретной матрицы расстояний или сходства существует только одна дендрограмма.
Представим дендрограмму с шестью объектами (n = 6) (рис. 3.1). Объекты 1 и 3 наиболее близки, т. е. наименее удалены друг от друга, поэтому объединяются в один кластер на уровне сходства, равном 0,9 (образуют 1й шаг). Объекты 4 и 5 объединяются при уровне сходства 0,8 (2й шаг). На 3м и 4м шагах процесса образуются кластеры 1, 3, 6 и 5, 4, 2, соответствующие уровню сходства соответственно 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне сходства 0,5.
Вид дендрограммы зависит от выбора меры сходства или расстояния и метода кластеризации. Например, разработаны алгоритмы кластерного анализа, позволяющие проводить классификацию (группировку) многомерных наблюдений (строк и столбцов матрицы х) с помощью следующих мер сходства: выборочного коэффициента корреляции, модуля выборочного коэффициента корреляции, косинуса угла между векторами, модуля косинуса угла между векторами, эвклидова расстояния и т. д.
Выделяются группы взаимосвязанных признаков (см. рис. 3.2). Достоверно положительно связаны температура и содержание оксидов железа и гидрокарбонатиона. На среднем уровне положительно связаны влага, подвижные формы органического вещества и анаэробные бактерии. Еще одну группу образуют концентрация щелочноземельных элементов и углекислоты почвенного воздуха. Сравнение дендрограмм показывает, что изучаемые признаки хвойной и мелколиственной фации однотипны. Это свидетельствует о внутренней однородности протекающих в них процессов и подтверждает их генетическое единство. На залежи, как производной от природных ландшафтов, наблюдаются менее тесные связи между показателями внутри фации.
Комментарии
НАПИСАТЬ КОММЕНТАРИЙ