Этапы работ в кластерном анализе

Решение задач классификации объектов с использованием кластерного анализа проводится в определенной последовательности. Многомерный анализ делится на три этапа:

·  составляется таблица исходной информации с указанием объектов и их признаков;

·  проводится нормализация исходной информации с использованием среднего квадратического отклонения;

·  по нормализованным данным рассчитывается метрика, сроится дендрограмма и проводится содержательная интерпретация полученных результатов.

На первом этапе при формировании таблицы выбор объекта зависит от места и масштаба исследования. Каждый объект должен быть пространственно локализован и одного ранга (уровня). Показатели должны отражать существенные черты или свойства исследуемых объектов и характеризовать их всесторонне.

На втором этапе нормализация значений исходных показателей по объектам проводится потому, что исходные данные выражены обычно в разных единицах измерения и проводить между ними арифметические действия невозможно без перевода их в безразмерные единицы.

Наиболее распространенный способ нормализации показателей проводится с использованием среднего квадратического отклонения.

Составляется матрица нормализованных показателей.

На третьем этапе по нормализованным показателям рассчитывается метрика по одному из предложенных выше способов, учитывая условия задачи. Классификацию объектов производят приемами таксономического или факторного анализа. 

При количестве координат (показателей) в многомерном пространстве более трех графически интерпретировать таксономические расстояния невозможно. Поэтому таксономические расстояния определяют на основе функции расстояний. Чаще всего используется эвклидова метрика.

На основе матрицы таксономических расстояний производится группировка объектов с использованием разных приемов, из них наиболее распространенные – вроцлавская таксономия, дендро-дерево Берри, метод дендритов.

Вроцлавская таксономия

По матрице таксономических метрик (табл. 3.3) строится граф-дерево, вершинами которого будут объекты группировки.


Таблица 3.3 Матрица таксономических метрик

Объекты

A

B

C

D

E

F

G

H

I

J

A

0

1,15

5,05

4,22

3,54

3,30

2,56

3,62

3,10

1,67

B

1,15

0

6,41

4,53

3,81

3,84

2,99

4,53

3,88

2,63

C

5,05

6,41

0

4,04

4,82

4,06

4,83

3,07

4,34

4,14

D

4,22

4,53

4,04

0

1,66

1,68

2,34

2,80

2,99

4,02

E

3,54

3,81

4,82

1,66

0

0,96

1,34

2,76

2,26

3,72

F

3,30

3,84

4,06

1,68

0,96

0

1,11

1,80

1,51

3,22

G

2,56

2,99

4,83

2,34

1,34

1,11

0

2,24

1,38

3,01

H

3,63

4,53

3,07

2,80

2,76

1,80

2,24

0

1,33

3,09

I

3,10

3,88

4,34

2,99

2,26

1,54

1,38

1,33

0

3,18

J

1,67

2,63

4,14

4,02

3,76

3,22

3,01

3,09

3,18

0

 Порядок построения графа следующий (рис. 3.3). В каждом столбце или ряде зеркальной матрицы (по диагонали нули) находится минимальная величинам метрики. Вначале откладывается в выбранном масштабе наименьшая среди метрик матрицы между объектами (ЕF = 0,96). Затем последовательно к отложенным объектам откладываем минимальные метрики других столбцов-объектов: FG = 1,11, ED = 1,66, GI = 1,38, IH= =1,36, HC = 3,07, GA = 2,56, AB = 1,15, AJ = 1,67. Метрика используется только один раз. Если при построении графа на нем образуется замкнутый цикл, то замыкающее ребро цикла во внимание не принимается и вместо него откладывается ребро, которое отвечает другой минимальной метрике в данном столбце матрицы.

После построения графа с нанесением всех объектов проводится группировка (классификация) объектов. Задается определенная величина таксономической метрики, которая является основой классификации.

Рис. 3.3. Вроцлавский дендрит

 

Таким образом граф разбивается на подграфы, в пределах которых объекты должны располагаться компактно (близко друг к другу) (см. рис. 3.3). В конце дается интерпретация полученных результатов с учетом исходной таблицы первоначальных данных. Чем меньшая метрика объединяет объекты на графе, тем более близкие по своим значениям исходные показатели в этих объектах.

10 декабря 2012 /
Похожие новости
Классификация с использованием графов
Методы теории графов
Факторный анализ.Сущность и возможности применения
Метод дендро-дерева Б. Берри
Кластерный анализ
Комментарии

НАПИСАТЬ КОММЕНТАРИЙ

Ваше Имя:
Ваш E-Mail:
Полужирный Наклонный текст Подчеркнутый текст Зачеркнутый текст | Выравнивание по левому краю По центру Выравнивание по правому краю | Вставка смайликов Выбор цвета | Скрытый текст Вставка цитаты Преобразовать выбранный текст из транслитерации в кириллицу Вставка спойлера
Вопрос:
Столица России?
Ответ:*
Введите код: