Информационный анализ

Информационный анализ

Научно-техническая революция привела к ускоренному росту объема информации в различных областях науки, включая географию. Математическая теория информации возникла, когда появилась потребность в оценке количества передаваемых сведений. Первоначально она опиралась на отдельные положения теории вероятности; постепенно вырабатывалась собственная методика, определялся свой круг задач. На современном этапе развития теория информации ставит своей целью оценку объема информации, выявление разнообразия в природе, установление различия и сходства в этом разнообразии.

По теории вероятности информацию содержат лишь такие данные, которые устраняют существующую до их получения неопределенность. Однако не всегда приходится использовать информацию вероятностного характера, например в картографии, где обычно имеют дело с определенными данными. Это привело к разработке иных подходов в теории информации: комбинаторного и алгоритмического. Комбинаторный подход рассматривает количество информации как функцию числа элементов в конечной совокупности. Он широко используется, например, при измерении объема картографической информации. Алгоритмический подход определяет количество информации как минимальную длину программы, которая позволяет однозначно преобразовать один объект в другой.

Существует также представление об информации как о мере разнообразия. В целом разнообразие связано с различием, т. е. с отрицанием неразличимости. Простейшей единицей измерения информации является элементарное различие – различие двух объектов. Чем больше в совокупности попарно различных элементов, тем больше она содержит информации. Если рассматриваемые объекты отождествляются, то информация исчезает.

Информационный анализ применяется в некоторых областях географии при соответствующих условиях. В настоящее время разработан способ определения количества информации, содержащейся в рельефе, подсчитан объем информации субаквального биоценоза; ведутся поиски критерия связи на примерах зависимости между физическими свойствами горных пород, климатом и растительностью, компонентами и структурными частями биогеоценозов. Теория информации помогла разработать критерий пространственной дифференциации и однородности. Информационный анализ предпочтительнее использовать для выявления закономерностей в общих, а не частных явлениях.

Весь процесс информационного анализа изучаемого явления можно разбить на следующие этапы.

Предварительный этап. При сборе материалов необходимо, чтобы сопоставляемые факторы и явления территориально и во времени соответствовали друг другу во избежание неслучайных ошибок, которые могут привести к возникновению «шума». Факторы и явления должны быть представлены возможно большим числом своих состояний. Они объединяются в более широкие классы в процессе анализа.

Анализ информации. После подготовки материала к обработке оценивается связь изучаемого явления с каждым из возможных факторов, из них отбираются наиболее информативные. Рассчитываются попарные каналы связи. Оценивается общая информативность всей совокупности выбранных факторов. Определяется величина «новой информации» и размеры косвенной связи.

Процесс моделирования и его оценка. На основе анализа частных каналов связи в сопоставлении с общими строится логическая функция зависимости явлений от совокупности факторов. Оценивается ошибка распознаваний явления по величине «шума» и для составленной логической функции. Проверку достоверности анализа целесообразно проводить и после построения частных каналов связей. Если логическая функция недостаточно полно описывает изменения состояний явления (по распределению ошибок), пытаются найти дополнительные факторы, которые смогли бы улучшить распознающую систему.

Прогноз. Если в анализ вошли материалы с достаточным разнообразием состояний и собранные на значительной территории, то прогноз можно осуществить для любой точки, характеристики которой соответствуют состояниям факторов, включенных в анализ.

Преимущество информационных методов заключается в том, что они, в отличие от статистического, не требуют применения закона нормального распределения, линейности связей, независимости признаков, метричности и упорядоченности. 

С практической точки зрения важно уметь численно оценивать степень неопределенности проводимых исследований (энтропия), чтобы их сравнить между собой. Степень неопределенности каждого опыта выражается числом К, поэтому искомая численная характеристика степени неопределенности должна являться функцией числа К. Для К=1 (неопределенность полностью отсутствует) функция должна обращаться в нуль и возрастать при увеличении числа К.

За меру неопределенности опыта (показатель энтропии), имеющего К равновероятных исходов, принято число lg К. Чаще всего пользуются логарифмами при основании два (f(K) = log2К). В данном случае за единицу измерения степени неопределенности принимается неопределенность опыта, имеющая два равновероятных исхода (например, при подбрасывании монеты равная вероятность появления орла или решки). Такая единица измерения неопределенности называется двоичной единицей (бит). Если пользоваться десятичными логарифмами, то за единицу степени неопределенности принимается неопределенность опыта, имеющего 10 равновероятных исходов. Такая десятичная единица примерно в 3,32 раза крупнее двоичной единицы (log2 K ≈ 3,32).

Для перевода десятичных единиц в биты полученную величину делят на log 2 = 0,30103.

При применении натуральных логарифмов энтропия выражается в нитах. Если величина энтропии получена с применением натуральных логарифмов, а ее требуется перевести в биты, т. е. в двоичную систему, то этот расчет осуществляется путем деления величины в нитах на ln 2 = = 0,69315.

Чтобы перевести логарифм числа х с основанием b в логарифм с основанием а, используется формула

logax = logbx / logba                                             (4.1)

Форма представления вероятности для опыта, имеющего К равновероятных исхода, имеет следующий вид:

исход опыта А1    А2  …  АK

вероятность 1/K  1/K …  1/K

Поскольку общая неопределенность опыта равна lg К, то каждый отдельный исход, имеющий вероятность 1/К, вносит неопределенность, равную (1/К) lg K = (–1/К) lg 1/К. Аналогично этому для опыта α мера неопределенности вытекает из таблицы вероятности:

исход опыта    А1       А2   …  АK

вероятность P(A1)  P(A2)  …  P(AK)

и равна – P(A1)lgP(A1) – P(A2)lgP(A2) – … – P(AK)lgP(AK).

Приведенное выражение называют энтропией опыта α и обозначают через Н (α).

Энтропия характеризуется следующими свойствами. Ее величина не принимает отрицательных значений. Так как 0≤ P(A)≤1, то lg P(A) не может быть положительным, а – P(A1)lgP(A1) – отрицательным. При Р→0 произведение Р ∙ lg Р убывает, поэтому .

Если P(Ai) представляет собой большую величину (близ­кую к единице), то член  P(Ai)lgP(Ai)будет невелик, так как при Р→1   lg Р→0. В области между вероятностями P = 0,2 и P = 0,6 функция P lg P принимает наибольшие значения и соответствующая кривая меняется на графике сравнительно плавно (рис. 4.1). Поэтому в данной ситуации существенные изменения выроятности мало отражаются на величине энтропии.

 

 Рис. 4.1. Значение функции –Р lg Р

 

Пример. Предположим, что для г. Минска вероятность того, что 1 июля выпадут осадки, равна 0,4, а вероятность того, что дождя не будет – 0,6 (опыт α1); вероятность того, что в г. Минске 1 ноября пройдет дождь – 0,65, вероятность того, что выпадет снег – 0,15 и вероятность того, что 1 ноября вовсе не будет осадков – 0,2 (опыт α2). В какой из двух указанных дней погоду следует считать более неопределенной?

Опыты α1 и α2 по выяснению состояния погоды представим следующим образом:

Опыт α1

                                                                                                                  исход опыта             дождь             без дождя

                                                                                                                  вероятность                0,40                  0,60

Опыт α2

 исход опыта          дождь             снег         без дождя

вероятность             0,65               0,15                 0,20

Энтропия обоих опытов равна

H 1) = – 0,4 lg 0,4 – 0,6 lg 0,6 ≈ 0,292;

H 2) = – 0,65 lg 0,65 – 0,15 lg 0,15 – 0,2 lg 0,2 ≈ 0,385.

Поскольку величина энтропии в опыте α2 больше величины энтропии в опыте α1 погоду 1 ноября в г. Минске следует считать более неопределенной, чем 1 июля. При этом учитывается процент случаев, когда прогноз оправдывается: вероятность Р = =0,4  = 40%, P = 0,6 = 60% и т. д.

При сравнении опытов заключение представляет интерес для оценки качества предсказания явлений.

10 декабря 2012 /
Похожие новости
Сглаживание динамических рядов
Факторный анализ.Сущность и возможности применения
Показатели неопределенности объектов
Оценка статистических параметров по выборочным данным
Элементы математической статистики
Комментарии

НАПИСАТЬ КОММЕНТАРИЙ

Ваше Имя:
Ваш E-Mail:
Полужирный Наклонный текст Подчеркнутый текст Зачеркнутый текст | Выравнивание по левому краю По центру Выравнивание по правому краю | Вставка смайликов Выбор цвета | Скрытый текст Вставка цитаты Преобразовать выбранный текст из транслитерации в кириллицу Вставка спойлера
Вопрос:
Сколько часов 1 сутках?
Ответ:*
Введите код: