Статистические критерии различия

Статистические критерии различия

Проведение географических исследований предполагает не только изучение строения, развития, закономерностей распространения исследуемых объектов, явлений, но и установление сходства или различия между одноименными генеральными совокупностями изучаемых систем. Это зависит от условий, в которых протекает один и тот же процесс. Сопряженный анализ одноименных признаков в выборках используется для классификации и районирования по одному или нескольким параметрам. При этом возникает необходимость применения объективного метода выделения классификационных групп или районов на основе методов математической статистики с использованием критериев достоверности. Если достоверность различия между выборочными совокупностями доказана, то генеральные совокупности, сравниваемые по какому-либо признаку, выделяют как самостоятельные. В случае отсутствия достоверных различий их объединяют в одну группу.

Различие между двумя выборками устанавливается с помощью ряда критериев: t – распределение Стьюдента, наименьшего существенного различия (НСР), F – распределения Фишера, критерия соответствия (χ2).

Каждый из критериев применяется при определенных условиях, которые задаются целью исследования. Несоблюдение указанных условий может привести к ошибочным выводам.

Прежде, чем приступать к статистической обработке и расчету критериев различия, следует убедиться в отсутствии артефакта в сравниваемых выборках. Если в малых совокупностях распределение нормально, то для установления артефакта достаточно использовать правило трех сигм. Согласно этому правилу, в пределах М±3σ находится 99,7 % всех вариант выборки. Если крайние варианты попадают в этот интервал, то они включаются в статистическую выборку, так как не являются артефактом. Наличие артефакта можно проверить по формулам (1.1, 1.2).

Критерий Стьюдента. Используется для оценки сходства или различия между выборочными совокупностями по разности величин их средних арифметических (d = Mбольшая – Мменьшая) и ее отношения к ошибке этой разности (md) при условии распределения вариант в группах по закону нормального распределения и подтверждается равенство разброса вариант в выборке (близкие дисперсии сравниваемых выборок). Не допускается применения критерия в случае балльного характера сравниваемых числовых признаков.

Выбор конкретной методики оценки различий по критерию Стьюдента зависит от учета следующих особенностей выборочных совокупностей: сравниваются средние арифметические в независимых (несвязанных) выборках; различия устанавливаются в сопряженных (парных) выборках; устанавливается различие между выборочными и генеральными средними (теоретическими стандартами).

Независимые статистические совокупности могут быть получены на одном или нескольких объектах, но при одинаковых условиях проведения эксперимента: например, измерение температуры воздуха в январе в г. Бресте на протяжении нескольких лет и установление достоверных различий между этими показателями по годам исследований; сравнение экономического показателя в хозяйстве или на предприятии по пятилеткам между собой; сравнение чистого дохода в хозяйствах с одинаковым экономическим развитием, но расположенных на значительном расстоянии. При сравнении независимых выборочных совокупностей объемы выборок могут быть одинаковы (N1 = N2) или разные (N1N2). В двух сравниваемых независимых выборках с одинаковым или разным объемом наблюденийстепень свободы определяется по формуле: ν = (N1–1)  + (N2 – 1) = N1 + N2 – 2.

При малых объемах независимых совокупностей, если дисперсии сравниваемых выборок нельзя считать одинаковыми.

Сопряженные статистические совокупности получают на одном илина разных объектах, но в разных условиях. Например, сравнение температуры воздуха в июле и январе г. Могилева; сравнение прибыли фермерских и подсобных хозяйств в любом районе или фермерских хозяйств Витебской и Гомельской области. Объем сравниваемых выборок должен быть одинаков (N1 = N2). Определение степени свободы для сопряженных выборок определяется как: ν = Nпар – 1.

Ошибка разности между средними выборок (md) в зависимости от вида наблюдений (независимые, сопряженные) и объема наблюдений рассчитывается по разным формулам. Рассмотрим их ниже.

Сопоставляя критерий Стьюдента вычисленный с табличным устанавливают или отвергают с некоторой долей уверенности различия между средними арифметическими выборок.

Пример. При исследовании глубины расчленения рельефа в Северной (х1) и Центральной (х2) провинци Беларуси необходимо установить, объединять их в один геоморфологический район по степени расчленения рельефа или различать их как самостоятельные. Исходные данные и их обработка приводятся в табл. 1.5. Из полученной информации по средним арифметическим  различие по глубине расчленения рельефа можно признать как существенным, так и несущественным. Для объективных выводов используем критерий Стьюдента.

 

Таблица 1.5 Форма обработки вариант в независимых совокупностях

20

3,4

11,56

17

1,8

3,24

17

0,4

0,16

16

0,8

0,64

16

–0,6

0,36

15

–0,2

0,04

15

–1,6

2,56

14

–1,2

1,44

15

–1,6

2,56

14

–1,2

1,44

83

0

17,20

76

0

∑ 6,80

= 16,6

 

 

= 15,2

 

 

 

Сопоставляем табличные значения критерия Стьюдента 2.31 и 3,36 (см. приложение 4) при Р = 0,95 и 0,99 для степени свободы ν = 8 с фактическим (расчетным) tф = 1,17. Поскольку tт(2,31 и 3,36) > tф (1,17) при обоих уровнях значимости, то разность между средними признается недостоверной (несущественной). При выделении геоморфологических районов по глубине расчленения рельефа их объединяют.

Вариант второй. Сравниваемые независимые совокупности имеют различие по объему (N1N2). Порядок вычисления критерия Стьюдента такой же, как и при установлении достоверности в независимых выборках с одинаковым числом наблюдений.

Пример для сопряженных наблюдений. Сравним глубину расчленения рельефа в пределах конечно-моренного (х1) и донно-моренного (х2) ландшафта. Для обработки данных составляем исходную табл. 1.6.

Таблица 1.6

Форма обработки данных сопряженных наблюдений

di

di2

did

(did)2

20

17

3

9

+1,6

2,56

17

16

1

1

–0,4

0,16

16

15

1

1

–0,4

0,16

15

14

1

1

–0,4

0,16

15

14

1

1

0,4

0,16

∑83

∑76

∑7

∑13

∑0

∑3,20

= 16,6

= 15,2

 

 

 

 

d = 1,4

 

 

 

 

 

Число пар в выборках Nп = 5. Разность между средними арифметическими сопряженных выборок d = 16,6 – 15,2 = 1,4.

Результаты расчетов по приведенным формулам не выявили расхождений. Критерий Стьюдента получим следующий: t = 1,4 / 0,40 = 3,5. Число степеней свободы ν = Nn – 2 = 5 – 2 = 3. Для ν = 3 при Р 0,95 и 0,99 табличное значение критерия Стьюдента 3,18 и 5,84 соответственно (см. прил. 4). Поскольку tф > tт при Р0,95, то различие по глубине расчленения рельефа в сравниваемых ландшафтах признается существенным. Такие ландшафты образуют самостоятельные группы.

Если при проведении эксперимента не учитывать сопряженность и независимость выборок, то можно получить противоположный вывод.

При сравнении средних, полученных на основе большого объема наблюдений при соблюдении нормального распределения, определение достоверности и различий средних можно выполнить упрощенно:

(M1M2)2/ (m12 + m22)≥9.

Различия средних арифметических можно считать статистически достоверными, если получена величина 9 и более, если меньше – недостоверными. Пример нахождения сходства и отличия выборок с помощью критерия Стьюдента в MS Excel приведен в прил. 10.

Наименьшая существенная разность (НСР). Используется в дисперсионном анализе. Она показывает то минимальное различие между средними, начиная с которого при выбранном уровне вероятности средние сравниваемые показатели существенно отличаются друг от друга. Величина критерия выражается в тех же единицах, что и сравниваемые средние выборочных совокупностей и определяется по формуле:

НСР = tтаблmd ,(1.24)

где md – ошибка разницы средних; tтабл – табличное значение критерия Стьюдента при уровне вероятности 0,95 или 0,99 и степени свободы, определяемой экспериментом.

Если разность между сравниваемыми средними в условиях эксперимента больше или равна величине НСР при Р 0,95 или 0,99, то различие сущеcтвенно. Используя предыдущий пример по глубине расчленения рельефа, проверим достоверность разницы между средними арифметическими с использованием критерия НСР для случаев независимого и сопряженного наблюдений по формуле (1.24):

НСР0,95 = 2,31 ∙ 1,40 = 3,23 м; НСР0,99 = 3,36 ∙ 1,40 = 4,70 м (для независимых наблюдений);

НСР0,95 = 3,18 ∙ 0,40 = 1,27 м; НСР0,99 = 5,84 ∙ 0,40 = 2,33 м (для сопряженных наблюдений.

Разница между средними арифметическими глубины расчленения рельефа при независимых и сопряженных наблюдениях одна и та же (1,4 м). Сравнивая ее с величиной НСР, приходим к тем же выводам. что и при использовании критерия Стъюдента.

Критерий Фишера. В выборочных совокупностях дисперсии могут существенно отличаться друг от друга. В таких случаях установление различий между выборочными совокупностями проводится по критерию Фишера (F – положительное асимметричное распределение). Расчет производится по формуле:

F = σ2большая/ σ2меньшая                                                 (1.25)

Если величина расчетного критерия Фишера (Fф)не превышает величины приведенного в таблице (Fт)(прил. 5), то различие между сравниваемыми дисперсиями считается недостоверным. При Fф > Fтэти дисперсии достоверно различны, как и сравниваемые по ним генеральные совокупности. Степень свободы рассчитывается для сравниваемых выборок отдельно по формуле ν = N – 1.

Пример. Необходимо установить достоверность различия в содержании гумуса в дерново-подзолистой заболоченной суглинистой почве для северной (x1) и центральной (x2) провинций Беларуси. Объем выборочных совокупностей одинаков (N1, N2).  Сравниваемые совокупности весьма сходны и можно констатировать отсутствие различия между ними. Однако пределы колебаний вариант в совокупностях существенно различны (более чем в 2 раза). В данном случае для сравнения следует использовать критерий Фишера. Степень свободы одинакова для первой и второй совокупности (5–1=4). Для Р 0,95 и 0,99 табличное значение критерия Фишера 6,39 и 15,98 соответственно. Поскольку Fф > Fт, то различие в содержании гумуса по провинциям признается существенным при Р 0,95.

Критерий Пирсона (хи-квадрат, χ2).Для оценки соответствия или расхождения полученных эмпирических данных и теоретических (расчетных, прогнозных) распределений применяются статистические критерии согласия. Среди них наибольшее распространение получил непараметрический критерий К. Пирсона – хи-квадрат. Его можно использовать с различными формами распределения совокупностей. Как и любой другой статистический критерий, он не доказывает справедливость нулевой гипотезы, а лишь устанавливает с определенной вероятностью ее согласие или несогласие с экспериментальными данными. Критерий применяется при условии наличия не менее 5 наблюдений или частот в каждой группе, классе или совокупности. Малые частоты объединяют. Вычисление проводят по формуле:

χ2 = ∑ [(φ – φ΄)2 / ∑ φ΄],(1.26)

где φ, φ΄– наблюдения или частоты в опыте соответственно эмпирически или теоретически ожидаемые.

Значения χ2 могут быть только положительными и возрастать от нуля до бесконечности. Если вычисленный критерий хи-квадрат больше табличного (теоретического) значения, нулевая гипотеза, которая предполагает соответствие эмпирического и теоретического распределений, отвергается, при χ2выч < χ2табл нулевая гипотеза принимается.

Степень свободы при проверке гипотезы о нормальном распределении вычисляется по формуле ν = k – 3, где k – число классов. Различие между экспериментальными вариантами и теоретическими считаются достоверными, если D > 3.

Критерий Пирсона тем меньше, чем меньше различаются эмпирические и теоретические частоты. Он не позволяет обнаружить различия, которые скрадывает группировка (объединение малых частот в одну группу). Его удобно использовать, так как не требуется вычислений средних дисперсий.

Пример. Следует определить число сельских жителей с бронхолегочными заболеваниями, обострение болезни у которых связано с природными условиями местожительства. Для обработки выборочных вариантов составляем таблицу 1.7.

 

Таблица 1.7 Сравнение эмпирических и теоретических частот с использованием критерия Пирсона

Число обследованных жителей (классы)

Число фактически больных, φ

Число теоретически больных, φ΄

φ – φ΄

(φ – φ΄)2

(φ – φ΄)2 / φ΄

1–71

1

2

 

 

 

72–142

          3     11

        4     15

–4

16

1,06

143–213

7     

9

 

 

 

214–284

10

13

–3

9

0,69

285–355

15

14

1

1

0,07

356–426

12

10

2

4

0,40

427–497

10

11

–1

1

0,09

498–568

 

 13

 
          8     

 

 8

 
6      

5

25

3,12

569–639

5

2

 

 

 

I = 9

N1 = 71

N2 = 71

 

 

χ2выч =∑ 5,43

Всего выявлен 71 больной житель из 639 обследованных одного возраста и пола по 9 человек в каждом населенном пункте. Для обработки данных количество обследованных сгруппировано в 9 классов. Поскольку частота в каждом классеφ, φ΄ должна быть не менее 5, объединяемпервые три и последние два класса в столбцах 2 и 3. Получаем новые классы с частотами 11 и 13 (всего по 6 классов распределения). Частоты в новых классах выделены жирным шрифтом в табл. 1.7. Затем производим расчеты, которые позволяют получить критерий χ2 (см. табл. 1.7).

Сравниваем χ2выч с χ2табл при степени свободы ν = k – 3 = 6 – 3 =3, Р0,95. Поскольку χ2выч =5,43 < χ2табл = 7,815, теоретическое распределение частот несущественно отличается от эмпирического, а гипотеза признается состоятельной.

07 декабря 2012 /
Похожие новости
Двухфакторный дисперсионный анализ 
Дисперсионный анализ  
Теоретические функции распределения
Оценка статистических параметров по выборочным данным
Обработка вариационного ряда
Комментарии

НАПИСАТЬ КОММЕНТАРИЙ

Ваше Имя:
Ваш E-Mail:
Полужирный Наклонный текст Подчеркнутый текст Зачеркнутый текст | Выравнивание по левому краю По центру Выравнивание по правому краю | Вставка смайликов Выбор цвета | Скрытый текст Вставка цитаты Преобразовать выбранный текст из транслитерации в кириллицу Вставка спойлера
Вопрос:
Столица России?
Ответ:*
Введите код: