Обработка вариационного ряда

 

Обработка вариационного ряда

Варианты в статистической совокупности подвергаются обработке. Для этого составляется вариационный ряд, т. е. варианты располагают по возрастающим или убывающим величинам. Варианты в выборке, относящиеся к одному и тому же признаку, практически не совпадают между собой, или варьируют. Те варианты, которые резко отличаются от вариантов статистической совокупности и вызывают сомнение у исследователя определяются как артефакт. Они располагаются в начале или в конце вариационного ряда. Артефакт исключается из статистической совокупности и не подлежит обработке. Например, в приведенных вариационных рядах: 2, 9, 11, 12, 13, 15 и 25, 27, 29, 32, 55 почти все соседние показатели весьма близки по значению. Вызывают сомнение варианты 2 в первом ряду и 55 во втором. Их можно принять за артефакт и исключить (выбраковать) из обработки. Выбраковка должна быть статистически доказана.

Существующие критерии выбраковки основываются, как правило, на допущении, что выборка распределяется по нормальному или близкому к нему закону. В качестве критерия выбраковки может быть использован критерий τ (прил. 3). Если критерий τ вычисленный (фактический) больше или равен критерию τ табличному (τф ≥ τт) при объеме выборки N и уровне значимости α (0,05 или 0,01), то соответствующие значения вариантов выборки (х) допустимо отбросить как артефакт. Значения τ для вызывающей сомнение величины вычисляются по следующим формулам:

τ1 = (х2 – х1) / (хn1 – х1) (1.1)

для наименьшего значения переменной величины в вариационном ряду (х1);

τn = (хn – хn1) / (хn – х2) (1.2)

для максимального значения переменной в вариационном ряду.

Пример. При составлении вариационного ряда по урожайности сельскохозяйственных культур в разрезе хозяйств одного из районов получен следующий ряд значений: 10,8; 12,5; 12,9; 13,2; 20,2 (ц/га). Вызывает сомнение максимальное значение в выборке варианты 20,2. Следует доказать, можно ли ее отнести к артефакту. Подставляем необходимые данные в формулу 1.2:

τ5 = (х5– х4) / (х5 – х2) = (20,2 – 13,2) / (20,2 – 12,5) = 0,958.

Вычисленное значение критерия (τ5 = 0,958) сравнивают с табличным значением (τт), учитывая объем выборки (N = 5). В прил. 3 критическое значение критерия артефакта для N = 5 и уровня значимости α 0,05 и 0,01 соответственно будут равны 0,807 и 0,916, что меньше расчетного значения (τ5 = 0,958). Поэтому варианту 20,2 признают артефактом и исключают из статистической обработки как сомнительную. Затем приступают к вычислению показателей описательной статистики при условии, что тип распределения вариант соответствует нормальному или логнормальному закону распределения. В иных случаях с выборкой работают как с непараметрической, на которые теория вероятности не распространяется.

При установлении типа распределения принимается следующий порядок действий. Сначала определяется величина классового интервала i, которая зависит от принятого числа классов k и объема выборки N:

i = (хmaxxmin) / k.(1.3)

Число классов в зависимости от объема выборки определяется по формуле:

k = 1 + 3,3 lg N.(1.4)

Исходя из формулы (1.4), можно рекомендовать следующее число классов в зависимости от объема выборки:

 

N

30–50

51–10

101–400

401–1000

1001–2000

k

4–5

6–7

8–9

9–10

11–12

 

Величина классового интервала должна быть одинаковой на протяжении всего вариационного ряда. Границы классов выбираются такими, чтобы каждая варианта могла быть отнесена только к одному классу. Примеры правильной границы классов: 5–9, 10–14, 15–19 или 5,1–9,1, 9,2–13,2, 13,3–17,3, первый и последний классы могут быть неполными. Границы классов желательно выбирать так, чтобы крайние варианты ряда по возможности оказались ближе к середине интервала своего класса.

Пример. Пусть в выборке объемом N = 64 по количеству осадков за время наблюдения хmax = 179 мм, xmin = 103 мм. Согласно формуле (1.4), вариационный ряд разбиваем на 8 классов. Затем находим классовый интервал:

i = (179 – 103) / 8 = 9,5, или округленно 10.

Исходя из величины классового интервала и минимального значения в выборке, за начало левой границы первого класса удобно принять величину 100. Прибавляя к 100 классовый интервал 10, получаем левые границы последующих классов: 110, 120, 130, 140, 150, 160, 170 мм. Правые границы классов должны отличаться на единицу точности наблюдения от левой границы следующего класса, чтобы граничные значения вариант были отнесены к определенному классу. В нашем примере точность измерения составляет 1,0 мм, поэтому правые границы классов будут следующими: 109, 119, 129, 139, 149, 159, 169, 179 (табл. 1.1).

Срединное значение класса (х)вычисляем путем сложением границ классов и делением суммы на два. Для первого класса срединное значение равно: (100 + 109) / 2 = 104,5. Срединное значение последующих классов определяется путем последовательного прибавления классового интервала к срединному значению предыдущего класса: 104,5 + 10= =114,5. Узнать какая сейчас погода Полтаве, вы сможете на сайте meteoprog.ua. Снег, дождь, солнце, ветер, облачно все эти характеристики погодных условий берутся из численной модель прогноза погоды WRF (Weather Research and Forecasting), установленной на собственном высокопроизводительном компьютерном кластере, что дает надежный  и качественный прогноз погоды.

Затем производим разноску вариант по классам (подсчитываем количество вариант, вошедших в тот или иной класс в зависимости от их абсолютных величин). Получаем частоту (f) класса (см. табл. 1.1). Сумма частот должна соответствовать объему выборки (64), сумма частостей fч (частота, выраженная в процентах) должна равняться 100 %.

Таблица 1.1

Группировка вариант в классы при дискретной изменчивости признака

 

Границы класса

Середина класса, х

Частота, f

Частость, fч, %

100–109

104,5

6

9,37

110–119

114,5

10

15,62

120–129

124,5

12

18,75

130–139

134,5

14

21,87

140–149

144,5

10

15,62

150–159

155,5

6

9,37

160–169

165,5

4

6,25

170–179

175,5

2

3,12

i = 10

k = 8

N = 64

∑ 100,00   

 

По частоте и середине класса представим вариационный ряд графически в виде полигона и кривой распределения частот (рис. 1.1).

 

 

 

Рис. 1.1. Способы графического представления вариационного ряда: кривая распределения и гистограмма

При построении вариационной кривой по оси абсцисс откладываются значения середины класса, по оси ординат – частоты. При построении гистограммы по оси абсцисс откладываются границы классов, а число вариант каждого класса обозначается высотой или площадью соответствующего прямоугольника. При сравнении изменчивости одинаковых условий или признаков полученные вариационные кривые распределения частот наносятся на один график. Группировка вариант в классы для сравниваемых выборок должна быть одинаковой. Если объем выборок не одинаков, все частоты должны быть выражены в процентах от объема выборки по каждой совокупности.

 

Комментарии

НАПИСАТЬ КОММЕНТАРИЙ

Ваше Имя:
Ваш E-Mail:
Вопрос:
Введите слово "фикус" (без кавычек)
Ответ:*