Обработка вариационного ряда
Обработка вариационного ряда
Варианты в статистической совокупности подвергаются обработке. Для этого составляется вариационный ряд, т. е. варианты располагают по возрастающим или убывающим величинам. Варианты в выборке, относящиеся к одному и тому же признаку, практически не совпадают между собой, или варьируют. Те варианты, которые резко отличаются от вариантов статистической совокупности и вызывают сомнение у исследователя определяются как артефакт. Они располагаются в начале или в конце вариационного ряда. Артефакт исключается из статистической совокупности и не подлежит обработке. Например, в приведенных вариационных рядах: 2, 9, 11, 12, 13, 15 и 25, 27, 29, 32, 55 почти все соседние показатели весьма близки по значению. Вызывают сомнение варианты 2 в первом ряду и 55 во втором. Их можно принять за артефакт и исключить (выбраковать) из обработки. Выбраковка должна быть статистически доказана.
Существующие критерии выбраковки основываются, как правило, на допущении, что выборка распределяется по нормальному или близкому к нему закону. В качестве критерия выбраковки может быть использован критерий τ (прил. 3). Если критерий τ вычисленный (фактический) больше или равен критерию τ табличному (τф ≥ τт) при объеме выборки N и уровне значимости α (0,05 или 0,01), то соответствующие значения вариантов выборки (х) допустимо отбросить как артефакт. Значения τ для вызывающей сомнение величины вычисляются по следующим формулам:
τ1 = (х2 – х1) / (хn–1 – х1) (1.1)
для наименьшего значения переменной величины в вариационном ряду (х1);
τn = (хn – хn–1) / (хn – х2) (1.2)
для максимального значения переменной в вариационном ряду.
Пример. При составлении вариационного ряда по урожайности сельскохозяйственных культур в разрезе хозяйств одного из районов получен следующий ряд значений: 10,8; 12,5; 12,9; 13,2; 20,2 (ц/га). Вызывает сомнение максимальное значение в выборке варианты 20,2. Следует доказать, можно ли ее отнести к артефакту. Подставляем необходимые данные в формулу 1.2:
τ5 = (х5– х4) / (х5 – х2) = (20,2 – 13,2) / (20,2 – 12,5) = 0,958.
Вычисленное значение критерия (τ5 = 0,958) сравнивают с табличным значением (τт), учитывая объем выборки (N = 5). В прил. 3 критическое значение критерия артефакта для N = 5 и уровня значимости α 0,05 и 0,01 соответственно будут равны 0,807 и 0,916, что меньше расчетного значения (τ5 = 0,958). Поэтому варианту 20,2 признают артефактом и исключают из статистической обработки как сомнительную. Затем приступают к вычислению показателей описательной статистики при условии, что тип распределения вариант соответствует нормальному или логнормальному закону распределения. В иных случаях с выборкой работают как с непараметрической, на которые теория вероятности не распространяется.
При установлении типа распределения принимается следующий порядок действий. Сначала определяется величина классового интервала i, которая зависит от принятого числа классов k и объема выборки N:
i = (хmax – xmin) / k.(1.3)
Число классов в зависимости от объема выборки определяется по формуле:
k = 1 + 3,3 lg N.(1.4)
Исходя из формулы (1.4), можно рекомендовать следующее число классов в зависимости от объема выборки:
N |
30–50 |
51–10 |
101–400 |
401–1000 |
1001–2000 |
k |
4–5 |
6–7 |
8–9 |
9–10 |
11–12 |
Величина классового интервала должна быть одинаковой на протяжении всего вариационного ряда. Границы классов выбираются такими, чтобы каждая варианта могла быть отнесена только к одному классу. Примеры правильной границы классов: 5–9, 10–14, 15–19 или 5,1–9,1, 9,2–13,2, 13,3–17,3, первый и последний классы могут быть неполными. Границы классов желательно выбирать так, чтобы крайние варианты ряда по возможности оказались ближе к середине интервала своего класса.
Пример. Пусть в выборке объемом N = 64 по количеству осадков за время наблюдения хmax = 179 мм, xmin = 103 мм. Согласно формуле (1.4), вариационный ряд разбиваем на 8 классов. Затем находим классовый интервал:
i = (179 – 103) / 8 = 9,5, или округленно 10.
Исходя из величины классового интервала и минимального значения в выборке, за начало левой границы первого класса удобно принять величину 100. Прибавляя к 100 классовый интервал 10, получаем левые границы последующих классов: 110, 120, 130, 140, 150, 160, 170 мм. Правые границы классов должны отличаться на единицу точности наблюдения от левой границы следующего класса, чтобы граничные значения вариант были отнесены к определенному классу. В нашем примере точность измерения составляет 1,0 мм, поэтому правые границы классов будут следующими: 109, 119, 129, 139, 149, 159, 169, 179 (табл. 1.1).
Срединное значение класса (х)вычисляем путем сложением границ классов и делением суммы на два. Для первого класса срединное значение равно: (100 + 109) / 2 = 104,5. Срединное значение последующих классов определяется путем последовательного прибавления классового интервала к срединному значению предыдущего класса: 104,5 + 10= =114,5. Узнать какая сейчас
Затем производим разноску вариант по классам (подсчитываем количество вариант, вошедших в тот или иной класс в зависимости от их абсолютных величин). Получаем частоту (f) класса (см. табл. 1.1). Сумма частот должна соответствовать объему выборки (64), сумма частостей fч (частота, выраженная в процентах) должна равняться 100 %.
Таблица 1.1
Группировка вариант в классы при дискретной изменчивости признака
Границы класса |
Середина класса, х |
Частота, f |
Частость, fч, % |
100–109 |
104,5 |
6 |
9,37 |
110–119 |
114,5 |
10 |
15,62 |
120–129 |
124,5 |
12 |
18,75 |
130–139 |
134,5 |
14 |
21,87 |
140–149 |
144,5 |
10 |
15,62 |
150–159 |
155,5 |
6 |
9,37 |
160–169 |
165,5 |
4 |
6,25 |
170–179 |
175,5 |
2 |
3,12 |
i = 10 |
k = 8 |
N = 64 |
∑ 100,00 |
По частоте и середине класса представим вариационный ряд графически в виде полигона и кривой распределения частот (рис. 1.1).

Рис. 1.1. Способы графического представления вариационного ряда: кривая распределения и гистограмма
При построении вариационной кривой по оси абсцисс откладываются значения середины класса, по оси ординат – частоты. При построении гистограммы по оси абсцисс откладываются границы классов, а число вариант каждого класса обозначается высотой или площадью соответствующего прямоугольника. При сравнении изменчивости одинаковых условий или признаков полученные вариационные кривые распределения частот наносятся на один график. Группировка вариант в классы для сравниваемых выборок должна быть одинаковой. Если объем выборок не одинаков, все частоты должны быть выражены в процентах от объема выборки по каждой совокупности.
НАПИСАТЬ КОММЕНТАРИЙ