Среднеквадратическое отклонение характеризует. Стандартное отклонение

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом . В то же время не все так плохо. При увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной. Поэтому при работе с большими размерами выборок можно использовать формулу выше.

Язык знаков полезно перевести на язык слов. Получится, что дисперсия — это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, мы просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Разгадка заключается всего в трех словах.

Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который необходим для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных. Без бутылки, как говорится, не разберешься.

{module 111}

Дабы вернуть дисперсию в реальность, то есть использовать в более приземленных целей, из нее извлекают квадратный корень. Получается так называемое среднеквадратичное отклонение (СКО) . Встречаются названия «стандартное отклонение» или «сигма» (от названия греческой буквы). Формула стандартного отклонения имеет вид:

Для получения этого показателя по выборке используют формулу:

Как и с дисперсией, есть и немного другой вариант расчета . Но с ростом выборки разница исчезает.

Среднеквадратичное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые (это явствует из формулы расчета). Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со среднеквадратичным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны. К примеру, есть такое правило трех сигм , которое гласит, что у данных 997 значений из 1000 находятся в пределах ±3 сигмы от средней арифметической. Среднеквадратичное отклонение, как мера неопределенности, также участвует во многих статистических расчетах. С ее помощью устанавливают степень точности различных оценок и прогнозов. Если вариация очень большая, то стандартное отклонение тоже получится большим, следовательно, и прогноз будет неточным, что выразится, к примеру, в очень широких доверительных интервалах.

Коэффициент вариации

Среднее квадратическое отклонение дает абсолютную оценку меры разброса. Поэтому чтобы понять, насколько разброс велик относительно самих значений (т.е. независимо от их масштаба), требуется относительный показатель. Такой показатель называется коэффициентом вариации и рассчитывается по следующей формуле:

Коэффициент вариации измеряется в процентах (если умножить на 100%). По этому показателю можно сравнивать самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.

В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. Мне здесь трудно что-то прокомментировать. Не знаю, кто и почему так определил, но это считается аксиомой.

Чувствую, что я увлекся сухой теорией и нужно привести что-то наглядное и образное. С другой стороны все показатели вариации описывают примерно одно и то же, только рассчитываются по-разному. Поэтому разнообразием примеров блеснуть трудно, Отличаться могут лишь значения показателей, но не их суть. Вот и сравним, как отличаются значения различных показателей вариации для одной и той же совокупности данных. Возьмем пример с расчетом среднего линейного отклонения (из ). Вот исходные данные:

И график для напоминания.

По этим данным рассчитаем различные показатели вариации.

Среднее значение – это обычная средняя арифметическая.

Размах вариации – разница между максимумом и минимумом:

Среднее линейное отклонение считается по формуле:

Стандартное отклонение:

Расчет сведем в табличку.

Как видно, среднее линейное и среднеквадратичное отклонение дают похожие значения степени вариации данных. Дисперсия – это сигма в квадрате, поэтому она всегда будет относительно большим числом, что, собственно, ни о чем не говорит. Размах вариации – это разница между крайними значениями и может говорить о многом.

Подведем некоторые итоги.

Вариация показателя отражает изменчивость процесса или явления. Ее степень может измеряться с помощью нескольких показателей.

1. Размах вариации – разница между максимумом и минимумом. Отражает диапазон возможных значений.
2. Среднее линейное отклонение – отражает среднее из абсолютных (по модулю) отклонений всех значений анализируемой совокупности от их средней величины.
3. Дисперсия – средний квадрат отклонений.
4. Среднеквадратичное отклонение – корень из дисперсии (среднего квадрата отклонений).
5. Коэффициент вариации – наиболее универсальный показатель, отражающий степень разброса значений независимо от их масштаба и единиц измерения. Коэффициент вариации измеряется в процентах и может быть использован для сравнения вариации различных процессов и явлений.

Таким образом, в статистическом анализе существует система показателей, отражающих однородность явлений и устойчивость процессов. Часто показатели вариации не имеют самостоятельного смысла и используются для дальнейшего анализа данных (расчет доверительных интервалов

Определяется как обобщающая характеристика размеров вариации признака в совокупности. Оно равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической, т.е. корень из и может быть найдена так:

1. Для первичного ряда:

2. Для вариационного ряда:

Преобразование формулы среднего квадратичного отклонени приводит ее к виду, более удобному для практических расчетов:

Среднее квадратичное отклонение определяет на сколько в среднем отклоняются конкретные варианты от их среднего значения, и к тому же является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, и поэтому хорошо интерпретируется.

Примеры нахождения cреднего квадратического отклонения: ,

Для альтернативных признаков формула среднего квадратичного отклонения выглядит так:

где р - доля единиц в совокупности, обладающих определенным признаком;

q - доля единиц, не обладающих этим признаком.

Понятие среднего линейного отклонения

Среднее линейное отклонение определяется как средняя арифметическая абсолютных значений отклонений отдельных вариантов от .

1. Для первичного ряда:

2. Для вариационного ряда:

где сумма n - сумма частот вариационного ряда .

Пример нахождения cреднего линейного отклонения:

Преимущество среднего абсолютного отклонения как меры рассеивания перед размахом вариации, очевидно, так как эта мера основана на учете всех возможных отклонений. Но этот показатель имеет существенные недостатки. Произвольные отбрасывания алгебраических знаков отклонений могут привести к тому, что математические свойства этого показателя являются далеко не элементарными. Это сильно затрудняет использование среднего абсолютного отклонения при решении задач, связанных с вероятностными расчетами.

Поэтому среднее линейное отклонение как мера вариации признака применяется в статистической практике редко, а именно тогда, когда суммирование показателей без учета знаков имеет экономический смысл. С его помощью, например, анализируется оборот внешней торговли, состав работающих, ритмичность производства и т. д.

Среднее квадратическое

Среднее квадратическое применяется , например, для вычисления средней величины сторон n квадратных участков, средних диаметров стволов, труб и т. д. Она подразделяется на два вида.

Средняя квадратичная простая. Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратичной средней величиной.

Она является квадратным корнем из частного от деления суммы квадратов отдельных значений признака на их число:

Средняя квадратичная взвешенная вычисляется по формуле:

где f - признак веса.

Средняя кубическая

Средняя кубическая применяется , например, при определении средней длины стороны и кубов. Она подразделяется на два вида.
Средняя кубическая простая:

При расчете средних величин и дисперсии в интервальных рядах распределения истинные значения признака заменяются центральными значениями интервалов, которые отличны от средней арифметической значений, включенных в интервал. Это приводит к возникновению систематической погрешности при расчете дисперсии. В.Ф. Шеппард определил, что погрешность в расчете дисперсии , вызванная применением сгруппированных данных, составляет 1/12 квадрата величины интервала как в сторону повышения, так и в сторону понижения величины дисперсии.

Поправка Шеппарда должна применяться, если распределение близко к нормальному, относится к признаку с непрерывным характером вариации, построено по значительному количеству исходных данных (n > 500). Однако исходя из того, что в ряде случаев обе погрешности, действуя в разных направлениях компенсируют друг друга, можно иногда отказаться от введения поправок.

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность и тем более типичной будет средняя величина.
В практике статистики часто возникает необходимость сравнения вариаций различных признаков. Например, большой интерес представляет сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. Для таких сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией заработной платы, выраженной в рублях.

Для осуществления таких сравнений, а также сравнений колеблемости одного и того же признака в нескольких совокупностях с разными средним арифметическим используется относительный показатель вариации - коэффициент вариации.

Структурные средние

Для характеристики центральной тенденции в статистических распределениях не редко рационально вместе со средней арифметической использовать некоторое значение признака X, которое в силу определенных особенностей расположения в ряду распределения может характеризовать его уровень.

Это особенно важно тогда, когда в ряду распределения крайние значения признака имеют нечеткие границы. В связи с этим точное определение средней арифметической, как правило, невозможно, либо очень сложно. В таких случаях средний уровень можно определить, взяв, например, значение признака, которое расположено в середине ряда частот или которое чаще всего встречается в текущем ряду.

Такие значения зависят только от характера частот т. е. от структуры распределения. Они типичны по месту расположения в ряду частот, поэтому такие значения рассматриваются в качестве характеристик центра распределения и поэтому получили определение структурных средних. Они применяются для изучения внутреннего строения и структуры рядов распределения значений признака. К таким показателям относятся .

По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города:

Определите:

1) размах вариации;

2) средний размер вклада;

3) среднее линейное отклонение;

4) дисперсию;

5) среднее квадратическое отклонение;

6) коэффициент вариации вкладов.

Решение:

Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей.

Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200.

1) Определим размах вариации как разность между наибольшим и наименьшим значением признака:

Размах вариации размера вклада равен 1000 рублей.

2) Средний размер вклада определим по формуле средней арифметической взвешенной.

Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов.

Среднее значение первого интервала будет равно:

второго - 500 и т. д.

Занесём результаты вычислений в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х xf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Итого 400 - 312000

Средний размер вклада в Сбербанке города будет равен 780 рублей:

3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:

Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий:

1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2).

2. Определяются абсолютные отклонения вариант от средней:

3. Полученные отклонения умножаются на частоты:

4. Находится сумма взвешенных отклонений без учёта знака:

5. Сумма взвешенных отклонений делится на сумму частот:

Удобно пользоваться таблицей расчётных данных:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Итого 400 - - - 81280

Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля.

4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.

Расчёт дисперсии в интервальных рядах распределения производится по формуле:

Порядок расчёта дисперсии в этом случае следующий:

1. Определяют среднюю арифметическую взвешенную, как показано в п. 2).

2. Находят отклонения вариант от средней:

3. Возводят в квадрат отклонения каждой варианты от средней:

4. Умножают квадраты отклонений на веса (частоты):

5. Суммируют полученные произведения:

6. Полученная сумма делится на сумму весов (частот):

Расчёты оформим в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Итого 400 - - - 23040000

Среднее квадратическое отклонение

Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, ĸᴏᴛᴏᴩᴏᴇ называют стандартом (или стандартным отклонение).Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:

Среднее квадратическое отклонение простое:

Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:

Между средним квадратическим и средним линœейным отклонениями в условиях нормального распределœения имеет место следующее соотношение: ~ 1,25.

Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определœении значений ординат кривой нормального распределœения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.

18.Дисперсия, ее виды, среднеквадратическое отклонение.

Диспе́рсия случа́йной величины́ - мера разброса данной случайной величины, т. е. её отклонения отматематического ожидания. В статистике часто употребляется обозначение или . Квадратный корень из дисперсии принято называтьсреднеквадрати́чным отклоне́нием , станда́ртным отклоне́нием или стандартным разбросом.

Общая дисперсия (σ 2 ) измеряет вариацию признака во всœей совокупности под влиянием всœех факторов, обусловивших эту вариацию. Вместе с тем, благодаря методу группировок можно выделить и измерить вариацию, обусловленную группировочным признаком, и вариацию, возникающую под влиянием неучтенных факторов.

Межгрупповая дисперсия (σ 2 м.гр ) характеризует систематическую вариацию, т. е. различия в величинœе изучаемого признака, возникающие под влиянием признака – фактора, положенного в основание группировки.

Среднеквадрати́ческое отклоне́ние (синонимы: среднее квадрати́ческое отклоне́ние , среднеквадрати́чное отклоне́ние , квадрати́чное отклоне́ние ; близкие термины:станда́ртное отклоне́ние , станда́ртный разбро́с ) - в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величиныотносительно её математического ожидания. При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическоесовокупности выборок.

Среднеквадратическое отклонение измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линœейной взаимосвязи между случайными величинами. Определяется какквадратный корень из дисперсии случайной величины.

Среднеквадратическое отклонение:

Стандартное отклонение (оценка среднеквадратического отклонения случайной величины x относительно её математического ожидания на базе несмещённой оценки её дисперсии):

где - дисперсия; - i -й элемент выборки; - объём выборки; - среднее арифметическое выборки:

Следует отметить, что обе оценки являются смещёнными. В общем случае несмещённую оценку построить невозможно. При этом оценка на базе оценки несмещённой дисперсии является состоятельной.

19.Сущность, область применения и порядок определœения моды и медианы.

Кроме степенных средних в статистике для относительной характеристики величины варьирующего признака и внутреннего строения рядов распределœения пользуются структурными средними, которые представлены,в основном, модой и медианой .

Мода - это наиболее часто встречающийся вариант ряда. Мода применяется, к примеру, при определœении размера одежды, обуви, пользующейся наибольшим спросом у покупателœей. Модой для дискретного ряда является варианта͵ обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда крайне важно сначала определить модальный интервал (по максимальной частоте), а затем - значение модальной величины признака по формуле:

§ - значение моды

§ - нижняя граница модального интервала

§ - величина интервала

§ - частота модального интервала

§ - частота интервала, предшествующего модальному

§ - частота интервала, следующего за модальным

Медиана - это значение признака, ĸᴏᴛᴏᴩᴏᴇ лежит в базе ранжированного ряда и делит данный ряд на две равные по численности части.

Для определœения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (В случае если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:

М е = (n (число признаков в совокупности) + 1)/2,

в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в серединœе ряда).

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем - значение медианы по формуле:

§ - искомая медиана

§ - нижняя граница интервала, который содержит медиану

§ - величина интервала

§ - сумма частот или число членов ряда

§ - сумма накопленных частот интервалов, предшествующих медианному

§ - частота медианного интервала

Пример . Найти моду и медиану.

Решение : В данном примере модальный интервал находится в пределах возрастной группы 25-30 лет, так как на данный интервал приходится наибольшая частота (1054).

Рассчитаем величину моды:

Это значит что модальный возраст студентов равен 27 годам.

Вычислим медиану. Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта͵ которая делит совокупность на две равные части (Σf i /2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:

Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.

Кроме моды и медианы бывают использованы такие показатели, как квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили - на 100 частей.

20.Понятие выборочного наблюдения и область его применения.

Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелœесообразно . Физическая невозможность имеет место, к примеру, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелœесообразность имеет место при оценке качества товаров, связанной с их уничтожением, к примеру, дегустация, испытание кирпичей на прочность и т.п.

Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку , а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n , а во всœей ГС - N . Отношение n/N принято называть относительный размер или доля выборки .

Качество результатов выборочного наблюдения зависит от репрезентативности выборки , то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки крайне важно соблюдать принцип случайности отбора единиц , который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.

Существует 4 способа случайного отбора в выборку:

  1. Собственно случайный отбор или ʼʼметод лотоʼʼ, когда статистическим величинам присваиваются порядковые номера, заносимые на определœенные предметы (к примеру, бочонки), которые затем перемешиваются в некоторой емкости (к примеру, в мешке) и выбираются наугад. На практике данный способ осуществляют с помощью генератора случайных чисел или математических таблиц случайных чисел.
  2. Механический отбор, согласно которому отбирается каждая (N/n )-я величина генеральной совокупности. К примеру, в случае если она содержит 100 000 величин, а требуется выбрать 1 000, то в выборку попадет каждая 100 000 / 1000 = 100-я величина. Причем, в случае если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. К примеру, в случае если первой оказалась единица № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т.д. В случае если единицы генеральной совокупности ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.
  3. Отбор величин из неоднородного массива данных ведется стратифицированным (расслоенным) способом, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.
  4. Особый способ составления выборки представляет собой серийный отбор, при котором случайно или механически выбирают не отдельные величины, а их серии (последовательности с какого-то номера по какой-то подряд), внутри которых ведут сплошное наблюдение.

Качество выборочных наблюдений зависит и от типа выборки : повторная или бесповторная. При повторном отборе попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всœех величин генеральной совокупности одинаковая вероятность включения в выборку. Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.

Бесповторный отбор дает более точные результаты, в связи с этим применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.

21.Предельная ошибка выборки наблюдения, средняя ошибка выборки, порядок их расчета.

Рассмотрим подробно перечисленные выше способы формирования выборочной совокупности и возникающие при этом ошибки репрезентативности. Собственно-случайная выборка основывается на отборе единиц из генеральной совокупности наугад без каких-либо элементов системности. Технически собственно-случайный отбор проводят методом жеребьевки (к примеру, розыгрыши лотерей) или по таблице случайных чисел.

Собственно-случайный отбор ʼʼв чистом видеʼʼ в практике выборочного наблюдения применяется редко, но он является исходным среди других видов отбора, в нем реализуются основные принципы выборочного наблюдения. Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.

Ошибка выборочного наблюдения - ϶ᴛᴏ разность между величиной параметра в генеральной совокупности, и его величиной, вычисленной по результатам выборочного наблюдения. Важно заметить, что для средней количественного признака ошибка выборки определяется

Показатель принято называть предельной ошибкой выборки. Выборочная средняя является случайной величиной, которая может принимать различные значения исходя из того, какие единицы попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. По этой причине определяют среднюю из возможных ошибок – среднюю ошибку выборки , которая зависит от:

· объёма выборки: чем больше численность, тем меньше величина средней ошибки;

· степени изменения изучаемого признака: чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки.

При случайном повторном отборе средняя ошибка рассчитывается . Практически генеральная дисперсия точно не известна, но в теории вероятности доказано, что . Так как величина при достаточно больших n близка к 1, можно считать, что . Тогда средняя ошибка выборки должна быть рассчитана: . Но в случаях малой выборки (при n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

При случайной бесповторной выборке приведенные формулы корректируются на величину . Тогда средняя ошибка бесповторной выборки: и . Т.к. всœегда меньше , то множитель () всœегда меньше 1. Это значит, что средняя ошибка при бесповторном отборе всœегда меньше, чем при повторном. Механическая выборка применяется, когда генеральная совокупность каким-либо способом упорядочена (к примеру, списки избирателœей по алфавиту, телœефонные номера, номера домов, квартир). Отбор единиц осуществляется через определœенный интервал, который равен обратному значению процента выборки. Так при 2% выборке отбирается каждая 50 единица =1/0,02 , при 5% каждая 1/0,05=20 единица генеральной совокупности.

Начало отсчета выбирается разными способами: случайным образом, из середины интервала, со сменой начала отсчета. Главное при этом – избежать систематической ошибки. К примеру, при 5% выборке, в случае если первой единицей выбрана 13-я, то следующие 33, 53, 73 и т.д.

По точности механический отбор близок к собственно-случайной выборке. По этой причине для определœения средней ошибки механической выборки используют формулы собственно-случайного отбора.

При типическом отборе обследуемая совокупность предварительно разбивается на однородные, однотипные группы. К примеру, при обследовании предприятий это бывают отрасли, подотрасли, при изучении населœения – районы, социальные или возрастные группы. Далее осуществляется независимый выбор из каждой группы механическим или собственно-случайным способом.

Типическая выборка дает более точные результаты по сравнению с другими способами. Типизация генеральной совокупности обеспечивает представительство в выборке каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Следовательно, при нахождении ошибки типической выборки согласно правилу сложения дисперсий () крайне важно учесть лишь среднюю из групповых дисперсий. Тогда средняя ошибка выборки: при повторном отборе , при бесповторном отборе , где – средняя из внутригрупповых дисперсий в выборке.

Серийный (или гнездовой) отбор применяется в случае, когда генеральная совокупность разбита на серии или группы до начала выборочного обследования. Этими сериями бывают упаковки готовой продукции, студенческие группы, бригады. Серии для обследования выбираются механическим или собственно-случайным способом, а внутри серии производится сплошное обследование единиц. По этой причине средняя ошибка выборки зависит только от межгрупповой (межсерийной) дисперсии, которая вычисляется по формуле: где r – число отобранных серий; – средняя і-той серии. Средняя ошибка серийной выборки рассчитывается: при повторном отборе , при бесповторном отборе , где R – общее число серий. Комбинированный отбор представляет собой сочетание рассмотренных способов отбора.

Средняя ошибка выборки при любом способе отбора зависит главным образом от абсолютной численности выборки и в меньшей степени – от процента выборки. Предположим, что проводится 225 наблюдений в первом случае из генеральной совокупности в 4500 единиц и во втором – в 225000 единиц. Дисперсии в обоих случаях равны 25. Тогда в первом случае при 5 %-ном отборе ошибка выборки составит: Во втором случае при 0,1 %-ном отборе она будет равна:

Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, при уменьшении процента выборки в 50 раз, ошибка выборки увеличилась незначительно, так как численность выборки не изменилась. Предположим, что численность выборки увеличили до 625 наблюдений. В этом случае ошибка выборки равна: Увеличение выборки в 2,8 раза при одной и той же численности генеральной совокупности снижает размеры ошибки выборки более чем в 1,6 раза.

22.Методы и способы формирования выборочной совокупности.

В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.

Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.

Существуют следующие способы отбора единиц из генеральной совокупности: 1) индивидуальный отбор - в выборку отбираются отдельные единицы; 2) групповой отбор - в выборку попадают качественно однородные группы или серии изучаемых единиц; 3) комбинированный отбор - это комбинация индивидуального и группового отбора. Способы отбора определяются правилами формирования выборочной совокупности.

Выборка должна быть:

  • собственно-случайная состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки. Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, ᴛ.ᴇ.
  • механическая состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы). При этом размер интервала в генеральной совокупности равен обратной величинœе доли выборки. Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке - каждая 20-я единица (1:0,05) и т.д. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.
  • типическая – при которойгенеральная совокупность вначале расчленяется на однородные типические группы. Далее из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность. Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность;
  • серийная - при которой генеральную совокупность делят на одинаковые по объёму группы - серии. В выборочную совокупность отбираются серии. Внутри серий производится сплошное наблюдение единиц, попавших в серию;
  • комбинированная - выборка должна быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы. Далее производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.

В статистике различают следующие способы отбора единиц в выборочную совокупность:

  • одноступенчатая выборка - каждая отобранная единица сразу же подвергается изучению по заданному признаку (собственно-случайная и серийная выборки);
  • многоступенчатая выборка - производят подбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы (типическая выборка с механическим способом отбора единиц в выборочную совокупность).

Кроме того различают :

  • повторный отбор – по схеме возвращенного шара. При этом каждая попавшая в выборку единица иди серия возвращается в генеральную совокупность и в связи с этим имеет шанс снова попасть в выборку;
  • бесповторный отбор – по схеме невозвращенного шара. Он имеет более точные результаты при одном и том же объёме выборки.

23.Определœение крайне важно го объёма выборки (использование таблицы Стьюдента).

Одним из научных принципов в теории выборочного метода является обеспечение достаточного числа отобранных единиц. Теоретически крайне важно сть соблюдения этого принципа представлена в доказательствах предельных теорем теории вероятностей, которые позволяют установить, какой объём единиц следует выбрать из генеральной совокупности, чтобы он был достаточным и обеспечивал репрезентативность выборки.

Уменьшение стандартной ошибки выборки, а следовательно, увеличение точности оценки всœегда связано с увеличением объёма выборки, в связи с этим уже на стадии организации выборочного наблюдения приходится решать вопрос о том, каков должен быть объём выборочной совокупности, чтобы была обеспечена требуемая точность результатов наблюдений. Расчет крайне важно го объёма выборки строится с помощью формул, выведенных из формул предельных ошибок выборки (А), соответствующих тому или иному виду и способу отбора. Так, для случайного повторного объёма выборки (n) имеем:

Суть этой формулы – в том, что при случайном повторном отборе крайне важно й численности объём выборки прямо пропорционален квадрату коэффициента доверия (t2) и дисперсии вариационного признака (?2) и обратно пропорционален квадрату предельной ошибки выборки (?2). В частности, с увеличением предельной ошибки в два раза необходимая численность выборки должна быть уменьшена в четыре раза. Из трех параметров два (t и?) задаются исследователœем. При этом исследователь исходя из цели

и задач выборочного обследования должен решить вопрос: в каком количественном сочетании лучше включить эти параметры для обеспечения оптимального варианта? В одном случае его может больше устраивать надежность полученных результатов (t), нежели мера точности (?), в другом – наоборот. Сложнее решить вопрос в отношении величины предельной ошибки выборки, так как этим показателœем исследователь на стадии проектировки выборочного наблюдения не располагает, в связи с этим в практике принято задавать величину предельной ошибки выборки, как правило, в пределах до 10 % предполагаемого среднего уровня признака. К установлению предполагаемого среднего уровня можно подходить по разному: использовать данные подобных ранее проведенных обследований или же воспользоваться данными основы выборки и произвести небольшую пробную выборку.

Наиболее сложно установить при проектировании выборочного наблюдения третий параметр в формуле (5.2) – дисперсию выборочной совокупности. В этом случае крайне важно использовать всю информацию, имеющуюся в распоряжении исследователя, полученную в ранее проведенных подобных и пробных обследованиях.

Вопрос об определœении крайне важно й численности выборки усложняется, в случае если выборочное обследование предполагает изучение нескольких признаков единиц отбора. В этом случае средние уровни каждого из признаков и их вариация, как правило, различны, и в связи с этим решить вопрос о том, дисперсии какого из признаков отдать предпочтение, возможно лишь с учетом цели и задач обследования.

При проектировании выборочного наблюдения предполагаются заранее заданная величина допустимой ошибки выборки в соответствии с задачами конкретного исследования и вероятность выводов по результатам наблюдения.

В целом формула предельной ошибки выборочной средней величины позволяет определять:

‣‣‣ величину возможных отклонений показателœей генеральной совокупности от показателœей выборочной совокупности;

‣‣‣ необходимую численность выборки, обеспечивающую требуемую точность, при которой пределы возможной ошибки не превысят некоторой заданной величины;

‣‣‣ вероятность того, что в проведенной выборке ошибка будет иметь заданный предел.

Распределœе́ние Стью́дента в теории вероятностей - это однопараметрическое семейство абсолютно непрерывных распределœений.

24.Ряды динамики (интервальные, моментные), смыкание рядов динамики.

Ряды динамики - это значения статистических показателœей, которые представлены в определœенной хронологической последовательности.

Каждый динамический ряд содержит две составляющие:

1) показатели периодов времени (годы, кварталы, месяцы, дни или даты);

2) показатели, характеризующие исследуемый объект за временные периоды или на соответствующие даты, которые называют уровнями ряда .

Уровни ряда выражаются как абсолютными, так и средними или относительными величинами. Учитывая зависимость отхарактера показателœей строят динамические ряды абсолютных, относительных и средних величин. Ряды динамики из относительных и средних величин строят на базе производных рядов абсолютных величин. Различают интервальные и моментные ряды динамики.

Динамический интервальный ряд содержит значения показателœей за определœенные периоды времени. В интервальном ряду уровни можно суммировать, получая объём явления за более длительный период, или так называемые накопленные итоги.

Динамический моментный ряд отражает значения показателœей на определœенный момент времени (дату времени). В моментных рядах исследователя может интересовать только разность явлений, отражающая изменение уровня ряда между определœенными датами, поскольку сумма уровней здесь не имеет реального содержания. Накопленные итоги здесь не рассчитываются.

Важнейшим условием правильного построения динамических рядов является сопоставимость уровней рядов , относящихся к различным периодам. Уровни должны быть представлены в однородных величинах, должна иметь место одинаковая полнота охвата различных частей явления.

Для того, чтобы избежать искажения реальной динамики, в статистическом исследовании проводятся предварительные расчёты (смыкание рядов динамики), которые предшествуют статистическому анализу динамических рядов. Под смыканием рядов динамики принято понимать объединœение в один ряд двух и более рядов, уровни которых рассчитаны по разной методологии или не соответствуют территориальным границам и т.д. Смыкание рядов динамики может предполагать также приведение абсолютных уровней рядов динамики к общему основанию, что нивелирует несопоставимость уровней рядов динамики.

25.Понятие сопоставимости рядов динамики, коэффициенты, темпы роста и прироста.

Ряды динамики - это ряды статистических показателœей, характеризующих развитие явлений природы и общества во времени. Публикуемые Госкомстатом России статистические сборники содержат большое количество рядов динамики в табличной форме. Ряды динамики позволяют выявить закономерности развития изучаемых явлений.

Ряды динамики содержат два вида показателœей. Показатели времени (годы, кварталы, месяцы и др.) или моменты времени (на начало года, на начало каждого месяца и т.п.). Показатели уровней ряда . Показатели уровней рядов динамики бывают выражены абсолютными величинами (производство продукта в тоннах или рублях), относительными величинами (удельный вес городского населœения в %) и средними величинами (средняя зарплата работников отрасли по годам и т. п.). В табличной форме ряд динамики содержит два столбца или две строки.

Правильное построение рядов динамики предполагает выполнение ряда требований:

  1. всœе показатели ряда динамики должны быть научно обоснованными, достоверными;
  2. показатели ряда динамики должны быть сопоставимы по времени, ᴛ.ᴇ. должны быть исчислены за одинаковые периоды времени или на одинаковые даты;
  3. показатели ряда динамики должны быть сопоставимы по территории;
  4. показатели ряда динамики должны быть сопоставимы по содержанию, ᴛ.ᴇ. исчислены по единой методологии, одинаковым способом;
  5. показатели ряда динамики должны быть сопоставимы по кругу учитываемых хозяйств. Все показатели ряда динамики должны быть приведены в одних и тех же единицах измерения.

Статистические показатели могут характеризовать либо результаты изучаемого процесса за период времени, либо состояние изучаемого явления на определœенный момент времени, ᴛ.ᴇ. показатели бывают интервальными (периодическими) и моментными. Соответственно первоначально ряды динамики бывают либо интервальными, либо моментными. Моментные ряды динамики в свою очередь бывают с равными и неравными промежутками времени.

Первоначальные ряды динамики бывают преобразованы в ряд средних величин и ряд относительных величин (цепной и базисный). Такие ряды динамики называют производными рядами динамики.

Методика расчета среднего уровня в рядах динамики различна, обусловлена видом ряда динамики. На примерах рассмотрим виды рядов динамики и формулы для расчета среднего уровня.

Абсолютные приросты (Δy ) показывают, на сколько единиц изменился последующий уровень ряда по сравнению с предыдущим (гр.3. - цепные абсолютные приросты) или по сравнению с начальным уровнем (гр.4. - базисные абсолютные приросты). Формулы расчета можно записать следующим образом:

При уменьшении абсолютных значений ряда будет соответственно "уменьшение", "снижение".

Показатели абсолютного прироста свидетельствуют о том, что, к примеру, в 1998 ᴦ. производство продукта "А" увеличилось по сравнению с 1997 ᴦ. на 4 тыс. т, а по сравнению с 1994 ᴦ. - на 34 тыс. т.; по остальным годам см. табл. 11.5 гр.
Размещено на реф.рф
3 и 4.

Коэффициент роста показывает, во сколько раз изменился уровень ряда по сравнению с предыдущим (гр.5 - цепные коэффициенты роста или снижения) или по сравнению с начальным уровнем (гр.6 - базисные коэффициенты роста или снижения). Формулы расчета можно записать следующим образом:

Темпы роста показывают, сколько процентов составляет последующий уровень ряда по сравнению с предыдущим (гр.7 - цепные темпы роста) или по сравнению с начальным уровнем (гр.8 - базисные темпы роста). Формулы расчета можно записать следующим образом:

Так, к примеру, в 1997 ᴦ. объём производства продукта "А" по сравнению с 1996 ᴦ. составил 105,5 % (

Темпы прироста показывают, на сколько процентов увеличился уровень отчетного периода по сравнению с предыдущим (гр.9- цепные темпы прироста) или по сравнению с начальным уровнем (гр.10- базисные темпы прироста). Формулы расчета можно записать следующим образом:

Т пр = Т р - 100% или Т пр = абсолютный прирост / уровень предшествующего периода * 100%

Так, к примеру, в 1996 ᴦ. по сравнению с 1995 ᴦ. продукта "А" произведено больше на 3,8 % (103,8 %- 100%) или (8:210)х100%, а по сравнению с 1994 ᴦ. - на 9% (109% - 100%).

В случае если абсолютные уровни в ряду уменьшаются, то темп будет меньше 100% и соответственно будет темп снижения (темп прироста со знаком минус).

Абсолютное значение 1% прироста (гр.
Размещено на реф.рф
11) показывает, сколько единиц нужно произвести в данном периоде, чтобы уровень предыдущего периода возрос на 1 %. В нашем примере, в 1995 ᴦ. нужно было произвести 2,0 тыс. т., а в 1998 ᴦ. - 2,3 тыс. т., ᴛ.ᴇ. значительно больше.

Определить величину абсолютного значения 1% прироста можно двумя способами:

§ уровень предшествующего периода разделить на 100;

§ цепные абсолютные приросты разделить на соответствующие цепные темпы прироста.

Абсолютное значение 1% прироста =

В динамике, особенно за длительный период, важен совместный анализ темпов прироста с содержанием каждого процента прироста или снижения.

Заметим, что рассмотренная методика анализа рядов динамики применима как для рядов динамики, уровни которых выражены абсолютными величинами (т, тыс. руб., число работников и т.д.), так и для рядов динамики, уровни которых выражены относительными показателями (% брака, % зольности угля и др.) или средними величинами (средняя урожайность в ц/га, средняя зарплата и т.п.).

Наряду с рассмотренными аналитическими показателями, исчисляемыми за каждый год в сравнении с предшествующим или начальным уровнем, при анализе рядов динамики крайне важно исчислить средние за период аналитические показатели: средний уровень ряда, средний годовой абсолютный прирост (уменьшение) и средний годовой темп роста и темп прироста.

Методы расчета среднего уровня ряда динамики были рассмотрены выше. В рассматриваемом нами интервальном ряду динамики средний уровень ряда исчисляется по формуле средней арифметической простой:

Среднегодовой объём производства продукта за 1994- 1998 гᴦ. составил 218,4 тыс. т.

Среднегодовой абсолютный прирост исчисляется также по формуле средней арифметической

Среднее квадратическое отклонение - понятие и виды. Классификация и особенности категории "Среднее квадратическое отклонение" 2017, 2018.

Дисперсия. Среднее квадратическое отклонение

Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. В зависимости от исходных данных дисперсия может быть невзвешенной (простой) или взвешенной.

Дисперсия рассчитывается по следующим формулам:

· для несгруппированных данных

· для сгруппированных данных

Порядок расчета дисперсии взвешенную:

1. определяют среднюю арифметическую взвешенную

2. определяются отклонения вариант от средней

3. возводят в квадрат отклонение каждой варианты от средней

4. умножают квадраты отклонений на веса (частоты)

5. суммируют полученные произведения

6. полученную сумму делят на сумму весов

Формула для определения дисперсии может быть преобразована в следующую формулу:

- простая

Порядок расчета дисперсии простой:

1. определяют среднюю арифметическую

2. возводят в квадрат среднюю арифметическую

3. возводят в квадрат каждую варианту ряда

4. находим сумму квадратов вариант

5. делят сумму квадратов вариант на их число, т.е. определяют средний квадрат

6. определяют разность между средним квадратом признака и квадратом средней

Также формула для определения дисперсии взвешенной может быть преобразована в следующую формулу:

т.е. дисперсия равна разности средней из квадратов значений признака и квадрата средней арифметической. При пользовании преобразованной формулой исключается дополнительная процедура по расчету отклонений индивидуальных значений признака от х и исключается ошибка в расчете, связанная с округлением отклонений

Дисперсия обладает рядом свойств, некоторые из них позволяют упростить ее вычисления:

1) дисперсия постоянной величины равна нулю;

2) если все варианты значений признака уменьшить на одно и то же число, то дисперсия не уменьшится;

3) если все варианты значений признака уменьшить в одно и то же число раз ( раз), то дисперсия уменьшится в раз

Среднее квадратичное отклонение S - представляет собой корень квадратный из дисперсии:

· для несгруппированных данных:

;

· для вариационного ряда:

Размах вариации, среднее линейное и среднее квадратичное отклонение являются величинами именованными. Они имеют те же единицы измерения, что и индивидуальные значения признака.

Дисперсия и среднее квадратическое отклонение наиболее широко применяемые показатели вариации. Объясняется это тем, что они входят в большинство теорем теории вероятности, служащей фундаментом математической статистики. Кроме того, дисперсия может быть разложена на составные элементы, позволяющие оценить влияние различных факторов, обусловливающих вариацию признака.

Расчет показателей вариации для банков, сгруппированных по размеру прибыли, показан в таблице.

Размер прибыли, млн. руб. Число банков расчетные показатели
3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
Итого: 121,70 17,640 23,126

Среднее линейное и среднее квадратичное отклонение показывают на сколько в среднем колеблется величина признака у единиц и исследуемой совокупности. Так, в данном случае средняя величина колеблености размера прибыли составляет: по среднему линейному отклонению 0,882 млн. руб.; по среднему квадратическому отклонению - 1,075 млн. руб. Среднее квадратическое отклонение всегда больше среднего линейного отклонения. Если распределение признака, близко к нормальному, то между S и d существует взаимосвязь: S=1,25d, или d=0,8S. Среднее квадратическое отклонение показывает как расположена основная масса единиц совокупности относительно средней арифметической. Независимо от формы распределения 75 значений признака попадают в интервал х 2S, а по крайне мере 89 всех значений попадают интервал х 3S (теорема П.Л.Чебышева).