СКАЧАТЬ РАБОТУ БЕСПЛАТНО -
СКАЧАТЬ
1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
1.1. Понятие статистического анализа взаимосвязей явлений
Изучаемые статистикой совокупности общественных явлений формируются в результате взаимодействия многообразных, имеющих различную природу факторов.
Задача статистики – выявить эти факторы, установить существующие между ними взаимодействия и конкретную форму зависимости, выявить отношения между факторами и явлениями в форме числовых характеристик.
В.В. Глинский отмечает, что процесс изучения взаимосвязей состоит из ряда этапов . На первом этапе в соответствии с имеющимися представлениями об экономическом и социальном содержании изучаемого явления – устанавливаются статистические показатели. Числовые или атрибутивные значения этих показателей выявляются в процессе статистического наблюдения каждого объекта или каждой единицы совокупности.
Второй этап изучения взаимосвязей сводится к тому, чтобы посредством специальных характеристик получить количественное подтверждение наличия или отсутствия связи между признаками. Количественную оценку тесноты связи получают, обобщая результаты статистического наблюдения по всей совокупности объектов. Если оценивается теснота взаимосвязи качественных показателей, то, по существу, этот этап является заключительным.
Если же оценивается взаимосвязь признаков, имеющих реальное количественное измерение, то подтверждение гипотезы о наличии связи является основанием для перехода к третьему этапу – установлению аналитической зависимости между признаками.
Вид аналитической зависимости или конкретной формулы, устанавливающей взаимное соответствие между признаками, выбирается исходя из содержательного анализа явления. Если о характере взаимосвязи заранее ничего не известно, то в процессе исследования проверяются различные гипотезы, испытываются разные формулы с отбором по формальным критериям той из них, которая наиболее правдоподобна и в большей степени соответствует имеющимся фактическим данным о значениях признаков у отдельных объектов совокупности.
Третий этап исследования чаще всего выполняется методами регрессионно-корреляционного анализа. При этом определяется поведение среднего уровня одного признака (как правило, результативного) в зависимости от изменения фактических значений другого показателя (регрессора или факторного). Связи такого типа называются парными. В тех случаях, когда устанавливается поведение среднего уровня одного или нескольких результативных признаков в зависимости от конкретных значений нескольких признаков-факгоров, вводят понятие множественной регрессии.
Четвертый этап изучения взаимосвязей — оценка достоверности полученных результатов. Здесь используется аппарат, разработанный теорией вероятностей и математической статистикой. Оценка достоверности базируется на гипотезе, что полученные данные наблюдений и результаты их обработки являются выборкой из некоторых генеральных совокупностей, хотя в действительности очень часто приходится анализировать результаты сплошного наблюдения (учет населения, продукции, предприятий и т. п.). Результаты оценки достоверности расчетных значений параметров взаимосвязи признаков позволяют уточнить гипотезу о наличии и форме связи, отобрать наиболее существенные признаки, построить систему взаимосвязи и группировки показателей и т. д.
Таким образом, статистический анализ взаимосвязи явлений состоит из четырех этапов:
-установление статистических показателей;
-изучение взаимосвязей явлений посредством специальных характеристик с целью получить количественное подтверждение наличия или отсутствия связи между признаками;
-установление аналитической зависимости между признаками;
-оценка достоверности полученных результатов.
Далее мы рассмотрим механизм проведения каждого из этих этапов статистического анализа взаимосвязи явлений.
1.2. Оценка парных связей
Измерение взаимной связи признаков основывается на сопоставлении уровней показателей, полученных в процессе наблюдения: сравнении средних величин, непосредственном сопоставлении уровней признаков, сравнения показателей динамики, сопоставлении результатов сводки и группировки, показателей вариации, относительных величин и т.п. Многие способы оценки взаимосвязи признаков в практической статистике основаны на аналогиях строгих методов, разработанных математической статистикой и теорией вероятностей. Наибольшее распространение в этом плане получила методика сравнения параллельных рядов и методика, использующая результаты группировки. Рассмотрим их подробнее.
Предполагается, что в результате статистического наблюдения получены первичные данные о значении признака Х (или Х) и Х2 (или Y) по каждому из n объектов. Общую оценку степени взаимосвязи двух признаков можно получить посредством коэффициента Фехнера, линейного коэффициента корреляции рангов Спирмэна и коэффициента Кендэла.
Коэффициент Фехнера определяется выражением :
Кф = (С-Н) / (С+Н) = (С_Н) / n,
Преимуществом ранговых коэффициентов связи Кс и Кк является то, что с их помощью можно измерить степень взаимосвязи между признаками, которые не имеют строгих количественных измерителей, но значения, которых определенным образом упорядочены исходя из содержания задачи.
1.3. Оценка взаимосвязи по результатам группировки
Если первичный статистический материал представлен в группированном виде, то при оценке тесноты связи признаков используется соотношение между общей и групповыми дисперсиями. Наиболее отчетливо это видно на примере аналитической группировки первичных данных. Аналитическая группировка проводится по такому признаку, который выбирается в качестве факторного, остальные признаки выступают в роли результативных. На примере признака X — стаж работы и Y – средняя месячная заработная плата естественно полагать, что X— признак факторный, а V — признак результативный. Если по признаку X распределить совокупность на четыре группы, а затем для каждой группы вычислить среднее значение признака Y, то по этому признаку (именно, по признаку Y) можно рассчитать величину межгрупповой дисперсии σм. гР .
Величина межгрупповой дисперсии признака Y определяется в значительной мере тем, какие были образованы группы, т. е. изменением величины группировочного признака X. Если предположить, что между признаками никакой зависимости нет, то и средние величины признака Y в каждой группе должны быть одинаковыми и равными общему среднему значению Ý • Тогда и межгрупповая дисперсия признака Y должна быть равна нулю (см. формулу расчета межгрупповой дисперсии). Если же между признаками X и Y существует взаимосвязь, то при переходе к новому значению признака Х (к следующей группе) должно изменяться и среднее значение признака Y. В этом случае часть вариации признака Y о6ъясняется отклонением средних значений признака в каждой группе от его общего среднего уровня.
Мерой взаимосвязи между двумя признаками служит эмпирический коэффициент детерминации η2, который вычисляется как отношение межгрупповой дисперсии признака Y к его общей дисперсии:
η2 = σ2м.гр(Y)/σ2(Y).
Пример расчета η2 приведен в таблице 1. Из данных таблицы видно, что σ2м.гр = 782151,8/11 = 71104,7 и η2 = 71104,7/110056,2 = 0,646.
Таблица 1
Пример расчета эмпирического коэффициента детерминации
Величина η, рассчитываемая как √η2, носит название эмпирического корреляционного отношения. Если связь между признаками линейна, то значение η по абсолютной величине очень близко совпадает со значением линейного коэффициента корреляции. В нашем примере имеем η = √0,646 = 0,804 при значении линейного коэффициента корреляции r = 0,798, что и является подтверждением линейности взаимосвязи признаков Х и Y .
Показатели эмпирической детерминации η2 и эмпирической корреляции η определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных.
Таким образом, межгрупповая дисперсия признака Y связана с количеством образованных групп. С увеличением числа групп величина межгрупповой дисперсии также будет возрастать и стремиться (не обязательно монотонно) к значению общей дисперсии (если число групп равно числу наблюдений). В частности, если число групп меньше количества наблюдений (объектов), то значения η и η² никогда не будут равны 1 даже при строгой функциональной связи Х и Y. Отсюда заключаем, что базой для сравнения межгрупповой дисперсии признака Y должна быть не общая его дисперсия, а межгрупповая, определенная таким образом, чтобы наиболее полно при заданном числе групп отражалась структура совокупности наблюдений собственно признака V.
Таблица 2
Зависимость эмпирического коэффициента детерминации от числа групп
Номер группы (j)
Стаж работы
Xj , лет
число рабочих mj , чел.
Средний уровень оплаты Ýj, РУ6
Как отмечалось, в процессе группировки число групп (k) определяется группировочным факторным признаком X. Распределение же совокупности наблюдений Y на k групп выполняется в двух вариантах. В одном случае межгрупповая дисперсия признака Y рассчитывается по группам, выделенным в соответствии с изменением группировочного признака X, в другом — рассчитывается максимально возможное значение межгрупповой дисперсии признака Y при распределении совокупности на то же число k групп. В итоге эмпирический уровень детерминации η2 может быть выражен следующей зависимостью:
η2 = Ơ²м. гр.(Y) • Ơ²м. гр макс
Ơ²м. гр макс Ơ² (Y)
В этой формуле первый сомножитель (Ơ²м. гр.(Y)) / Ơ²м. гр макс) характеризует тесноту связи X и V, а второй показывает максимально возможное значение η2 при данном числе групп (k) в конкретной анализируемой ситуации .
Зависимость η2 от числа групп особенно заметна, если количество групп невелико. Например, образуем две группы по признаку стажа работы (табл. 2).
Для расчета максимальной межгрупповой дисперсии признака Y (при k = 2) расположим все наблюдения в порядке возрастания заработной платы и подберем то значение Y, которое распределяет совокупность наилучшим образом на две группы. Обычно такая граница проходит по среднему уровню, хотя это совершенно не обязательно — можно привести пример, когда она не будет совпадать со средним уровнем. Для нашего примера максимальное значение межгрупповой дисперсии Ơ²М. гРмакс = 94487,7 , а по данным табл. 2, Ơ²м.гР = 60178,6.
Учитывая, что общая дисперсия = Ơ² (Y) = 110056,2, можно записать:
η2 = 60178,6 • 94487,7 = 0,6369 • 0,8585 = 0,5468
94487,7 110056,2
Найденная величина эмпирического коэффициента детерминации (η2 = 0,547) при k = 2, по существу, не подтверждает наличия связи X и Y. В действительности же эта взаимосвязь убедительно подтверждается первым сомножителем (0,6369). Эмпирическое корреляционное отношение в этом случае будет равно √0.6369 = 0,79806 и практически совпадает с величиной линейного коэффициента корреляции.
Результаты группировки могут выступать в форме комбинационной таблицы, где по строкам следуют упорядоченные значения одного признака, а по столбцам — другого. Для нашего примера рассмотрим табл. 3. По данным таблицы можно рассчитать среднюю заработную плату по каждой группе производственного стажа, а затем вычислить показатель η2. Иногда так и поступают. Но обычно в этих ситуациях используют специальные измерители тесноты связи, которые не связаны с численными значениями группировочных признаков и учитывают только частоту появления признака в той или иной группе. Для таких измерителей группировка может быть выполнена и по качественным (атрибутивным) показателям. Например, по строкам таблицы показываются варианты технологических процессов, а по столбцам — варианты какого-либо другого взаимосвязанного признака, интересующего исследователя в данной задаче (уровень оплаты — низкий, средний, выше среднего и т. д., уровень квалификации, уровень образования, удовлетворенность работой и т. п.).
Таблица 3
Представление результатов группировки в форме
комбинационной таблицы
Стаж работы X, лет
Заработная плата по группам у, руб.
Всего, чел.
1500-1800
1801-2100
2101-2400
свыше 2400
По данным комбинационной группировки для измерения тесноты связи между группировочными признаками используют коэффициент взаимной сопряженности Чупрова Кч, коэффициент Пирсона Кп, коэффициент контингенции, коэффициент ассоциации и другие измерители. Формулы этих коэффициентов имеют вид :
Кч = φ² , или Кч = φ² ,
(К1 –1) (К2 –1) (К1 –1) (К2 –1)
Кп = √ φ² , или Кп = φ² ,
φ² +1 φ² +1
где k1, k 2 — количество групп, выделенных соответственно по признаку Х (число строк) и по признаку Х2 (число столбцов).
Параметр φ² измеряет степень расхождения между фактическим числом наблюдений в клетках комбинационной таблицы и теоретически возможным при полном отсутствии связи. Значение φ² обычно определяется по формуле:
φ² = k k² m²ј - 1,
Σ Σ Мј Мј
Ј=1 Ј=1
где mј - число наблюдений на пересечении ί–й строки и ј-го столбца комбинационной таблицы; Мί = k² m ij, Мj = k mij,
Σ Σ
Ј=1 Ј=1 общее число наблюдений соответственно по строке i и по столбцу ј.
По данным нашего примера, находим величину
φ² = { 2² + 1² + 1² + 1² + 1² + 1² + 1² + 1² + 1² + 1² } – 1 = 1,986 – 1 =
4.3 2.3 4.3 2.3 3.3 4.2 2.2 3.1 3.2 2.2
0,986.
Отсюда Кч = 0,534(0,285), Кп = 0,705(0,496) .
Как видно, коэффициент Чупрова, учитывая количество групп, выделяемых по каждому признаку, дает более осторожную оценку связи. Если по каждому из двух признаков выделено только по две группы, то коэффициент Кц приводит к тому же результату, что и коэффициент контингенции К:
K = а•d-b•с
√ (a+b) .(b+d) . (d+ с) • (с + а)
В этой формуле а, b, с, d — число наблюдений или объектов по клеткам комбинационной таблицы. Коэффициент контингенции рассчитывается, по существу, для случая, когда группировка выполнена по альтернативному признаку. Для нашего примера, когда X— стаж работы, а Y— размер заработной платы, имеем :
Стаж работы З/пл. до 2000 руб. З/ пл. выше 2000 руб. Всего
Менее двух лет 5(а) 1(b) 6
2 года и более 1(с) 4(d) 5
Итого 6 6 11
К = 20-1 = 19/30 = 0,633
√(5+1) (1+4) (4+1) (1+5)
Для сравнения
Кч = √ 0,40111 = √0,40111 = 0,633,
√(2-1) (2-1)
Кп = √ 0,40111 = √0,28628 = 0,535.
1+ 0,40111
Иногда для ускорения расчетов коэффициент взаимосвязи рассчитывают в форме коэффициента ассоциации Ка.
Ка = а.d – b.с,
а.d – b.с
В нашем примере получаем
Ка = 5.4 – 1.1 = 0,905
5.4 + 1.1
1.4. Регрессионный анализ взаимосвязей
Цель регрессионного анализа — установить конкретную аналитическую зависимость одного или нескольких результативных показателей от одного или нескольких признаков-факторов. Полученное при этом уравнение регрессии используется для содержательного описания изучаемого процесса, прогнозирования, выбора оптимального варианта и т. д. Если в уравнение регрессии включены признаки-факторы, учитывающие возможное случайное поведение результативного признака, такое выражение представляет регрессионную модель явления или процесса. Наибольшее применение получили уравнения регрессии, отражающие взаимосвязь одного результативного признака с одним (парная регрессия) или несколькими (множественная регрессия) признаками-факторами.
Для регрессионного анализа чаще всего используют следующие парные и множественные зависимости :
Y = а0 + a ∙X = (парная линейная регрессия);
Y = αо + α ∙ Х + α2 · Х² (парная параболитическая регрессия);
Y = p
∑ αi · Х¹ (парная полиномиальная регрессия степени р).
i=0
Y = αо + α¹ (парная гиперболическая регрессия);
Х
Y = αо • Хα¹ (парная степенная регрессия);
Y = αо · α¹х (парная показательная регрессия);
Y = αº + α1 . Х + α2 . Х2 +…+ αр . Хр (множественная линейная регрессия );
Y = ао•Хα ∙ Х2 α2 ∙ … Хрαр (множественная степенная регрессия).
Такие зависимости обычно поддаются содержательному объяснению. Так, в уравнении парной линейной регрессии параметр α0 — это значение Y, полученное при X = 0, т. е. начальный уровень; а — прирост Y при увеличении X на единицу (скорость изменения).
В уравнении параболической регрессии параметр а2 характеризует скорость изменения скорости — в среднем на величину 2.а2 изменится прирост Y при увеличении Х на единицу. Аналогично рассматриваются и параметры полинома более высокой степени (степени р).
В гиперболической зависимости параметр а0 показывает уровень признака Y, который устанавливается при больших значениях X, а1 характеризует скорость приближения к этому уровню.
В регрессии степенного типа параметр а0 показывает результат при X = 1; параметр а1 есть так называемый коэффициент эластичности, указывающий на сколько процентов изменится величина результата (Y) при изменении уровня факторного признака Х на 1 %. Для любой парной регрессии имеем :
Кэ = dY . X ,
dX Y
В частности, для линейной регрессии
Кэ = α¹ X ,
ао + а1Х
т.е. зависит от X. Если X = X , то Кэ = α¹Х / Ỳ , но гораздо больший интерес для анализа представляет расчет Кэ для каждого объекта (наблюдения) в отдельности. Для множественной регрессии Y=ƒ (Х1, ..., Хр) коэффициент эластичности может быть определен для каждого признака-регрессора Х1, Х2, ..., Хћ:
Кэ (Х1) = dY . X i,
dX ƒ(Х,…,Хp)
Парная показательная регрессия используется особенно часто, если X — признак времени. Тогда Y = а0 •а¹ — уравнение, описывающее поведение уровней ряда динамики во времени: а0 — начальный уровень ряда (при t = 0), α¹ — средний (например, среднегодовой) коэффициент роста.
Для линейной множественной регрессии смысл параметров аналогичен парной линейной регрессии, но при условии, что все признаки, за исключением рассматриваемого, зафиксированы на постоянном уровне. Для множественной степенной регрессии или, как чаще говорят, для мультипликативной модели параметры α¹, α2, ..., ар имеют смысл соответствующих коэффициентов эластичности. Преимуществом мультипликативного уравнения регрессии является то, что для получения ненулевого значения Y требуется, чтобы ни один из признаков не был равен нулю .
После выбора формы аналитической связи результативного и факторных признаков ставится задача определения конкретных числовых значений параметров αо, а1, ..., ар . Проще всего она решается, если эта связь (парная или множественная) — линейная. Параметры уравнения регрессии рассчитываются таким образом, чтобы вычисленные по уравнению значения Y в наименьшей мере отличались от фактически наблюдаемых. Это достигается расчетом параметров уравнений регрессии по методу наименьших квадратов. Параметры регрессии по данному методу подбираются такими, чтобы обеспечить минимальную сумму квадратов отклонений фактических величин Y от вычисленных по уравнению регрессии для заданных значений факторных признаков. Для линейной регрессии парного типа дело сводится к решению системы уравнений
{ а0 n + а1 Σ Х = ΣY,
ао Σ Х + а1 Σ Х² = ΣХY,
где n — количество наблюдений, ΣХ, ΣY, ΣХY, ΣХг - определяются по фактическим данным.
В общем случае для множественной линейной регрессии степени р решается система из (р + 1) уравнения с (р + 1) неизвестным параметром: а0, а1, .., ар .
Для парной линейной регрессии расчет параметров через решение системы уравнений дает тот же результат, что и предложенный ранее расчет параметров а и b через линейный коэффициент корреляции и средние квадратические отклонения.
Все другие формы нелинейных регрессий обычно сводятся к линейным преобразованиям исходных данных. Так, для гиперболической зависимости вместо переменной X вводится переменная Х' = 1 / X и далее соответствующим образом пересчитываются исходные данные. Для степенной зависимости вводятся переменные Y' = 1gY и Х' = 1gХ, соответствующим образом преобразуются исходные данные, после чего, как и в случае линейной регрессии, определяются параметры уравнения Y' = Ао + а1Х. В этом уравнении Ао = 1оgαº.
Для парной показательной регрессии в таблицу исходных данных вместо величин Y заносят значения Y ' = 1gY . Решение системы уравнений дает значения параметров А0 и А1, откуда определяются искомые а0 и а1 (А0 = 1gа0 и А1 = 1gа1).
Для полинома степени р в таблицу исходных данных вводятся переменные Х1 = X, Х2 = Х2, Х3 = Х3, ..., Хр = Хр, после чего задача сводится к определению параметров линейного уравнения множественной регрессии Y = ао + а1Х + а²Х + ... + ар Xр .
Для множественной мультипликативной регрессии замена первичных данных о признаках Х1, Х2, ..., Хр, Y— их логарифмами также приводит к уравнению множественной линейной регрессии, в котором параметры а¹, а2, ..., ар соответствуют параметрам в искомой мультипликативной формуле, а параметр А0 является логарифмом искомого параметра а0 .
О качестве полученных уравнений регрессии судят по той доле общей дисперсии признака Y, которая объясняется факторными признаками уравнения регрессии. По аналогии с расчетом доли межгрупповой дисперсии признака Y в общей дисперсии для каждого конкретного уравнения парной или множественной зависимости может быть определена величина дисперсии факторной и показана ее доля в общей вариации признака результата Y. Факторная дисперсия показывает вариацию теоретических значений признака Y, найденных по уравнению регрессии, относительно его среднего уровня Ỳ.
Отношение факторной дисперсии к общей называется теоретическим индексом (множественной) детерминации или просто индексом детерминации. В расчетах часто используют также выражение
R² = Q² Y(X) / Q²Y
Показатель R = √R2 называется коэффициентом множественной корреляции, индексом корреляции, теоретическим корреляционным отношением .
Заметим, что ошибки в построении и неточное решение системы линейных уравнений при определении параметров регрессии и особенно нестрогое выполнение первого уравнения системы, могут привести к нарушению баланса общей дисперсии признака Y с суммой факторной и остаточной дисперсий (остаточная дисперсия оценивает вариацию фактических уровней признака Y относительно вычисленных по уравнению регрессии).
Для нашего примера предварительно определяем значения Y, которые следуют из уравнения регрессии Y = 1724,68 + 184,92 • X. При Х= 0; 0; 0; 1; 1; 1; 2; 2; 3; 4; 4 получаем Y = 1724,7; 1724,7; 1724,7; 1909,6; 1909,6; 1909,6; 2094,5; 2094,5; 2279,4; 2464,4; 2464,4.
Факторная дисперсия в этом случае равна
Q2Y(х) = 770945,98/11 = 70086.
Отсюда R² = 70086/11056 = 0,63682, R = 0,7980.
Таким образом, при линейной парной регрессии индекс корреляции есть не что иное, как обычный линейный коэффициент корреляции, взятый по абсолютному значению .
Выбор в качестве уравнений регрессии полиномов степени Р > 1, безусловно, увеличивает значение индекса детерминации коэффициента корреляции. Однако повышать степень полинома целесообразно лишь в тех случаях, когда дополнительно полученные параметры а2, а3, ..., ар реально отображают особенности изучаемого явления. Например, для тех же признаков X и Y определим параметры уравнения Y— а0 +а1Х + а2Х2. С этой целью для перехода к линейной множественной регрессии вводим новую переменную Х2 = X2. Переменная X2 = 0; 0; 0; 1; 1; 1; 4; 9; 16; 16. Теперь матрица Х имеет 11 строк и 3 столбца (р = 2). матрица (ХтХ) определится как
11 18 52
ХтХ = 18 25 174.
52 174 628
Так как ΣY = 22300, ΣXY = 40660, ΣХгУ = 121820, приходим к системе:
11•ао + 18 . а, + 52• а2 = 22300,
18 • а0 + 52 • а. + 174 - а2 = 40660,
52 – ао + 174 - а, + 628 • аг = 121820.
В итоге получаем уравнение
Y = 1722,53 + 189.82 • Х - 1,24 • Х2 ,
Y = 1722,53 + 189,82 •Х— 1,24 •Х2.
Для этого уравнения факторная дисперсия Q²Y(X) равна 70091, R² = 0,63686, R = 0,798. Как видно, в данном примере параболическая зависимость практически не улучшает показателей связи по сравнению с простой линейной регрессией. Тем не менее, она свидетельствует об уменьшении прироста средней месячной заработной платы при увеличении стажа работы на один год. Очередной прирост заработной платы будет на 2 • 1,24 руб. меньше, чем в предыдущем году. Общий же ее рост остается устойчивым во всем интервале трудоспособного возраста.
1.5. Проверка значимости параметров регрессии
Проверка статистической значимости всех параметров, полученных в процессе регрессионно-корреляционного анализа, основывается на предположении, что все эти параметры, а точнее — их значения, являются конкретными числовыми реализациями некоторых случайных величин и для каждого конкретного значения параметра можно оценить как вероятность превышения найденной величины, так и вероятность того, что в процессе расчета могли получить меньшее значение параметра. Здесь используется принцип практической невозможности маловероятных событий. Если найденная величина параметра все-таки попала в зону маловероятных значений, то с достаточной для практики строгостью данное значение параметра можно считать неслучайным или статистически значимым. Если же конкретное значение параметра попадает в область весьма вероятных значений, то это подтверждает гипотезу случайности вычисленного параметра, его статистической незначимости; доверие к такому параметру уменьшается. Проверка значимости сводится к сравнению полученного значения с тем числом, которое отделяет область маловероятных значений от весьма вероятных.
При анализе уравнений множественной регрессии — линейной и нелинейной — возникает задача отбора наиболее значимых признаков-регрессоров Х либо наиболее значимых преобразований (обратных значений X, логарифмов, возведений в степень и т. д.). Для множественной линейной регрессии — это непосредственно отбор наиболее значимых признаков. Признак Х (или его преобразование) считается значимым, если соответствующий параметр регрессии по абсолютному значению настолько отклонился от своего предполагаемого нулевого среднего уровня, что произошло событие редкое, маловероятное. В этом случае и параметр а1, и признак X1 признаются статистически значимыми. Степень отклонения оценивается t–критерием, т. е.
Рис. / – распределение Стьюдента.
а,б— соответственно для одностороннего и двухстороннего критерия. Общая площадь заштрихованной о6ласти равна а, V — число степеней свободы.
где а, — численное значение i–го параметра уравнения множественной регрессии; Q — среднее квадратическое отклонение параметра а (как случайной величины) относительно нулевого уровня.
С технической стороны наиболее трудоемкой оказывается оценка среднего квадратического отклонения Q.
Таблицы t–распределения Стьюдента известны в двух видах. В одних уровень значимости а принят для одностороннего критерия, в других — для двухстороннего (рис. 1). Проверку значимости параметров регрессии удобней проводить по таблицам с двухсторонним критерием. Тогда а — вероятность того, что фактическое значение t будет либо больше (+tтабл), либо меньше (- t табл), определяется как
(Х = 1– Р(|tфакт < tтабл) .
Для таблиц первого типа рассматривается только область положительных значений величины t. Чтобы пользоваться такими таблицами, надо входить в них с уровнем значимости, равным половине от требуемого, т. е. а/2. Если таблица построена по «доверительной вероятности» Р, то входить в неё следует по уровню Р= 1 — а/2.
В нашем примере для линейной регрессии были рассчитаны фактические значения: t0 = 25,96 и t = 4,072. Число степеней свободы п = п — т = 11 — 2 = 9. Выберем уровень значимости а = 0,05 (редким полагаем событие, происходящее с вероятностью 0,05). Теперь по фрагменту таблицы с двухсторонним критерием отбираем tтабл = 2,262. Параметры t0 и t, признаются статистически значимыми .
Видно, что в такую таблицу следует входить с уровнем значимости, равным а/2 = 0,025.
Для множественной регрессии для оценки дисперсии параметров используются элементы главной диагонали матрицы (X7 • X)-1, точнее
σ²t = Ŝ² [(Хт • Х) ¯¹]ii, I = 0,1,…, р,
где Ŝ² — оценка остаточной дисперсии признака Y. Для множественной линейной регрессии
Вывод: наблюдается прямая зависимость между показателями, так как при увеличении среднего значения факторного признака увеличивается и среднее значение результативного признака. То есть начисленной заработной платы увеличивается среднее значение накопления сбережений во вкладах и ценных бумагах.
ЗАКЛЮЧЕНИЕ
Таким образом, рассмотрев теоретические вопросы проведения изучения взаимосвязи явлений методом аналитической группировки, мы пришли к выводу, что группировка – это разделение изучаемого явления на части по существенным признакам. При статистическом изучении социально-экономических явлений группировка является одним из основных методов анализа.
Методом группировок решаются следующие задачи:
1. Выделение социально-экономических типов
2. Изучение структуры явления и структурных сдвигов происходящих в нем
3. Выявление связи и закономерности между явлениями.
Решаются эти задачи с помощью типологических, структурных и аналитических группировок. Приемы группировок разнообразны. Это разнообразие обусловлено с одной стороны разносторонностью признаков статистического наблюдения, которое может быть положено в основание группировки, а с другой стороны разными задачами, которые ставятся перед группировками.
Прежде чем проводить группировку необходимо определить группировочный признак или основание группировки. Основанием группировки является признак, по которому совокупность делится на группы. Выбор основания группировки зависит от цели данной группировки и предварительного экономического анализа.
Аналитическая группировка выявляет взаимосвязи между изучаемыми явлениями и их факторными и результативными признаками.
Она позволяет установить связь между отдельными признаками изучаемого социально-экономического явления. С помощью аналитической группировки можно установить связь между двумя признаками – факторными и результативными, что позволяет, зная характер связи, определить ее причину. В статистике зависимые признаки называются результативными, а признаки, оказывающие влияние на них – факторными.
Рассмотрев механизм проведения изучения взаимосвязи явлений с помощью метода аналитической группировки, мы смогли провести расчет задания № 4 и сделать соответствующие выводы:
-с увеличением среднесписочной численности работников по группам средний выпуск на одного работника увеличивается;
-связь между выпуском продукции и среднесписочной численностью работников прямая и тесная. Выпуск продукции обусловлен на 65,8% среднесписочной численностью работников, остальные 34,2% приходятся на другие факторы, не участвующие в расчёте;
-величина выпуска продукции объясняется различиями численности работников, остальные 52% - влияние прочих факторов. Т.е. преобладающее влияние на вариацию выпуска продукции оказывают прочие факторы.
В аналитической части с помощью прикладной программы Excel было проведено самостоятельное статистическое исследование и сделан следующий вывод: наблюдается прямая зависимость между показателями, так как при увеличении среднего значения факторного признака увеличивается и среднее значение результативного признака. То есть величина начисленной заработной платы увеличивается и увеличивается среднее значение накопления сбережений во вкладах и ценных бумагах.
СПИСОК ЛИТЕРАТУРЫ:
1. Елисеева И.И., Рукавишников О.В. Группировка, корреляция, распознавание образов. – М.: Статистика, 1977. – 289 с.
2. Глинский В.В. Статистические методы периодизации социально-экономических процессов. – Новосибирск: Изд-во Новосибирского гос. ун-та, 1992. – 234 с.
3. Глинский В.В., Ионин В.Г. Статистический анализ: Учебное пособие. – М.: Филинъ, 1998. – 258 с.
4. Макроэкономическая статистика: учебное пособие / Под ред. В.Н. Салина – М.: Дело, 2000. –335 с.
5. Плошко Б.Г. Группировка и системы статистических показателей. – М.: Статистика, 1971. – 215 с.
6. Рябушкин Т.В. и др. Статистические методы и финансовый анализ социально-экономических процессов. – М.: Наука, 1990. – 293 с.
7. Салин В.Н. Социально-экономическая статистика: учебник для вузов. – М.: Юристъ, 2001. – 457 с.
8. Статистика: учебник / Под ред. И.И. Елисеева – М.: Проспект, 2002. – 443 с.
9. Статистика финансов: Учебник для вузов / Под ред. В.Н. Салина. – М.: Финансы и статистика, 2000. – 813 с.
10. Экономико-статистический анализ: Учебное пособие для вузов / Под ред. С.Д. Ильенкова. – М.: Юнити-Дана, 2002. – 215 с.
11. Экономическая статистика. Учебник для вузов / Под ред. Ю.И. Иванова. – М.: ИНФРА-М, 1998. – 479 с.
ПРИЛОЖЕНИЕ 1
Основные формулы, используемые в работе
1. Средние величины:
1) Средняя арифметическая простая:
,
где n – число вариантов
2) Средняя арифметическая взвешенная:
,
где f – веса (частота повторения одинаковых признаков)
2. Анализ ряда динамики предполагает расчёт системы показателей
1) Абсолютный прирост (Δу):
Δуц = уi – уi-1 (цепной)
Δуб = уi – уо (базисный),
где уi – уровень сравниваемого периода
уi-1 – уровень предшествующего периода
уо – уровень базисного периода.
2) Среднемесячный абсолютный прирост ( ):
или Δуц = ,
где n – число абсолютных приростов в изучаемом периоде,
m – число уровней ряда динамики в изучаемом периоде
3) Темп роста (Тр):
Тр = ∙100% (цепной)
Тр = ∙100% (базисный)
4) Среднемесячный темп роста (Тр)
,
где n – число коэффициента роста.
5) Темпы прироста (Тпр)
Тпр = Тр – 100
6) Абсолютное значение 1% прироста (А%)
А% =
3. Формулы для аналитического выравнивания по прямой:
Прямая линия выражается при помощи следующего уравнения:
= ао + а1t,
где – выравненные значения ряда
t – время
ао и а1 – параметры искомой прямой
ао = ,
а1 = ,
где у – фактические уровни ряда динамики
n – число лет
4. Остаточное среднее квадратическое отклонение:
,
5. Коэффициент вариации:
∙100%
6. Коэффициент корреляции
r = ,
где r – коэффициент корреляции
- средняя величина признака х,
- средняя величина признака у,
- средняя из попарных произведений изучаемых признаков х и у,
- среднее квадратическое отклонение факторного признака,
- среднее квадратическое отклонение результативного признака.
7. Коэффициент детерминации
i = r2
8. Критерий Стьюдента
,
где n – число наблюдений
k – число факторов в модели
9. Прогнозирование
1) Метод экстраполяции
y1 = + taSyt,
где ta – коэффициент доверия по распределению Стьюдента (определяется по таблице Стьюдента),
Sy = / (n – m),
где n – число уровней ряда динамики,
m – число параметров адекватной модели тренда (для уравнения прямой m =2 )
(yt - taSyt) ≤ yпр. ≤ (yt + taSyt)
2) Метод среднегодовых показателей
Yt = y0 + ∙t или Yt = y0∙ ,
где y0 – начальный уровень ряда,
- среднегодовой абсолютный прирост,
- среднегодовой темп роста,
t – период времени
|