Методы изучения связи явлений

Параметрические показатели связи

Количественная оценка связей социальных явлений осуществляется на базе расчета и анализа целого ряда коэффициентов.

При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязности. Для оценки используют ряд показателей.

Коэффициенты ассоциации и контингенции применяются для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп. При исследовании связи числовой материал располагают в виде таблиц сопряженности.

Таблица для вычисления коэффициентов ассоциации и контингенции.

А

B

A+B

C

D

C+D

A+C

B+D

A+B+C+D

Для вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным. Коэффициенты определяются по формулам:

ассоциации: ,

контингенции: .

Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если Ka>=0.5 или Kk>=0.3.

Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициента взаимной сопряженности Пирсона-Чупрова. Этот коэффициент вычисляется по следующей формуле:

Пирсона: ;

Чупрова: ,

где j 2 - показатель взаимной сопряженности; определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки. Вычитая из этой суммы 1, получим j 2:

;

Чем ближе рассчитанные коэффициенты к 1, тем теснее связь.

Вспомогательная таблица для расчета коэффициента взаимной сопряженности

X\Y

I

II

III

Всего

I

II

III

 

 

nxy

nx

nx

nx

Итого

ny

ny

ny

n

.

В статистике существуют модификации коэффициента Чупрова, например, через расчет c 2 - критерия Пирсона. Коэффициент взаимной сопряженности (К) вычисляется по формуле:

,

где - наиболее распространенный критерий согласия, используемый для проверки статистической гипотезы о виде распределения. Коэффициент Чупрова изменяется в пределах 0<=K<=1.

Другой модификацией коэффициента взаимной сопряженности Чупрова является:

,

где k1 - число сток в таблице; k2- число граф в таблице; n- число наблюдений.

Особое значение для оценки связи имеет биссеральный коэффициент корреляции, который дает возможность оценить связь между качественным альтернативным и количественным варьирующим признаками. Данный коэффициент вычисляется по формуле:

,

где Y2 и Y1 - средние в группах, s y- среднее квадратическое отклонение фактических значений признака от среднего уровня, p - доля первой группы, q - доля второй группы, Z - табличные значения Z-распределения в зависимости от p.

Непараметрические показатели связи. Ранговые коэффициенты связи.

В анализе социальных явлений часто приходится прибегать к различным условным оценкам, например рангам, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи. Данные коэффициенты исчисляются при условии, что исследуемые признаки подчиняются различным законам распределения.

Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.

Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые определяют. Данные ранги называются связанными.

Принцип нумерации значений исследуемых признаков является основой непараметрических методов изучения взаимосвязи между социальными явлениями и процессами.

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена (r ) и Кендалла (t ). Эти коэффициенты могут быть использованы для определения тесноты связей как между количественными, так и между качественными признаками при условии, если их значения упорядочить или проранжировать по степени убывания или возрастания признака.

Коэффициент корреляции рангов (Спирмена) рассчитывается по формуле (для случая, когда нет связных рангов):

,

где di2 - квадрат разности рангов, n - число наблюдений (число пар рангов).

Коэффициент Спирмена принимает любые значения в интервале [-1;1]. Значимость коэффициента корреляции рангов Спирмена проверяется на основе t-критерия Стъюдента. Расчетное значение критерия определяется по формуле:

.

Значение коэффициента корреляции считается существенным, если tp > tkp(a , k = n - 2).

Если совокупность значений по исследуемому признаку содержит связные ранги, то коэффициент корреляции Спирмена вычисляется по формуле:

,

где , tj - число одинаковых рангов в j-ом ряду.

На практике, если величины Tx и Ty не существенно отличаются относительно значения , пользуются формулой:

.

Ранговый коэффициент корреляции Кендалла (t ) может также использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты, ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле:

,

где n - число наблюдений, S - сумма разностей между числом последовательностей и числом инверсий по второму признаку.

Расчет данного коэффициента выполняется в следующей последовательности:

  1. значения X ранжируются в порядке возрастания или убывания;
  2. значения Y располагаются в порядке, соответствующем значениям X;
  3. для каждого ранга Y определяется число следующих за ним значений рангов, превышающих его величину. Суммируя таким образом числа, определяется величина P как мера соответствия последовательностей рангов по X и Y и учитывается со знаком (+);
  4. для каждого ранга Y определяется число следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком (-);
  5. определяется сумма баллов по всем членам ряда.

Если в изучаемой совокупности есть связные ранги, то расчеты следует производить по следующей формуле:

,

где .

Как правило, коэффициент Кендалла меньше коэффициента Спирмена. При достаточно большом объеме совокупности значения данных коэффициентов имеют следующую зависимость:

.

Связь между признаками можно признать статистически значимой, если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0.5.

для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации) (W), который вычисляется по формуле:

,

где m - количество факторов, n - число наблюдений, S - отклонение суммы квадратов рангов от средней квадратов рангов.

Значимость коэффициента конкордации проверяется на основе c 2 - критерия Пирсона:

.

В случае наличия связных рангов коэффициент конкордации определяется по формуле:

,

где , tj - количество связных рангов по отдельным показателям.

Проверка значимости осуществляется по формуле:

.

Коэффициент конкордации принимает любые значения в интервале [-1;1].

Ранговые коэффициенты корреляции Спирмена, Кендалла и конкордации имеют то преимущество, что с помощью их можно измерять и оценивать связи как между качественными, так и между атрибутивными признаками, которые поддаются ранжированию.

Применение математико-статистических методов анализа данных

Усложнение структуры социально-экономических явлений предполагает использование ряда методов классификации и выделения однородных групп, в основе построения которых лежат меры близости. Сущность заключается в том, что распределение исследуемых объектов или явлений в совокупности должно подчиняться нормальному закону распределения с тем, чтобы получить модели, которые действительно будут отражать качественно однородные группы.

Наибольшее распространение в анализе явлений и процессов получили: кластерный анализ, метод главных компонент, факторный анализ.

Пусть имеется n объектов, каждый из которых характеризуется набором k признаков.

Требуется разбить эту совокупность на однородные группы. Полученные в результате разбиения группы называются кластерами, а метод их нахождения - кластерным анализом.

Наиболее трудным представляется определение однородности объектов, которые задаются введением расстояния между объектами xi и xj (r (xi,xj)).

Объекты будут однородными в случае r (xi,xj)<= r ПОР где r ПОР - заданное пороговое значение.

Выбор расстояния (r ) является основным моментом исследования от которого зависят окончательные варианты разбиения. Наиболее распространенными считаются процедуры “ближайшего соседа”, основанные на близости объектов по совокупности рассматриваемых признаков, и “дальнего соседа”.

В задачах кластерного анализа часто используют Евклидово и Хемингово расстояние

Евклидово расстояние:

;

сравнивается близость двух объектов по большому числу признаков.

Хемингово расстояние:

;

используется как мера различия объектов, задаваемых атрибутивными признаками.

Выбор метрики расстояния определяется структурой признакового пространства и целью классификации.

При использовании процедур кластерного анализа расчленение объектов совокупности на качественно однородные группы производится одновременно по большому числу признаков, но при соблюдении условия, что ни один признак не выделяется по своей значимости так, что группировка на его основе является главной. Особенностью кластерного анализа является то, что различия между единицами, входящими в выделенную группу, незначительны, а различия между группами существенны.

Модели на основе результатов кластерного анализа позволяют исследовать однородные по основным характеристикам и параметрам объекты и процессы.

По мере углубления анализа в рассмотрение включается все большее число признаков. При этом требуется обозримость. Закономерность распыляется на большее множество связей. Поэтому целесообразно осуществлять классификацию по нескольким обобщающим признакам, полученным с помощью метода главных компонент или факторного анализа.

 

 


Формулы приведены по книге: Теория статистики под ред. Проф. Шмойловой Р.А. - М.: "Финансы и статистика", 1996.

Хостинг от uCoz