Учебные пособия |
Курс социально-экономической статистики Раздел: Экономика
|
Хеммингово расстояние используется как мера различия объектов, задаваемых дихотомическими признаками. Это расстояние определяется по формуле
(53.45)
и равно числу несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах.
Как правило, решение задач классификации многомерных данных предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих выбрать из k исходных признаков x1, x2, ..., xk сравнительно небольшое число наиболее информативных, т.е. уменьшить размерность наблюдаемого пространства.
В ряде процедур классификации (кластер-процедур) используют понятия расстояния между группами объектов и меры близости двух групп объектов.
Пусть Si — i-я группа (класс, кластер), состоящая из ni объектов;
— среднее арифметическое векторных наблюдений группы Si, т.е. «центр тяжести»;
ρ(Sl, Sm) — расстояние между группами Sl и Sm.
Наиболее употребительными расстояниями и мерами близости между классами объектов являются:
• расстояние, измеряемое по принципу «ближайшего соседа»:
(53.46)
• расстояние, измеряемое по принципу «дальнего соседа»:
(53.47)
• расстояние, измеряемое по «центрам тяжести» групп:
(53.48)
где xl и xm — векторы средних соответственно Sl и Sm кластеров;
• расстояние, измеряемое по принципу «средней связи», определяемое как среднее арифметическое всех попарных расстояний между представителями рассматриваемых групп:
(53.49)
Академиком А.Н. Колмогоровым было предложено «обобщенное расстояние» между классами, которое включает в себя в качестве частных случаев все рассмотренные выше виды расстояний.
Расстояния между группами элементов — особенно важный параметр в так называемых агломеративных иерархических кластер-процедурах, так как принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп: сначала — самых близких, а впоследствии — все более и более отдаленных друг от друга. При этом расстояние между кластером Sl и кластером S(m,q), являющимся объединением двух других кластеров — Sm и Sq можно определить по формуле
(53.50)
где ρlm = ρ (Sl, Sm); ρlq = ρ (Sl, Sq) и ρmq = ρ (Sm, Sq) - расстояния между кластерами Sl, Sm и Sq;
α, β, γ и δ — числовые коэффициенты, значения которых определяют специфику процедуры, ее алгоритм.
Например, при α = β = -δ = 1/2 и γ = 0 приходим к расстоянию, построенному по принципу «ближайшего соседа». При α = β = δ = 1/2 и γ = 0 расстояние между классами определяется по принципу «дальнего соседа», т.е. как расстояние между двумя самыми дальними элементами этих классов.
К содержанию книги: Курс социально-экономической статистики
Смотрите также:
СТАТИСТИКА ЭКОНОМИЧЕСКАЯ. Отрасль статистики, изучающая ...
СТАТИСТИКА
ЭКОНОМИЧЕСКАЯ. Отрасль статистики, изучающая материальное |
ПРОГНОЗ ЭКОНОМИЧЕСКОЙ АКТИВНОСТИ статистика ...
ПРОГНОЗ ЭКОНОМИЧЕСКОЙ
АКТИВНОСТИ ... Вводный курс по |
Л.П. Кроливецкой. -
М.: Финансы и статистика, 1996. Березина М.П. |
ОСНОВНЫЕ ВИДЫ ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ
ОСНОВНЫЕ ВИДЫ ЭКОНОМИЧЕСКОЙ
ИНФОРМАЦИИ ... Статистика дает |
Моделирование рисковых ситуаций в экономике и бизнесе
Для студентов,
обучающихся по специальностям «Статистика», « |
Практическое значение экономической теории. Главные ...
межотраслевых (экономическая
география, демография, статистика и др.). |
Азимов Л.Б.,
Журавская Е.В., Макарова О.Ю. Преподавание экономики в |
Деятельность предприятия. Экономика предприятия
М.: Финансы и статистика,
1996. 11. Настольная книга финансиста / Под ред. |
ВНЕШНЕЭКОНОМИЧЕСКИЕ СВЯЗИ Внешнеэкономическая деятельность предприятия