litceysel.ru
добавить свой файл
1

ЛЕКЦИЯ №24

КЛАСТЕРНЫЙ АНАЛИЗ (ПРОДОЛЖЕНИЕ)

Монотонность

Для графического представления процесса объединения все индивиды (группы) размещаются в соответствующем порядке на оси абсцисс. Последовательность объединений (иерархия или дендрограмма) требует, чтобы каждое объединение было связано с некоторым значением ординаты (обычно для этого используют меру различия).

множество стратегий объединения:


  • стратегия "ближнего соседа"

Это монотонная стратегия, сильно сжимающая пространство.

  • стратегия " дальнего соседа" (монотонная сильно растягивающая стратегия)

  • гибкая стратегия (применима для любой меры различия и определяется четырьмя ограничениями):


Стратегия монотонная, если , то стратегия сохраняет метрику. Если то стратегия сжимает пространство, а если , то растягивает. На практике обычно используют

Замечание. Разделяющие (дивизионные) стратегии здесь не рассматриваются.

Пример 1: Имеются 5 объектов, для которых заданы меры различия , образующие матрицу :


Таблица 1.





1

2

3

4

5

1

-

0.227

0.250

0.422

0.897

2

0.227

-

0.492

0.387

0.917

3

0.250

0.492

-

0.356

1.000

4

0.422

0.387

0.356

-

0.773

5

0.897


0.917

1.000

0.773

-

Шаг 1. Т.к. , то объекты 1 и 2 объединяются в группу 6. Затем вычислим . Для вычисления воспользуемся гибкой стратегией:

.

Согласно (23.10) запишем: .

В результате вычислений получим:

.

Новая матрица будет иметь вид:


Таблица 2.




6

3

4

5

6

-

0.407

0.449

1.077

3

0.407

-

0.356


1.000

4

0.449

0.356

-

0.773

5

1.077

1.000

0.773

-

Шаг 2. , т.е. на втором шаге объединим группы 3 и 4, новую группу обозначим номером 7.

Шаг 3. Т.к. , то на третьем шаге объединяем группы 6 и 7, новую группу обозначим номером 8.

Шаг 4. На последнем шаге объединяем оставшиеся две группы на уровне . Новую группу обозначим номером 9

Результаты иерархической классификации наблюдений представлены на рис.1.



Рис.1. Дендрограмма наблюдений

Анализ временных рядов


Анализ временных рядов представляет собой самостоятельную, весьма обширную и одну из наиболее интенсивно развивающихся областей математической статистики.

Временным рядом (динамическим рядом) в технике и экономике называется последовательность наблюдений некоторого признака (случайной величины) X в последовательные равноотстоящие моменты времени. Отдельные наблюдения называются уровнями ряда, которые будем обозначать

, где n – число уровней.

Анализ временных рядов используется, в частности, для решения следующих задач:


  • для построения математической модели процесса, представленного временным рядом;

  • для исследования структуры временного ряда, например для выявления изменения среднего уровня значений (тренда) и обнаружения периодических колебаний;

  • для прогнозирования будущего развития процесса, представленного временным рядом.

Для решения этих и других задач анализа временных рядов исследователями предложено большое количество различных методов:

  • методы корреляционного анализа, позволяют выбрать наиболее существенные периодические зависимости и их лаги (задержки) в одном процессе (автокорреляция) или между несколькими процессами (кросскорреляция);

  • методы спектрального анализа позволяют находить периодические и квазипериодические зависимости в данных;

  • методы сглаживания и фильтрации предназначены для преобразования временных рядов с целью удаления из них высокочастотных или сезонных колебаний;

  • методы авторегрессии и скользящего среднего оказываются особенно полезными для описания и прогнозирования процессов, проявляющих однородные колебания вокруг среднего значения.

Таким образом, важнейшей классической задачей при исследовании временных рядов является выявление и статистическая оценка основной тенденции развития изучаемого процесса и отклонений от нее.

Пример 2. Рассмотрим простейший пример временного ряда. В табл. 3 приведены данные, отражающие цену и спрос (усл. ед.) на некоторый товар за восьмилетний период, т.е. два временных ряда – цена товара и спроса на него. Отметим, что при анализе временных рядов, на первом этапе исследования изучается графическое представление и описание поведения временного ряда (см. рис. 2).


Таблица 3.


Год, t

1

2

3

4

5

6

7

8

Цена, xt

492

462

350

317

340

351

368

381

Спрос, yt

213

171

291

309

317

362

351

361



Рис. 2. Динамика спроса за 8 лет

В общем виде при исследовании экономического временного ряда выделяются несколько составляющих:




где тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов, т.е. длительную ("вековую") тенденцию изменения признака, (например, рост населения, изменение структуры потребления и т.п.);

сезонная компонента, отражающая повторяемость экономических процессов в течение не очень длительного периода (года, иногда месяца, недели и т.п. например, объем продаж товаров или перевозок пассажиров в различное время года);

циклическая компонента, отражающая повторяемость экономических процессов в течение длительных периодов (например, влияние демографических "ям", циклов солнечной активности и т.п.);

случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов.

Следует обратить внимание на то, что в отличие от первые три составляющие (компоненты) , , являются закономерными, неслучайными.

Несмотря на кажущуюся схожесть последовательности наблюдений (вариационного ряда) и временного ряда , они имеют принципиальные отличия:


  • во-первых, в отличие от элементов выборки члены временного ряда, как правило, не являются статистически независимыми;

  • во-вторых, члены временного ряда не являются одинаково распределенными.

Стационарные временные ряды и автокорреляционная функция


Большое значение в анализе временных рядов имеют стационарные временные ряды, вероятностные свойства которых не изменяются во времени.

Временной ряд называется строго стационарным (или стационарным в узком смысле), если совместное распределение вероятностей наблюдений такое же, как и наблюдений при любых и . Другими словами, свойства строго стационарных рядов не зависит от момента , т.е. закон распределения и его числовые характеристики не зависят от . Следовательно, математическое ожидание , среднее квадратическое отклонение могут быть оценены по наблюдениям






Степень тесноты связи между последовательностями наблюдений временного ряда и (сдвинутых относительно друг друга на единиц, или, как говорят, с лагом ) может быть определена с помощью коэффициента корреляции





Так как коэффициент измеряет корреляцию между членами одного и того же ряда, его называют коэффициентом автокорреляции, а зависимость автокорреляционной функцией. Для стационарного временного ряда автокорреляционная функция зависит только от лага τ, причем , т.е. при изучении автокорреляционной функции можно ограничиться рассмотрением только положительных значений τ.

Статистической оценкой является выборочный коэффициент автокорреляции , определяемый по формуле коэффициента корреляции (10.7), в которой а n заменяется на n – τ:


. (24.5)

Функцию называют выборочной автокорреляционной функцией, а ее график – коррелограммой.

Для стационарного временного ряда с увеличением лага взаимосвязь членов временного ряда и ослабевает и автокорреляционная функция должна убывать (по абсолютной величине).

Пример 3. По данным примера 2 для временного ряда вычислим среднее значение, среднее квадратическое отклонение и коэффициент автокорреляции (для лага .

РЕШЕНИЕ. По формуле (24.2) вычислим:

(усл. ед.).

Для вычисления дисперсии (среднего квадратического отклонения) вспомним свойство дисперсии: , (усл. ед.).

Коэффициент автокорреляции для , равен коэффициенту корреляции между последовательностями семи пар наблюдений и :




213

171

291

309

317

362

351



171

291

309

317

362

351

361

Теперь по формуле (24.5) получим: . Аналогично вычислим , .

Знание автокорреляционной функции может оказать существенную помощь при подборе модели анализируемого временного ряда и статистической оценке ее параметров.

Замечания. При расчете следует помнить, что с увеличением τ число n – τ пар наблюдений уменьшается, поэтому лаг τ должен быть таким, чтобы число n – τ было достаточным для определения .

Для выборочного коэффициента автокорреляции , особенно при небольшом числе пар наблюдений n – τ, свойство монотонного убывания (по абсолютной величине) при возрастании τ может нарушаться (см. пример 2).