litceysel.ru
добавить свой файл
1 2 ... 10 11
Глава 3. Анализ многомерных данных





В предыдущей главе рассматривались методы статистического анализа данных, описываемых, в основном, одной переменной. Теперь мы рассмотрим методы, позволяющие анализировать данные, описываемые любым числом переменных, т.е. так называемые многомерные данные.

3.1 Классификация методов анализа многомерных данных

Несмотря на чрезвычайное разнообразие методов анализа многомерных данных, имеется четкая система представления как самих данных, так и результатов их анализа. Данные представляются в виде прямоугольной таблицы (матрицы), строки которой соответствуют различным ситуациям (наблюдениям), а столбцы - переменным, наблюдаемым в этих ситуациях. Результаты же представляются в виде функций, выражающих одни переменные (называемые зависимыми переменными, или откликами) через другие переменные (называемые независимыми переменными, или факторами). Такое представление исходных данных и результатов анализа чрезвычайно удобно, поскольку предлагает ясную схему для сбора данных, их обработки и интерпретации полученных результатов.

Предлагаемая ниже классификация методов анализа данных проведена по двум основаниям: отсутствию или наличию независимых переменных, а также по типу зависимых и независимых переменных, которые могут быть качественными или количественными. Схема этой классификации представлена на рис. 3.1. Основным служит деление на методы, предполагающие наличие независимых переменных (левая часть схемы) и не предполагающие их наличие (правая часть). Это деление определяет содержательную постановку задачи, тогда как дальнейшее деление методов по типу зависимых и независимых переменных носит скорее технический характер, детализируя математическую процедуру ее решения.

В случае априорного разделения переменных на зависимые и независимые (см. левую часть рис. 3.1) задача анализа состоит в получении описания зависимости Y от X. Выбор метода решения зависит прежде всего от того, являются ли качественными или количественными зависимые переменные Y. Окончательное решение о выборе метода анализа данных принимается в зависимости от типа независимых переменных X.


Наиболее часто на практике для установления связи между независимыми и зависимыми переменными применяют регрессионный анализ и дисперсионный анализ. В обоих случаях откликами служат количественные переменные, однако факторы в регрессионном анализе количественные, а в дисперсионном - качественные.




Рис 3.1. Классификация методов анализа данных


В регрессионном анализе наиболее явно виден функциональный характер модели анализа данных. Задача регрессионного анализа прямо формулируется как задача поиска функциональной зависимости Y от X, причем задача поиска формы связи не менее важна, чем вопросы статистической значимости полученных результатов. Наиболее широко применяется модель множественного линейного регрессионного анализа, позволяющая получать аналитически все стандартные статистические оценки. В более сложных ситуациях (например, при использовании пошаговых процедур) для получения статистических выводов приходится применять методы, основанные на стохастическом моделировании, такие как случайная пермутация или бут-стрэп.

Задачей дисперсионного анализа является установление связи между независимыми качественными переменными и зависимыми количественными. Однако поскольку функциональная структура связи очень проста - отклики представляются как линейные комбинации бинарных переменных - уровней факторов, то основное внимание в дисперсионном анализе уделяется вопросам статистической значимости влияния отдельных факторов.

Если отклики Y качественные, то для анализа используется группа методов, известная под общим названием распознавания образов. Наиболее используемым методом распознавания в случае количественных факторов является дискриминантный анализ. Примерами методов распознавания, ориентированных на случай качественных факторов, могут служить сегментационный анализ и метод обобщенного портрета.


Целью дискриминантного анализа является получение правила, позволяющего на основе наблюденных значений количественных независимых переменных X предсказывать значение качественной переменной Y, указывающей на принадлежность наблюдения к одному из заданных классов.

Сегментационный анализ состоит в последовательном разбиении совокупности наблюдений с целью получения, в конечном итоге, групп, максимально однородных по классовому составу.

Случай отсутствия зависимых переменных (правая часть рис. 3.1) предполагает, что все анализируемые переменные в некотором смысле равноправны, и мы принимаем их за отклики (для простоты будем считать их количественными), значения которых определяются какими-то нам неизвестными факторами. Примерами могут служить морфологические или генетические характеристики растений, животных или людей, принадлежащих определенному таксону или обитающих на определенной территории. Задача анализа состоит в поиске этих неизвестных факторов. Выбор метода решения зависит от того, считаем ли мы искомые факторы качественными или количественными.

Для поиска качественных факторов используется группа методов, известная под названием кластерный анализ, среди которых наиболее часто используется так называемый агломеративно-иерархический метод, основанный на последовательном объединении многомерных наблюдений сначала в мелкие, а затем во все более и более крупные группы. Результатом кластерного анализа является разбиение всей совокупности наблюдений на классы. Полученной классификации соответствует качественная переменная (или несколько переменных, если используются несколько классификаций разной степени дробности или пересекающиеся классификации), категориями которой служат номера классов. Именно эта переменная (или переменные) и будет искомым качественным фактором. Найдя такой фактор (классифицирующую переменную), мы получаем возможность объяснять сходство или различие в значениях откликов для разных наблюдений принадлежностью их к одному или к разным классам.


Если же неизвестные факторы ищутся в форме количественных переменных, то используются методы факторного анализа. В этом случае задача состоит в представлении имеющихся откликов, Y, в виде линейных комбинаций неизвестных количественных факторов, X . С практической точки зрения применение этого метода оправдано, если удается с достаточной степенью приближения выразить большое количество откликов через малое число факторов. Одним из наиболее часто используемых методов этого класса является метод главных компонент, основанный на ортогональном проектировании исходного многомерного пространства в пространство меньшей размерности, в котором точки-наблюдения имеют наибольший разброс. Метод позволяет записать исходные данные в более компактном виде с сохранением максимума содержащейся в них информации и даже представить их графически на плоскости для случая двух факторов.

Следует еще раз подчеркнуть, что основным является деление методов анализа на те, в которых переменные делятся на зависимые и независимые (анализ связи), и те, в которых такого деления нет (анализ факторов). Дальнейшее деление методов по типу откликов и факторов довольно относительно. Дело в том, что уровни качественных факторов можно рассматривать как бинарные переменные, которые, в свою очередь, можно считать количественными переменными со значениями 0 и 1. С другой стороны, непрерывную шкалу значений количественной переменной можно категоризовать и рассматривать эту переменную как качественную. Во всяком случае, такого рода преобразования приходится делать вынужденно, когда по типу различаются не только факторы и отклики, но и разные переменные среди факторов или среди откликов.


3.2 Матричная алгебра

Адекватным математическим аппаратом для описания методов статистического анализа многомерных данных является матричная алгебра. Напомним ее основные понятия.

Матрицей порядка n×m (или n×m-матрицей) называется любая таблица из n строк и m столбцов. Если n=m, то матрица называется квадратной, а число n=m – ее порядком. Например, матрицей является таблица многомерных статистических данных, содержащая значения m переменных для n наблюдений




Другой пример – матрица выборочных корреляций, вычисленная для этих данных, которая имеет порядок mm



Матрица из одного столбца называется также вектором-столбцом, или просто вектором. Например, совокупность наблюдений зависимой переменной Y можно представить в виде вектора-столбца



Для матриц одного порядка определена операция сложения – элементы матрицы суммы равны сумме соответствующих элементов матриц-слагаемых




Умножение матрицы на число определяется как умножение каждого элемента матрицы на это число



Если число столбцов одной матрицы равно числу строк другой (такие матрицы называются соответственными), то для них определена операция умножения матриц по правилу «строка на столбец»



Мы видим, что умножение матрицы тm порядка на матрицу порядка mk дает матрицу порядка nk.

Операция транспонирования матрицы состоит в том, что строки исходной матрицы становятся столбцами транспонированной


Квадратная матрица может иметь обратную матрицу. Матрица называется обратной к квадратной матрице порядка nn, если , где - единичная матрица, т.е. матрица, диагональные элементы которой единицы, а внедиагональные – нули. Единичная матрица обладает тем свойством, что умножение любой квадратной матрицы на единичную матрицу того же порядка не меняет , т.е. . Обратная матрица для единичной матрицы является также единичной матрицей, т.е. .


Обратная матрица может быть вычислена по формуле



где – так называемая присоединенная матрица для , а – ее определитель, часто обозначаемый также как . Определитель матрицы – это связанное с ней числовое значение, определяемое выражением



в котором суммирование ведется по всем n! перестановкам индексов 1, 2, …, n, а r – число парных инверсий, необходимых для получения перестановки k1, k2, …, kn из исходного упорядочения 1, 2, …, n. Например для определителя квадратной матрицы 22



получаем следующий результат



Определитель матрицы порядка 11 равен значению ее единственного элемента.

Квадратная матрица называется ортогональной, если , т.е. если обратная матрица может быть получена из исходной просто путем ее транспонирования .


Очевидно, если определитель матрицы равен нулю (в этом случае она называется вырожденной), то для нее не существует обратной матрицы (т.к. в формуле для вычисления обратной матрицы определитель находится в знаменателе). В частности, если элементы какой-либо строки или столбца матрицы пропорциональны другой строке или столбцу (т.е. получены путем умножения их элементов на одно и то же число), то определитель будет равен нулю, и такая матрица не будет иметь обратной. Например,



Вообще, определитель будет равен нулю в случае, если какая-либо строка или столбец матрицы является линейной комбинацией других ее строк или столбцов.

С любой квадратной матрицей порядка nn связан также набор ее собственных значений 1, 2, …, n – решений уравнения n–ой степени



В свою очередь, каждому собственному значению i соответствует собственный вектор , удовлетворяющий уравнению


которое означает, что умножение слева собственного вектора на матрицу сводится к умножению его на скаляр – собственное значение i. Отсюда следует, что если из n собственных векторов-столбцов составить квадратную матрицу , то будет выполняться соотношение





( - матрица, главная диагональ которой образована собственными значениями 1, 2, …, n, а вне диагональные элементы – нули). Можно показать, что если все собственные значения матрицы различны, то она не вырождена и имеет обратную матрицу . В этом случае, умножая полученное соотношение слева на , получаем



т.е. умножая слева на , а справа на , мы приводим ее к диагональному виду.



следующая страница >>