litceysel.ru
добавить свой файл
1
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОУВПО «Самарский государственный архитектурно-строительный университет»
Факультет информационных систем и технологий
Кафедра прикладной математики и вычислительной техники

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА К КУРСОВОЙ РАБОТЕ

по дисциплине
ТЕХНОЛОГИЯ ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТИ

на тему

«Методы анализа информации»

1 СЕМЕСТР 1 КУРС

Научный руководитель Волков Станислав Николаевич
Преподаватель Пиявский Семён Авраамович




Выполнила:

студентка ГИП-109 Нагорнова Т.Е.

Оценка преподавателя _______________

Оценка комиссии по результатам защиты_______________

2009 г.

УДК 004.912+005


Расшифровка:

Наука в целом (информационные технологии - 004)

Прикладные информационные (компьютерные) технологии

Обработка и создание документов

Обработка текста

А также:

Изучение проблемы организации: методология, анализ, синтез, классификация и таксономия (теория, основы), систематизация в целом

Ключевые слова

Data Mining, интеллектуальный анализ данных(ИАД), методы Data Mining, кластерный анализ, деревья решений, кибернетические методы, статистические методы, метод ближайшего соседа.


Реферат

Мною было проведено исследование технологий и методов интелектуального анализа данных (Data Mining). В работе рассмотренно понятие Data Mining, история его возникновения, а также задачи, решаемые ИАД, алгоритмы обучения, этапы решения задач. Приведено несколько классификаций методов Data Mining с краткой расшифровкой самих методов, методы деревьев решений и ближайшего соседа рассмотрены более подробно. Проведена сравнительная характеристика основных методов Data Mining по основным свойствам. В работе присудствует пример поясняющий два метода(деревья решений и кластерный анализ). Также рассмотрены области применения Data Mining, перспективы развития технологий ИАД и недостатки такого подхода анализа данных.



Экран оценки творческого уровня работы



В работе рассматриваются методы анализа информации методами Data Mining. Существует много перводов Data Mining на русский язык, но лучшим считается не прямой перевод – интелектуальный анализ данных(ИАД)

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Возникновение и развитие Data Mining обусловлено различными факторами, основными среди которых являются следующие:


  • совершенствование аппаратного и программного обеспечения;

  • совершенствование технологий хранения и записи данных;

  • накопление большого количества ретроспективных данных;

  • совершенствование алгоритмов обработки информации.

Основные задачи, решаемые методами Data Mining:


  1. Классификация

  2. Кластеризация

  3. Сокращение описания

Алгоритмы обучения


  • Самообучающиеся алгоритмы и машинное обучение

  • Анализ временных рядов

  • Анализ отклонений

  • Оценка качества моделей

  • Визуализация.

Существует две основные классификации методов Data Mining. Первая делит их на: непосредственное использование данных, или сохранение данных (кластерный анализ, метод k-ближайшего соседа, рассуждение по аналогии) и выявление и использование формализованных закономерностей, или дистилляция шаблонов (статистические методы и нейронные сети). Другая классификация разделяет все многообразие методов Data Mining на: статистические и кибернетические методы.


Сравнивая методы между собой можно сделать вывод, что самым наглядным, простым в использовании является метод деревьев решений.

Сейчас и краткосрочной перспективе Data Mining применяется в бизнесе, хотя методам Data Mining есть применение и в таких областях, как: медицина, молекулярная генетика и генная инженерия.


Оглавление


Основные задачи, решаемые методами Data Mining: 4

Алгоритмы обучения 4

Оглавление 6

Понятие Date Mining. 7

Задачи, решаемые методами Data Mining[3]: 8

Алгоритмы обучения 9

Этапы решения задач: 10

Типы закономерностей, выявляемых методами Data Mining 10

Методы исследования данных в Data Mining[4]: 11

Сравнительная характеристика методов Data Mining по их свойствам 13

Пример использования методов Data Mining 15

Применение Data Mining (некоторые бизнес-приложения) [5] 16

Перспективы технологии Data Mining 17

Выводы 18

Список источников 19



Понятие Date Mining.


Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining .[1]

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации).


Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро(один из основателей этого направления):

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.

Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др., см. рис. 1.



Рис. 1. Data Mining как мультидисциплинарная область

Возникновение и развитие Data Mining обусловлено различными факторами, основными среди которых являются следующие[2]:


  • совершенствование аппаратного и программного обеспечения;

  • совершенствование технологий хранения и записи данных;

  • накопление большого количества ретроспективных данных;

  • совершенствование алгоритмов обработки информации.

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Задачи, решаемые методами Data Mining[3]:


  1. Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.


  3. Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.

  4. Регрессия, в том числе задачи прогнозирования. Установление зависимости непрерывных выходных от входных переменных.

  5. Ассоциация – выявление закономерностей между связанными событиями, поиск повторяющихся образцов. Ещё называют анализом рыночной корзины.

  6. Последовательные шаблоны – установление закономерностей между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.

  7. Анализ отклонений – выявление наиболее нехарактерных шаблонов.

  8. Прогнозирование

  9. Визуализация

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.

Проблемы бизнес анализа формулируются по-иному, но решение большинства из них сводится к той или иной задаче Data Mining или к их комбинации. Например, оценка рисков – это решение задачи регрессии или классификации, сегментация рынка – кластеризация, стимулирование спроса – ассоциативные правила. Фактически, задачи Data Mining являются элементами, из которых можно собрать решение подавляющего большинства реальных бизнес задач.

Алгоритмы обучения


В нем реализованы самые современные алгоритмы построения моделей, а также механизмы, обеспечивающие весь цикл аналитической обработки:
  • Самообучающиеся алгоритмы и машинное обучение. В Deductor реализованы самые современные адаптивные алгоритмы построения моделей: деревья решений, нейронные сети, самоорганизующиеся карты, ассоциативные правила... Они очень просты в работе. Аналитик только формулирует гипотезы о возможном наличии зависимости, а система автоматически строит модели по существующим данным.


  • Анализ временных рядов. В Deductor включены алгоритмы, применяемые для выявления сезонности, трендов, нахождения автокорреляционных зависимостей. Подобные модели чаще всего используются для решения задач прогнозирования временных рядов.

  • Анализ отклонений. После построения моделей возможно выделение отклонений, выявление наиболее нехарактерных прецедентов. Подобные механизмы позволяют автоматически выявлять те события, на которые необходимо обратить внимание, а также находить шаблоны, не подпадающие под общие закономерности.

  • Оценка качества моделей. В систему интегрированы механизмы оценки качества моделей. Они применяются для сравнения результатов моделирования, как на основе формальных критериев качества, так и экспертных знаний.

  • Визуализация. В Deductor встроено множество специализированных способов визуализации, ориентированных на различные Data Mining алгоритмы. Удобные механизмы отображения значительно облегчают процесс интерпретации результатов, повышая доверие экспертов к результатам анализа.

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание здесь уделяется аппроксимации данных.

Этапы решения задач:


  1. Формирование гипотезы;

  2. Сбор данных;
  3. Подготовка данных (фильтрация);


  4. Выбор модели;

  5. Подбор параметров модели и алгоритма обучения;

  6. Обучение модели (автоматический поиск остальных параметров модели);

  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Процесс Data Mining может быть представлен рядом таких последовательных стадий:

СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) -> ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ -> АНАЛИЗ ИСКЛЮЧЕНИЙ

Типы закономерностей, выявляемых методами Data Mining


Согласно В.А.Дюку, выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация (закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы) и прогнозирование (временные закономерности)

Методы исследования данных в Data Mining[4]:


  • регрессионный, дисперсионный и корреляционный анализ (реализован в большинстве современных статистических пакетов, в частности в продуктах компаний SAS Institute, StatSoft и др.);

  • методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях (часто применяются, например, в недорогих средствах финансового анализа);

  • нейросетевые алгоритмы, идея которых заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Связи в этом случае создаются с помощью, так называемого обучения сети посредством выборки большого объема, содержащей как исходные данные, так и правильные ответы;
  • алгоритмы — выбор близкого аналога исходных данных из уже имеющихся исторических данных. Называются также методом «ближайшего соседа»;


  • деревья решений — иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет»; несмотря на то, что данный способ обработки данных далеко не всегда идеально находит существующие закономерности, он довольно часто используется в системах прогнозирования в силу наглядности получаемого ответа;

  • кластерные модели (иногда также называемые моделями сегментации) применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных; также весьма популярны при создании систем прогнозирования;

  • алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных;

  • эволюционное программирование — поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, полиномов).

Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.

Классификация технологических методов Data Mining

Существует несколько классификаций методов Data Mining. Вот некоторые из них.

Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.
  1. Непосредственное использование данных, или сохранение данных.


В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Проблема этой группы методов - при их использовании могут возникнуть сложности анализа сверхбольших баз данных.

Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.

  1. Выявление и использование формализованных закономерностей, или дистилляция шаблонов.

При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining.

Методы этой группы: логические методы (нечеткие запросы и анализы; символьные правила; деревья решений; генетические алгоритмы); методы визуализации; методы кросс-табуляции (агенты, байесовские (доверительные) сети, кросс-табличная визуализация); методы, основанные на уравнениях.

Основные методы данной группы: статистические методы и нейронные сети

Статистические методы наиболее часто применяются для решения задач прогнозирования (корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ).

Другая классификация разделяет все многообразие методов Data Mining на две группы:

  • статистические методы, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных;

  • кибернетические методы, включающие множество разнородных математических подходов.

Недостаток такой классификации: и статистические, и кибернетические алгоритмы тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации.

Преимуществом такой классификации является ее удобство для интерпретации - она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т.е. в задачах Data Mining.

Сравнительная характеристика методов Data Mining по их свойствам


В таблице 1 приведена сравнительная характеристика некоторых распространенных методов по основным свойствам и характеристикам методов Data Mining. Методы сравниваются с использованием следующих обозначений:

-3 – чрезвычайно низкая

-2 – очень низкая

-1 – низкая

0 – нейтральная

1 – высокая

2 – очень высокая

алгоритм

точность

масштабируемость

интерпретируемость

Пригодность к использованию

трудоемкость

разносторонность

быстрота

популярность

Линейная регрессия

0

1

1/0

1

0

0

1

-1

Нейронные сети

1

-1

-1

-1

0

-1

-2

-1

Методы визуализации


1

-2

1

1

2

-1

-3

1/0

Деревья решений

-1

1

1

1/0

1

1

1/0

1/0

Полиномиальные нейронные сети

1

0

-1

1/0

0/-1

0

0/-1

0

k-ближайшего соседа

-1

-2

1/0

0

0/-1

-1

1

-1

Таблица 1. Сравнительная характеристика методов Data Mining.

Сравнивая эти методы между собой можно сделать вывод, что самым наглядным, простым в использовании является метод деревьев решений, также достаточно удобными являются методы линейной регрессии и полиномиальных нейронных сетей.

Рассмотрим некоторые методы чуть более подробно.


Деревья решений

Метод деревьев - иерархическое, гибкое средство предсказания принадлежности объектов к определенному классу или прогнозирования значений числовых переменных.

Преимущества этого метода: интуитивность деревьев решений, возможность извлекать правила из базы данных на естественном языке, не требует от пользователя выбора входных атрибутов, точность моделей, разработан ряд масштабируемых алгоритмов, быстрый процесс обучения, обработка пропущенных значений, работа и с числовыми, и с категориальными типами данных.

Основные этапы алгоритмов конструирования деревьев:


  • "построение" или "создание" дерева (tree building)

  • "сокращение" дерева (tree pruning).

Остановка - такой момент в процессе построения дерева, когда следует прекратить дальнейшие ветвления.

Варианты остановки:

  • "ранняя остановка" (prepruning)

  • ограничение глубины дерева

  • задание минимального количества примеров

Чтобы построить качественную модель, необходимо понимать природу взаимосвязи между зависимыми и независимыми переменными и подготовить достаточный набор данных.

Метод ближайшего соседа.

Преимущества: простота использования полученных результатов, решения не уникальны для конкретной ситуации, возможно, их использование для других случаев, целью поиска является не гарантированно верное решение, а лучшее из возможных.

Недостатки: данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опыт; сложность выбора меры "близости" (метрики); высокая зависимость результатов классификации от выбранной метрики; необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость; типичные задачи данного метода - это задачи небольшой размерности по количеству классов и переменных.


Кросс-проверка - известный метод получения оценок неизвестных параметров модели.

Основная идея - разделение выборки данных на v "складок". V "складки" здесь суть случайным образом выделенные изолированные подвыборки.

Пример использования методов Data Mining


Допустим, перед банком стоит вопрос, каким клиентам, и в каком случае стоит выдавать кредит. Эту задачу можно решить несколькими методами Data Mining. Начнем с деревьев решений. На рисунке 2 можно увидеть примерное дерево, реализующее данную задачу.



Рисунок 2. Дерево решений.

Второй способ решения поставленной перед нами задачи с помощью кластерного анализа. Всех людей, условно, можно разделить на три кластера: студенты, работающие люди и пенсионеры. В таблице 2 приведены рейтинги кластеров по показателям, на основе которых проводилась кластеризация.

Показатель

1-й кластер

2-й кластер

3-й кластер

Доход

2

1

3

Оптимальный возраст

1

2

3

Состоятельность

2

1

3


Ответственность

3

2

1

Таблица 2. Рейтинги кластеров.

Применение Data Mining (некоторые бизнес-приложения) [5]

Задачи в розничной торговле:


  • анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе.

  • исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов.

  • создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением.

Задачи в банковском деле:


  • выявление мошенничества с кредитными карточками.

  • сегментация клиентов.

  • прогнозирование изменений клиентуры.

Мероприятия в сфере телекоммуникаций:


  • анализ записей о подробных характеристиках вызовов.

  • выявление лояльности клиентов.

Страхование


  • выявление мошенничества.

  • анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам.

Другие приложения в бизнесе


  • развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента.
  • политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;


  • поощрение часто летающих клиентов.

Также Data Mining применяется в ряде специальных приложений, например в: медицине, молекулярной генетике и генной инженерии, прикладной химии.

Перспективы технологии Data Mining


  • выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям;

  • создание формальных языков и логических средств, с помощью которых будет формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях;

  • создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;

  • преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

Если рассматривать будущее Data Mining в краткосрочной перспективе, то очевидно, что развитие этой технологии наиболее направлено к областям, связанным с бизнесом.

В долгосрочной перспективе, будущее Data Mining является действительно захватывающим - это может быть поиск интеллектуальными агентами, как новых видов лечения различных заболеваний, так и нового понимания природы вселенной.

Выводы


Применение методов Data Mining – фактически единственная возможность извлечь пользу из накопленной информации, в противном случае собранные данные будут лежать "мертвым грузом". Data Mining позволяет извлекать из данных знания и превратить в конкурентные преимущества: качественно прогнозировать, точнее выявлять целевые аудитории, предсказывать развитие событий, управлять рисками и прочее.

Но существуют и проблемы применения Data Mining: большой процент ложных, недостоверных или бессмысленных результатов, сложность подготовки данных, извлечение полезных сведений невозможно без хорошего понимания сути данных, квалификация пользователя, наличие достаточного количества репрезентативных данных, высокая стоимость.



Список источников


  1. Интеллектуальный анализ данных – Википедия // Режим доступа: http://ru.wikipedia.org.

  2. Data Mining - Intuit.ru: Учебный курс // http://www.intuit.ru/department/database/datamining/.

  3. Data Mining – BaseGroup // http://www.basegroup.ru/library/methodology/data_mining/

  4. Введение в Data Mining – Технологии корпоративного управления // http://www.iteam.ru/publications/it/section_92/article_1649/

  5. Data Mining-интеллектуальный анализ данных - Технологии корпоративного управления // http://www.iteam.ru/publications/it/section_55/article_1448/