litceysel.ru
добавить свой файл
1

Правительство Российской Федерации

Государственное образовательное бюджетное учреждение

Высшего профессионального образования


Государственный университет-

Высшая школа экономики

Факультет бизнес - информатики

Программа дисциплины


«Хранилища данных»

для направления 080700.62 – «Бизнес-информатика»

подготовки бакалавра


Автор – Г.И.Перминов

Рекомендовано секцией УМС Одобрено на заседании


Секция «Бизнес-информатика» кафедры бизнес-аналитики

Председатель Зав. кафедрой

________________Ю.В.Таратухина __________Т.К.Кравченко

“___” ________________ 2009 г. “___” ____________ 2009г.

Утверждено УС факультета


Бизнес - информатики

Ученый секретарь

Фомичев В.А.__________________

“___” _________________ 2009 г.


Москва – 2009

I. Тематический план учебной дисциплины

№ п/п

Наименования тем

Всего часов

Аудиторные часы

Самостоятельная работа

Лекции

Сем. или практические занятия

Всего

1

Технология хранения данных при принятии решений


4

2




2

2

2

Хранилище данных (Data Warehousing) в виде ненормализованных баз данных

16

4

4

8

8

3

Многомерные системы управления базами данных - МСУБД

16

2

2

4

12

4

Заполнение хранилища данными

16

2

4

6

10

5

Cоздание многомерного хранилища данных (куба)


16

4

4

8

8

6

Технология аналитической обработки данных (OLAP)

16

2

2

4

12

7

Клиент Microsoft Data Analyzer.

16

2

2

4

12

8

Аналитические возможности Analysis Manager

14

2

2

4

10

9

Интеграция Web - технологии и технологии Хранилища


8

2

2

4

4

10

Язык MDX (Multidimensional Expressions)- непроцедурный язык для формулирования запросов к многомерным базам данных

8

2

2

4

4

11

Поддержка распределенных данных

16

2

2

4

12

12

Специализированные средства представления отчетности

16

2

2

4

12





Итого

162

28

28

56

106



II. Формы рубежного контроля:

Итоговая оценка О по учебной дисциплине складывается из оценок за:

работу на практических занятиях – О1;

реферат - О2;

домашнее задание – О3;

ответ на экзамене – О4


по формуле: О = 0,2 О1+ 0,3 О2 + 0,2 О3 + 0,3 О4


III. Базовый учебник

Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005.


IV. Содержание

Тема 1. Технология хранения данных при принятии решений

Проблема хранения данных при принятии решений.

Причины появления Хранилищ данных. Хранилище - надстройка над существующими базами данных. Отличительная особенность Хранилищ. Основные требования к данным, вводимым в Хранилище. Задачи построения Хранилища.


Основная литература

  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 1, 2.

  2. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. - М.: Диалог-МИФИ, 2002, гл. 1.

Дополнительная литература

  1. Федоров А., Елманова Н. Введение в OLAP – технологии Microsoft.-М.: ДИАЛОГ-МИФИ, 2002, гл. 1, 2.
  2. Вьейра Р. SQL Server 2000.Программирование. Часть 1. –М.: БИНОМ, 2004, гл.9.



Тема 2. Хранилище данных (Data Warehousing) в виде ненормализованных баз данных

Архитектура Хранилищ данных: оперативные источники, оперативный склад данных, основное хранилище данных, инструменты доступа пользователям, ETL- средства. Многомерное моделирование в виде ненормализованных баз данных: схема «Звезда», схема «Снежинка», ее преимущества и недостатки. Характеристика таблицы фактов и таблиц измерений. Связи в ненормализованных базах данных.


Основная литература


  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 2.

Дополнительная литература

  1. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл. 3.

  2. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Т.1. –М.: Вильямс, 2001, гл. 3, 5.

  3. Питер Роб, Карлос Коронел. Системы баз данных: проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004, гл. 13.

  4. www.BaseGroup.ru

  5. www.lanit.ru

  6. Inmon W.H. Building the Data Warehouse. John Wiley & Sons, 1996.


Тема 3. Многомерные системы управления базами данных - МСУБД

Особенности организации многомерных систем управления базами данных (МСУБД). Достоинства и недостатки МСУБД.

Исторические данные. Формирование исторических данных. Статичность (неизменность) исторических данных. Свойства исторических данных. Агрегированные данные.

Прогнозируемые данные. Изменяемость прогнозируемых данных. Прогнозирование и моделирование. Различие между оперативными и прогнозируемыми данными. Общезначимость оперативных данных.

Сравнительные характеристики МСУБД и РСУБД.

Основные понятия в многомерной модели данных: измерение (Dimension) или рубрика, ячейка (Cell) или показатель (Measure). Определение показателя.


Гиперкубические и поликубические модели данных. Два основных варианта организации данных и их отличия.

Операции манипулирования Измерениями. Формирование "Среза" (Slice). Операция "Вращение" (Rotate). Отношения между измерениями. Операция Агрегации (Drill Up). Операция Детализации (Drill Down).


Основная литература


  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 2.


Дополнительная литература

  1. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл.4.

  2. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 5.

  3. www.lanit.ru

  4. www.BaseGroup.ru


Тема 4. Заполнение хранилища данными

Использование инструментального средства Data Transformation Services для заполнения хранилища данными. Выполнение этапов заполнения хранилища в DTS:

  • описание источников данных;

  • описание потоков данных;

  • описание преобразования данных;

  • запуск DTS;

  • просмотр таблиц в Query Analyzer.


Основная литература

  1. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 4.

Дополнительная литература

  1. Вьейра Р. SQL Server 2000. Программирование. Часть 2. –М.: БИНОМ, 2004, гл. 22.

  2. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Т.1. –М.: Вильямс, 2001, гл. 10.

  3. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл.4.

Тема 5. Cоздание многомерного хранилища данных (куба)


Инструментальное средство Analysis Manager;

Выполнение этапов построения коллективных и локальных кубов:


  • описание измерений;

  • описание таблицы фактов;

  • построение вычисляемых выражений.

Основная литература


  1. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 5.

Дополнительная литература

  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 2.

  2. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл. 10.

  3. www.lanit.ru


Тема 6. Технология аналитической обработки данных (OLAP)

Назначение и особенности технологии OLAP. Признаки технологии OLAP. 12 правил оценки средств OLAP. Виды запросов к данным, содержащимся в Хранилище, выполняемые с помощью OLAP технологий. Состав OLAP-системы. Характеристики и назначение компонентов OLAP-системы.

Варианты реализации OLAP. Понятия MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP), HOLAR (Hybrid OLAR). Преимущества и недостатки этих способов. Оперативная аналитическая обработка (OLAP) и интеллектуальный анализ данных (ИАД) - две составные части процесса поддержки принятия решений. Перспективы объединения этих двух видов анализа.

Клиентские компоненты получения OLAP срезов кубов:

  • Analysis Manager;

  • Получение сводных таблиц Excel;

  • создание сводных диаграмм с данными OLAP-кубов.

Создание и редактирование локальных OLAP-кубов клиентом с помощью Microsoft Excel.


Основная литература
  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 2.



Дополнительная литература

  1. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл.6.

  2. Питер Роб, Карлос Коронел. Системы баз данных: проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004, гл. 13.


Тема 7. Клиент Microsoft Data Analyzer

Возможности Microsoft Data Analyzer. Область применения Microsoft Data Analyzer. Обеспечение соединения с кубом. Создание отображений куба. Средства анализа данных: навигации, фильтрации и сортировки, бизнес-центр, редактор вычисляемых измерений для построения многомерных запросов, поиск схожих значений.

Средства публикации и создания отчетов: публикации по электронной почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или PivotTables.


Основная литература

  1. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 12.

Дополнительная литература

2. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл. 5, 6.


Тема 8. Аналитические возможности Analysis Manager

Мастер построения модели DataMining. Выбор критерия для анализа.

Построение дерева решений. Изменение измерений. Пересчет модели.

Построение модели кластеризации. Изменение измерений и критериев оценки.


Основная литература

  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 3.

  2. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Т.1. –М.: Вильямс, 2001, гл. 12.

Дополнительная литература
  1. Вьейра Р. SQL Server 2000. Программирование. Часть 2. –М.: БИНОМ, 2004, гл. 25.


  2. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных OLAP и DataMining. - С-Пб.:БХВ-Петербург, 2004. гл. 4, 5, 7.


Тема 9. Интеграция Web - технологии и технологии Хранилища

Цель интеграции Web-технологии и Хранилища. Преимущества интеграции Internet/Intranet технологии и технологии Хранилищ.

Особенности информационного Web сервера. Особенности работы Web клиента.

Публикация сводной таблицы на Web, клиентские манипуляции со сводной Web – таблицей, создание Web-страниц со сводными диаграммами.


Основная литература

  1. Кравченко Т.К., Перминов Г.И. Информационная технология процесса принятия экономических решений. –М.: ГУ-ВШЭ, 2005, гл. 2.

Дополнительная литература

  1. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл. 8.

  2. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 7.


Тема 10. Язык MDX (Multidimensional Expressions)- непроцедурный язык для формулирования запросов к многомерным базам данных

Назначение языка MDX. Утилита MDX Sample Application. Отображение структуры куба в MDX Sample Application. Синтаксис запроса на языке MDX. Выполнение запроса. Агрегация в запросах. Фильтрация в запросах. Запросы с иерархическим измерением. Функции языка MDX.


Основная литература

  1. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 8.

Дополнительная литература

  1. Microsoft SQL Server Books Online

  2. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. -М.: Диалог-МИФИ, 2002, гл. 7.

Тема 11. Поддержка распределенных данных


Ключевые факторы поддержки распределенных данных: автономность; задержки; непротиворечивость данных; непротиворечивость схем.

Модели публикаций. Публикующий сервер и распределительный сервер. Распределительная база данных. Подписки, публикации, статьи. Принудительная (push) и запросная (pull) подписки.

Типы серверов-подписчиков: местный, глобальный и анонимный.

Фильтрация данных: горизонтальное и вертикальное разбиение.

Типы репликации: мгновенная; репликация слиянием; транзакционная. Преимущества и недостатки различных типов репликации. Агенты мгновенной репликации, распределительные агенты.

Подписчики с немедленным обновлением.


Основная литература


  1. Вьейра Р. SQL Server 2000. Программирование. Часть 2. –М.: БИНОМ, 2004, гл. 23.


Дополнительная литература

  1. Питер Роб, Карлос Коронел. Системы баз данных: проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004, гл. 10.


Тема 12. Специализированные средства представления отчетности

Инструменты запросов или генераторы отчетов (Юниверсы) к OLAP-данным. Средства доступа и генерация отчетов Business Object. Анализ данных в Юниверсе средствами BusinessObject: получение доступа к данным, выбор переменных Юниверса для анализа, замена иерархии переменных, ввод в Юниверс расчетных переменных, создание отчетов с разрывами по Мастер-переменной, создание условий выбора, получение Кросс-таблиц (срезов), транспонирование Кросс-таблиц, установка иерархических срезов, использование фильтрации, построение диаграмм.


Основная литература

  1. Http://www. Businessobjects.com/products/queryanalysis/olapaccess/crystalanalysis.asp


Дополнительная литература

  1. Ralf Kimball, Margy Ross. The Data Warehouse. 2-Edition. –N.Y.: John Wiley, 2002.


  2. www.BaseGroup.ru


Практические работы


Тема 1. Проектирование хранилища средствами ненормализованной базы данных

Ознакомление с CASE средствами проектирования хранилища данных. Проектирование таблицы фактов и таблиц измерений. Установление связей между таблицами. Генерация хранилища.


Тема 2. Заполнение хранилища

Использование инструментального средства Data Transformation Services для заполнения хранилища данных. Описание источников данных. Описание потоков данных. Описание преобразования данных. Выполнение DTS. Просмотр таблиц в Query Analyzer.


Тема 3. Построение многомерного куба

Организация доступа к источнику данных - оперативной реляционной базе данных. Построение куба. Настройка измерения времени. Настройка измерений и фактов. Редактирование многомерного куба.


Тема 4. Работа по OLAP- технологии с хранилищем

Настройка параметров среза. Использование кросс – таблиц. Транспонирование кросс – таблиц. Возможности перетаскивания заголовка измерения на заголовок столбца. Поиска записи в кросс – таблице. Управления отображением вычисляемых значений. Экспорт данных из кросс-таблицы в файлы форматов MS Excel, MS Word и HTML.

Операции с таблицами. Открытие обычной таблицы. Экспорт данных в таблице. Вывод статистических характеристик для полей таблицы. Экспорт данных в другие аналитические модули

Построение графических отчетов. Построение диаграмм.

Управление окнами.


Тема 5. Работа с клиентскими модулями

Получение MOLAP срезов кубов с помощью Analysis Manager. Получение сводных таблиц в Excel. Создание сводных диаграмм с данными OLAP-кубов. Создание и редактирование локальных OLAP-кубов клиентом с помощью Microsoft Excel;



Тема 6. Клиент Microsoft Data Analyzer

Возможности Microsoft Data Analyzer. Область применения Microsoft Data Analyzer. Обеспечение соединения с кубом. Создание отображений куба. Средства анализа данных: навигации, фильтрации и сортировки, бизнес-центр, редактор вычисляемых измерений для построения многомерных запросов, поиск схожих значений.

Средства публикации и создания отчетов: публикации по электронной почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или PivotTables.


Тема 7. Публикация данных срезов кубов на Web

Публикация сводной таблицы на Web. Манипуляции со сводной Web – таблицей. Создание Web-страниц со сводными диаграммами


Тема 8. Язык MDX (Multidimensional Expressions)- непроцедурный язык для формулирования запросов к многомерным базам данных

Назначение языка MDX. Утилита MDX Sample Application. Отображение структуры куба в MDX Sample Application. Синтаксис запроса на языке MDX. Выполнение запроса. Агрегация в запросах. Фильтрация в запросах. Запросы с иерархическим измерением. Функции языка MDX.


Тема 9. Аналитические возможности Analysis Manager

Мастер построения модели DataMining. Выбор критерия для анализа.

Построение дерева решений. Изменение измерений. Пересчет модели.

Построение модели кластеризации. Изменение измерений и критериев оценки.


Тема 10. Поддержка распределенных данных

Включение публикующего и распределительного серверов. Запуск Мастера настройки публикаций и распределения. Отключение распределительного сервера.

Создание транзакционных и мгновенных публикаций. Выбор сервера. Выбор БД. Выбор сервера подписчика. Выбор таблиц для публикации. Включение в фильтрации столбцов и строк выбранных таблиц. Настройка расписания для агента мгновенной репликации. Назначение подписки для серверов подписчиков.


Создание публикаций слиянием таблиц. Разрешения конфликтов публикации. Установка объединения обрабатываемых таблиц. Выбор возможности минимизации сетевого трафика.

Принудительная подписка. Мастер принудительной подписки.

Запросная подписка. Мастер запросной подписки.

Управление распределением данных. Поддержка неоднородных репликаций. Публикация в Internet. Диспетчер репликации. Работа с журналом ошибок.

Тема 11. Специализированные средства доступа к хранилищам и генерации отчетности (Юниверс)

Установка связи с исходной Базой данных. Выбор фрагмента Базы данных для включения в Юниверс. Создание связей в таблицах Юниверса. Создание структуры Юниверса. Сохранение Юниверса.

Обеспечение доступа к данным. Выбор переменных Юниверса для анализа. Замена иерархии переменных. Ввод в Юниверс расчетных переменных. Создание отчетов с разрывами. Создание условий выбора. Установка срезов (получение Кросс-таблиц). Транспонирование Кросс-таблиц. Установка иерархических срезов. Использование фильтрации. Редактирование переменных в Юниверсе. Расчет суммирующих показателей по выбранному столбцу. Построение графических отчетов (диаграмм).


V. Тематика заданий по различным формам текущего контроля:

Тематика курсовых работ

Тематика курсовых работ связана с построением, заполнением хранилища и витрины данных, проведения OLAP анализа для различных проблемных областей.

В рамках выбранной темы курсовой работы студенты должны последовательно описать выбор этапы своих действий с приведением копий окон экрана монитора.


VI. Контрольные вопросы


  1. Какие уровни СУБД характерны в настоящее время для крупных организаций?

  2. Охарактеризуйте применимость реляционных СУБД в системах ППР.

  3. Охарактеризуйте понятие «хранилище данных».
  4. Какие особенности имеют ненормализованные базы данных для моделирования многомерности?


  5. Охарактеризуйте схему «Звезда».

  6. Охарактеризуйте схему «Снежинка».

  7. Что такое многомерные СУБД?

  8. Приведите сравнительные характеристики многомерных и реляционных СУБД.

  9. Какие операции предусматриваются для работы с измерениями в многомерных моделях БД?

  10. Как использовать инструментальное средство Data Transformation Services для заполнения хранилища данными? Выполнение этапов заполнения хранилища в DTS.

  11. Охарактеризуйте понятие «витрины данных».

  12. Охарактеризуйте технологию OLAP.




  1. Охарактеризуйте операции манипулирования Измерениями. Формирование "Среза" (Slice). Операция "Вращение" (Rotate). Отношения между измерениями. Операция Агрегации (Drill Up). Операция Детализации (Drill Down).

  2. Какие возможности Microsoft Data Analyzer?

  3. Какие средства публикации и создания отчетов по электронной почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или PivotTables Вы знаете?

  4. Какие аналитические возможности имеются в Analysis Manager?

. Изменение измерений. Пересчет модели.

  1. Как построить модель кластеризации в Analysis Manager?

  2. Как построить модель дерева решений в Analysis Manager?

  3. Охарактеризуйте технологию «Толстый клиент».

  4. Охарактеризуйте технологию «Тонкий клиент».

  5. Охарактеризуйте технологию «Тонкий клиент» на основе Web.

  6. Охарактеризуйте возможность интеграции технологий Web и хранилищ.

  7. Как построить информационный Web сервер?

  8. Как опубликовать сводную таблицу на Web?
  9. Как клиент может работать с опубликованной сводной Web – таблицей?


  10. Как создать Web-страницу со сводными диаграммами?

  11. В чем различия в синтаксисе запроса на языке MDX и SQL?

  12. Как создать агрегацию в запросах на языке MDX?

  13. Как осуществить фильтрацию в запросах на языке MDX?

  14. Как создать запросы с иерархическим измерением на языке MDX?

  15. Для чего нужна поддержка распределенных данных?

  16. Какие модели публикаций Вы знаете при репликации данных?

  17. Охарактеризуйте виды подписок при репликации данных.

  18. Охарактеризуйте типы подписчиков при репликации данных.

  19. Охарактеризуйте горизонтальное и вертикальное разбиения (фильтрации) таблиц при репликации данных.

  20. Охарактеризуйте мгновенную репликацию.

  21. Когда следует использовать мгновенную репликацию?

  22. Охарактеризуйте репликацию слиянием.

  23. Когда следует использовать репликацию слиянием?

  24. Охарактеризуйте транзакционную репликацию.

  25. Когда следует использовать транзакционную репликацию?




  1. Охарактеризуйте подписчиков с немедленным обновлением.

  2. Как создать Юниверса?

  3. В чем особенности специальных средств генерации отчетности OLAP данных?

  4. Как построить графический отчет по OLAP данным специальными средствами?


VII. Рекомендации по использованию информационных технологий

Для освоения курса «Хранилища данных» рекомендуется изучить следующие инструментальные программные средства:

  1. Программное средство MS SQL Server 2000 с модулем Analysis Services компании Microsoft.

  2. Программное средство Data Analyser.
  3. Программное средство MOLAP компании Microsoft.

  4. Программное средство Business Objects, компании Business Objects, US.

  5. Программное средство Power Designer Warehouse Architect 6.0, компании Sybase Inc., US. (или другое аналогичное Case – средство).

  6. Программное средство Web - компонент к Microsoft Office.