litceysel.ru
добавить свой файл
1 2 3 4
Установлен и настроен управляющий Грид-сервер, под управлением операционной системы Ubuntu Server 8.0. Установлено ПО Globus Toolkit 4.2.1, включающее базовые службы Grid Security Infrastructure (GSI), GridFTP, Replica Location Service (RLS), Grid Resource Allocation and Management (GRAM).


Дополнительно настроен виртуальный сервер с операционной системой Scientific Linux 5.3 x86_64. Использовано программное обеспечение gLite 3.2 в составе компонентов:


  • glite-BDII (Berkeley Database Information Index)

  • glite-LFC_mysql (LCG File Catalogue)

  • glite-SE_dpm_mysql (Storage Element)

  • glite-TORQUE_client

  • glite-UI (User Interface)

  • glite-VOBOX (Virtual Organization)

  • glite-WN (Worker Node)

На сервере видеомониторинга под управлением Microsoft Windows Server 2008 настроено ПО GridFTP .Net Server, установлены сертификаты и настроены права для доступа к ресурсам данных. На ряде удаленных компьютеров установлено ПО GridFTP .Net Client позволяющее вести обмен данными в соответствии с технологиями ГРИД.

На отдельном сервере под управлением Microsoft Windows Server 2003 установлено ПО Condor 7.3.2 настроенное в режиме сервера и менеджера задач, а также механизм Condor-G для предоставления вычислительных ресурсов серверу под управлением Globus Toolkit. Еще на 7 компьютерах ТОИ ДВО РАН под управлением различных версий Microsoft Windows и Linux установлено ПО Condor 7.3.2 в качестве клиента для предоставления вычислительных ресурсов для выполнения задач, с общим кол-вом вычислительных узлов (процессоров) 12 штук.


gLite: очередное поколение промежуточного программного обеспечения проекта EGEE

Любые достижения в области грид-компьютинга опираются на развитие промежуточного программного обеспечения (ППО). В проекте EGEE было решено, что лучше всего двигаться вперед, используя двухфазный подход. Исходно EGEE использовал ППО своего предшественника - проекта EDG (Еuropean Data Grid). Это ППО затем было развито в пакет LCG, и именно LCG работал в инфраструктуре EGEE на ранней стадии проекта. Параллельно в EGEE были выполнены работы по модернизации большей части исходного пакета и был создан новый продукт – gLite, который сейчас устанавливается в инфраструктуру и имеет статус пред-производственного сервиса. Пакет gLite является полным решением для грид, включая как базовые низкоуровневые программы, так и ряд служб высокого уровня. gLite распространяется на благоприятных для бизнеса условиях лицензии открытого кода. В нем интегрированы как компоненты из лучших на настоящий момент проектов ППО, таких, как Condor и Globus Toolkit, так и компоненты, разработанные для проекта LCG. gLite является одним из лучших базово- инструментальных средств, совместимых с такими планировщиками, как PBS, Condor и LSF. gLite разработан с учетом свойств интероперабельности и содержит базовые службы, облегчающие построение приложений грид для любых прикладных областей.



Разработка

В разработке данного программного обеспечения принимают участие различные академические и промышленные исследовательские центры, объединенные в отдельные группы в соответствии с видом деятельности: Управление данными (Data Management), Управление заданиями (Workload Management), Информация и Мониторинг (Information and Monitoring), Учет использования ресурсов (Accounting), Вычислительный элемент (Computing Element), Протоколирование (Logging and Bookkeeping), Безопасность и Сетевой мониторинг (Security and Network Monitoring), Подготовка к работе (Provisioning). Разработка и установка gLite поддерживается также программой EGEE по распределенной т-инфраструктуре (тренировочной инфраструктуре). Эта программа предоставляет по интернету онлайновую документацию, учебные фильмы, организует дистанционные семинары. Обучение можно также пройти на специальном тестовом стенде GILDA, который имеет даже собственный Сертификационный центр (CA). Здесь пользователи и системные администраторы могут проверить все аспекты развертывания и эксплуатации gLite.


Продукт

Службы gLite соответствуют требованиям SOA (Service Oriented Architecture). Из этого следует, что при необходимости данный продукт можно легко связать с другими грид-службами, а также, что будет существенно облегчен переход на грядущие стандарты грид, такие, например, как WSRF (Web Service Resource Framework) (стандарт OASIS) и OGSA (Open Grid Service Architecture) (предложение Global Grid Forum).

gLite

Пакет gLite спроектирован как модульная система, позволяющая пользователям развертывать различные службы в соответствии с их нуждами, а не быть вынужденными использовать всю систему целиком. Предполагается, что это позволит каждому пользователю приспособить систему к его конкретной ситуации.

Базируясь на опыте разработки промежуточных продуктов EDG и LCG, gLite обладает новыми особенностями во всех частях программного пакета. В частности, он гораздо лучше реализует безопасность, имеет лучшие интерфейсы для управления данными и запуска заданий, обладает переработанной информационной системой и многими другими усовершенствованиями, делающими gLite легким и эффективным в использовании. gLite уже развернут на некоторых тестовых и пред- производственных гридах. Сейчас осуществляется установка gLite в общую инфраструктуру EGEE в статусе пред-производственного сервиса.



Как начать работать с gLite

Каждому, кто заинтересован в gLite, мы советуем ознакомиться с ним с помощью GILDA - тестового стенда от EGEE, ориентированного на глобальное распространение грида. Это легко сделать при посредстве ознакомительной утилиты “Try the Grid” (см. ссылку ниже). Здесь Вы можете подсоединиться к тестовой Виртуальной Организации, запустить свое задание и почувствовать как это все происходит. Если же Вы хотите стать обладателем полной версии, чтобы развернуть ее на своей системе, обратитесь к веб-сайту gLite (см. ссылку ниже), где содержится, наряду с программным обеспечением, вся необходимая документация, доступная как в режиме онлайн, так и для загрузки на свою машину.


Проект EGEE

Проект EGEE (Enabling Grids for E-SciencE) - это проект европейского сообщества, направленный на создание Грида для научных исследований, работающего в режиме 24/7. Уже обслуживающий многие научные дисциплины, этот проект ставит своей целью обеспечить академических и промышленных исследователей доступом к основным вычислительным ресурсам независимо от того, где эти ресурсы находятся. Во главе проекта EGEE стоит CERN, Европейская Организация по Ядерным Исследованиям, он включает свыше 70 институтов-партнеров в Европе, Азии и Соединенных Штатах


http://gridclub.ru/library/technologies, http://gridclub.ru/library/tutorials, http://gridclub.ru/library/architecture - ссылки на статьи

http://ca.grid.kiae.ru/RDIG/certificates/valid.html - список действительных сертификатов RDIG CA

http://gridmap.cern.ch/gm/#topo=regions&layout=rj&vo=OPS&serv=Site&si2k – карта заугрузки grid-серверов, есть и Россия


http://rocmon.jinr.ru:8080/stats?page=global_stats – ресурсы российского грида


Грид – географически распределенная инфраструктура, объединяющая множество ресурсов разных типов (процессоры, долговременная и оперативная память, хранилища и базы данных, сети), доступ к которым пользователь может получить из любой точки, независимо от места их расположения. Грид предполагает коллективный разделяемый режим доступа к ресурсам и к связанным с ними услугам в рамках глобально распределенных виртуальных организаций, состоящих из предприятий и отдельных специалистов, совместно использующих общие ресурсы. В каждой виртуальной организации имеется своя собственная политика поведения ее участников, которые должны соблюдать установленные правила. Виртуальная организация может образовываться динамически и иметь ограниченное время существования. 

Потенциал технологий грид уже сейчас оценивается очень высоко: он имеет стратегический характер, и в близкой перспективе грид должен стать вычислительным инструментарием для развития высоких технологий в различных сферах человеческой деятельности, подобно тому, как подобным инструментарием стали персональный компьютер и интернет. Такие высокие оценки можно объяснить способностью грид на основе безопасного и надежного удаленного доступа к ресурсам глобально распределенной инфраструктуры решить две проблемы: 


  1. создания распределенных вычислительных систем сверхвысокой пропускной способности из серийно выпускаемого оборудования (показатели производительности: агрегированная мощность более 1 терафлоп, объем обрабатываемых данных более 1 петабайта в год) при одновременном повышении эффективности (до 100%) имеющегося парка вычислительной техники путем предоставления в грид временно простаивающих ресурсов;
  2. создания широкомасштабных систем мониторинга, управления, комплексного анализа и обслуживания с глобально распределенными источниками данных, способных поддерживать жизнедеятельность государственных структур, организаций и корпораций.



Области применения грид 

Изначально грид-технологии предназначались для решения сложных научных, производственных и инженерных задач, которые невозможно решить в разумные сроки на отдельных вычислительных установках. Однако теперь область применения технологий грид не ограничивается только этими типами задач. По мере своего развития грид проникает в промышленность и бизнес, крупные предприятия создают грид для решения собственных производственных задач. Таким образом, грид претендует на роль универсальной инфраструктуры для обработки данных, в которой функционирует множество служб (Grid Services), которые позволяют решать не только конкретные прикладные задачи, но и предлагают сервисные услуги: поиск необходимых ресурсов, сбор информации о состоянии ресурсов, хранение и доставка данных. 

Применение грид может дать новое качество решения следующих классов задач: 

  • массовая обработка потоков данных большого объема;

  • многопараметрический анализ данных;

  • моделирование на удаленных суперкомпьютерах;

  • реалистичная визуализация больших наборов данных;

  • сложные бизнес-приложения с большими объемами вычислений.

Грид-технологии уже активно применяются как государственными организациями управления, обороны, сферы коммунальных услуг, так и частными компаниями, например, финансовыми и энергетическими. Область применения грид сейчас охватывает ядерную физику, защиту окружающей среды, предсказание погоды и моделирование климатических изменений, численное моделирование в машино- и авиастроении, биологическое моделирование, фармацевтику. 


Программные средства грид

К настоящему времени для грид уже создано довольно много программных средств и их количество постоянно растет. Предлагаемая классификация упорядочивает программные средства по степени полноты решения задач создания, обслуживания грид и поддержки работы пользователей.




  1. Базовые средства 
    Инструментальные пакеты, содержащие средства разработки систем для грид и минимальный набор служб, поддерживающих дистанционные операции.
     

  • Globus Toolkit - стандарт де-факто для грид, признанный ведущими производителями программного обеспечения

  • Legion - пакет, во многом разделяющий с Globus Toolkit базовые принципы построения грид, но в его основу положена объектно-ориентированная модель, в отличие от Globus Toolkit, в котором акцент делается на стандартизацию удаленного взаимодействия.

  1. Отдельные программные средства для грид
    Различные разработки для грид, выполняющие отдельные функции.
     

  • Condor-G разработан создателями системы распределенной обработки Condor, но работает независимо от нее, совместно с Globus Toolkit. Condor-G управляет очередью заданий одного пользователя, взаимодействуя с узлами грид, где эти задания выполняются. Через Condor-G пользователь может запустить несколько заданий и отслеживать их состояние с помощью удобного интерфейса. Condor-G также осуществляет автоматическое продление временного сертификата (proxy-сертификата), срок действия которого истекает во время выполнения задания. Condor-G обладает отказоустойчивостью – если машина пользователя временно выходит из строя, то после перезагрузки контроль над всеми выполняющимися заданиями восстанавливается.
  • The Network Weather Service (NWS) - распределенная служба краткосрочного прогнозирования пропускной способности сети на основе истории измерений загрузки сети и вычислительных ресурсов. Эта служба включает: 


    • сервер имен (Name Server) для связи процесса и имен данных с контактной информацией нижележащего уровня;

    • сервер памяти (Memory Server) для надежного хранения данных; Датчик (Sensor) для сбора статистики измерений производительности ресурса;

    • модуль прогнозирования (Forecaster) для предсказания производительности ресурса через определенное время.

  • GSI-OpenSSH - модифицированная версия OpenSSH, в которой добавлена поддержка аутентификации (Grid Security Infrastructure, GSI) на основе сертификатов. Разработанная компанией National Center for Supercomputing Applications (NCSA), эта версия может использоваться для доступа на удаленные системы и передачи файлов между системами без ввода пароля: все операции аутентифицируются сертификатом GSI. 

  • MyProxy - репозитарий сертификатов, позволяющий пользователям грид по требованию получать временные прокси-сертификаты. MyProxy повышает надежность хранения секретных ключей и основных сертификатов путем выдачи временных сертификатов с небольшим сроком действия. Для выполнения длительных заданий в MyProxy имеется механизм периодического продления времени действия временных сертификатов. 

  • MPICH-G2 - реализация прикладного протокола межмашинного взаимодействия процессов (Message Passing Interface, MPI) для грид, основанная на библиотеке MPICH. Реализация предназначена для работы в грид, построенного на базе Globus Toolkit (GT2), и используется для связи нескольких машин, на которых запущено MPI-приложение. 

  1. Кластерные системы 
    Обычно грид опирается на инфраструктуру глобально распределенных кластеризованных ресурсов, поэтому здесь будет полезна информация о некоторых средствах обслуживания кластеров.

Кластер – слабо интегрированная архитектура, как на уровне аппаратуры, так и на уровне операционной системы (ОС). В частности, из-за отсутствия общей памяти на каждый процессорный узел должна быть установлена своя копия ОС, поэтому для работы с кластерными комплексами нужно решить проблемы обслуживания и управления, которые при числе процессоров 64-128, становятся критическими. Перечисленные программные средства позволяют справиться с проблемой “большой системы”, нивелируя разницу между кластером и системами с общей памятью (SMP): 



Средства для установки программного обеспечения (ПО) на кластер 


Решаемые задачи:


  1. создание репозитария (набора ПО для кластера), обновление его версий;

  2. распределение ПО по узлам кластера;

  3. автоматическая установка ПО на кластерных узлах и их конфигурирование.

    • SystemImager – свободно распространяемый инструмент для автоматизации установки ОС Linux на машины кластера. Позволяет распределять между машинами ПО и файлы данных, менять конфигурацию и обновлять ОС. SystemImager работает с устанавливаемым ПО на уровне файлов, а не побитово.

    • LCFG – свободно распространяемая система для автоматизации установки и конфигурирования разных версий Unix. LCFG работает быстро и подходит для кластеров с разнообразными и часто меняющимися конфигурациями узлов.

Средства регулярного администрирования кластеров 

  1. Мониторинг аппаратуры (температура процессора, работа вентилятора, состояние блока питания, и т.п.)
  2. Мониторинг кластеров c автоматизацией реакций на критические события:


    • Big Brother - инструмент для мониторинга в реальном времени на базе Web технологий.
      bb4.com

    • Mon - система для мониторинга программных служб и генерации сигнала тревоги при их неработоспособности. Mon легко расширяется и дополняется любыми средствами мониторинга через общий интерфейс. 
      www.kernel.org/software/mon/

  3. Мониторинг производительности КС (визуализация загрузки всех узлов системы в реальном времени)

    • Ganglia - свободно распространяемая система, предназначенная для мониторинга вычислительных комплексов, распределенных как в локальной, так и в глобальной сетях. Использует оригинальный сетевой протокол и компактный способ хранения данных мониторинга, что делает ее эффективной, масштабируемой и надежной.
      ganglia.sourceforge.net/

    • MRTG (Multi Router Traffic Grapher) - свободно распространяемый инструмент для мониторинга загрузки сети. MRTG генерирует HTML страницы с визуализацией сетевого трафика. MRTG создан на базе Perl и Си, и работает в средах UNIX и Windows NT. 
      people.ee.ethz.ch/~oetiker/webtools/mrtg/links.html

  4. Возможность выполнения административных команд параллельно на группах кластерных узлов
    • C3 (Cluster Command Control) – свободно распространяемый продукт, представляющий собой набор инструментов для администрирования и поддержки приложений в кластерах с ОС Linux (разработка Oak Ridge National Laboratory). В его состав входят средства для параллельного запуска команд на все или группу кластерных узлов, сбор и распределение файлов, завершение процессов, удаленное отключение или перезапуск машин. 

      www.csm.ornl.gov/torc/C3/


    • WebMin - свободно распространяемый инструмент для системного администрирования в среде Unix на базе Web технологий. WebMin обеспечивает унифицированный интерфейс для выполнения административных действий на различных подмножествах узлов кластера (регистрация пользователей, настройка Apache, DNS, NFS и т.д.).


Кластерные Системы Управления Пакетной Обработкой (СПО) 

Первый шаг к использованию вычислительных ресурсов узлов в глобальной среде грид – это их локальная интеграция в многопроцессорный комплекс, который используется в режиме пакетной обработки заданий. Для этой цели разработаны программные продукты, называемые Менеджерами Ресурсов (Resource Manager), кластерными системами управления (Cluster Management System) или Системами управления пакетной обработкой (СПО). 

СПО возникли независимо от грид и широко применяются во многих вычислительных центрах коллективной обработки. Известны более двадцати СПО, из которых наиболее популярны свободно распространяемые PBS, SGE и Condor, а также коммерческие LoadLeveler и LSF. 

Использование СПО в кластере позволяет перейти от работы с индивидуальными компьютерами, распределенными в локальной сети, к работе с единым многопроцессорным вычислительным комплексом в режиме пакетной обработки заданий. Пользователь может помещать задания в общую для комплекса очередь, используя единый интерфейс для запуска, модификации, снятия и получения информация о заданиях. СПО автоматически распределяет задания по узлам с учетом их загрузки, выполняет и доставляет результаты пользователю. Все СПО имеют богатый настраиваемый набор средств для управления процессом обработки заданий. 

Все СПО имеют примерно одинаковые наборы функций, но отличаются по отдельным характеристикам. Системы PBS и SGE примерно равны по своим возможностям и предполагают полное выделение машин под пакетную обработку. Ими поддерживаются сетевые кластеры с однопроцессорными машинами, а также мультипроцессоры SMP и MPP. Отдельные процессоры могут использоваться в монопольном режиме (только одна задача на процессор) или в режиме разделения времени (несколько заданий могут разделять процессор). В последнем варианте при распределении заданий контролируется уровень процессорной загрузки. PBS и SGE имеют аппарат запуска многопроцессорных заданий. В отличие от PBS в последних версиях системы SGE реализован механизм поддержки контрольных точек. 


Обобщенная информация о СПО содержится на сайте: 
www.clusterresources.com 


  • PBS - Portable Batch System. обеспечивает управление заданиями в пакетном режиме в среде компьютеров с ОС Unix. Сегодня предлагается OpenPBS – свободно распространяемая версия и PBSPro – расширенная коммерческая версия. 

    Torque (Terascale Open-source Resource and QUEue Manager) – новая версия PBS, разработанная компанией Cluster Resources, Inc. на основе OpenPBS. Система обладает рядом дополнительных усовершенствований:

    1. улучшена масштабируемость (работа в среде до 2500 узлов);

    2. повышена устойчивость к сбоям (внесены дополнительные проверки);

    3. усовершенствован интерфейс Планировщика с целью его обеспечения дополнительной и более точной информацией;

    4. усовершенствована система записей в log файлах.

  • Sun Grid Engine (SGE). Семейство из нескольких различных вариантов СПО. 

    Sun Grid Engine - свободно распространяемая версия, предназначенная для управления ресурсами одного проекта или подразделения. Основана на полной централизации обслуживания ресурсов и пользователей. Sun Grid Engine реализуется открытым сообществом разработчиков и спонсируется Sun Microsystems. 


следующая страница >>