litceysel.ru
добавить свой файл
1

ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3


В.Л. ЯКИМОВ, А.И. ЛОСКУТОВ, А.В. НАЗАРОВ

Военно-космическая академия им. А.Ф. Можайского, Санкт-Петербург

rujenz@mail.ru


МАКСИМИЗАЦИЯ ЭНТРОПИИ ВХОДОВ И ВЫХОДОВ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ

ПРИ МОДЕЛИРОВАНИИ ПРОЦЕССОВ

ФУНКЦИОНИРОВАНИЯ БОРТОВОЙ АППАРАТУРЫ

КОСМИЧЕСКОГО АППАРАТА


Рассматривается нейросетевой подход к решению задачи моделирования процессов функционирования бортовой аппаратуры космического аппарата. Основное внимание уделено способам формирования обучающей выборки, реализующим принцип максимизации энтропии входов и выходов многослойной нейронной сети, позволяющим улучшить ее способность к обобщению.


Ключевые слова: идентификация, энтропия, многослойная нейронная сеть, техническое состояние, космический аппарат

Введение


При решении задачи телеуправления космическим аппаратом (КА) по обратному каналу “борт-земля” передается информация оперативного контроля, в основном представленная телесигнализациями, принимающими дискретные значения и несущими информацию о событиях на борту объекта, о результатах прохождения команд управления [4]. В штатном режиме процессы функционирования бортовой аппаратуры адекватно описываются статической конечно-автоматной моделью в виде графа, в узлах которого находятся состояния объекта, а дугам соответствуют команды переходов из одного состояния в другое. Состояния и команды кодируются в виде последовательности символов [3].

В условиях нештатного функционирования объекта, например, при наличии неисправности бортовых систем обеспечения, состояние бортовой аппаратуры КА может сложным образом зависеть от различных внешних факторов, а его прогноз возможен лишь с некоторой вероятностью. Говорят, что система становится открытой по выходу. Чтобы закрыть систему, необходимо осуществить наблюдение за ней в течение некоторого периода времени и учесть задержанные во времени существенные признаки состояния объекта. Для моделирования работы вероятностного автомата можно использовать более адекватный математический аппарат, например, искусственных нейронных сетей [2]. При этом задачей нейросетевого моделирования является поиск статистически достоверных зависимостей между входными и выходными последовательностями символов. Источником информации для статистического моделирования являются примеры из обучающей выборки.


В табл. 1 представлен пример обучающей пары векторов для динамической модели прогнозирования состояния бортовой аппаратуры одного малого КА в условиях нештатного функционирования.


Таблица 1

Обучающие вектора


Вектор входных воздействий X

Вектор требуемых результатов Y

Состояние

Sq

Команда перехода

Kq

Задержанные значения существенного признака состояния

s5,q-1, s5,q-2,..., s5,q-L+1

Состояние

Sq+1

5 дв. симв.

4 дв. симв.

19 дв. симв.

5 дв. симв.


Здесь, Sq – текущее состояние, представленное в виде двоичного слова; q – номер дискретного отсчета времени; L – количество задержанных значений существенного, изменяющегося нелинейно во времени признака состояния.

Разряды слова состояния sφ,q , где φномер разряда, являются признаками состояния и несут информацию о текущем состоянии бортовой аппаратуры, событиях на борту КА. Для снятия неопределенности относительно процессов управления используется информация о командах управления, закодированная в виде двоичного слова Kq, разряды которого несут информацию об изменении режимов работы различных бортовых систем КА в соответствии с программой управления.


Особенностью обучающей выборки, полученной по результатам оперативного контроля КА, является малое и существенно различающееся число обучающих примеров по каждому классу состояний за достаточно большой период наблюдения и значительная длина получаемых кодовых последовательностей [6]. Как следствие, при обучении нейронной сети, активность кодирующих нейронов получается не равномерной, а значимость весов, соответствующих различным нейронам неодинаковой, что ухудшает способность нейронной сети к обобщению [1].

В данной статье представлен подход к формированию обучающей выборки, реализующий принцип максимизации энтропии входов и выходов многослойной нейронной сети, позволяющий улучшить ее способность к обобщению при использовании режима последовательного обучения и позволивший существенно повысить достоверность прогнозирования технического состояния бортовой аппаратуры малого КА.


Постановка задачи

На основе исходной телеметрической информации, передаваемой с борта КА, для обучения модели прогнозирования формируются выборки: обучающая, проверочная и тестовая. Обучающая выборка представляет собой матрицу , где M – размер обучающей пары (Xi,Yi), NA – количество обучающих пар, Xi входной вектор, Yi – вектор требуемых результатов (выходной вектор) нейросетевой модели, – номер обучающей пары. Рассмотрим случай, когда в выборке присутствуют лишь ординальные и категориальные переменные (телесигнализации) [1]. Каждый столбец матрицы соответствует своей переменной и характеризуется своим количеством классов значений этой переменной – m. Элементы различных классов в столбцах матрицы распределены неравномерно.


Предполагается, путём дополнения исходной матрицы данных содержащимися в ней строками (X
i,Yi) сформировать новую обучающую выборку – матрицу , для которой в столбцах характерно равномерное распределение элементов классов. Это позволит обеспечить равномерное возбуждение входных и выходных нейронов и одинаковую значимость весовых коэффициентов при последовательной циклической процедуре обучения многослойной нейронной сети. Матрица содержит все строки матрицы , причем некоторые из них встречаются несколько раз и обладает большей энтропией.

Для хранения промежуточных результатов вводим матрицу , NA<NB<NC. Необходимо решить задачу оптимизации:

, (1)

(2)



где W (r) – целевая функция, njs – количество элементов xij матрицы В

в j-м столбце, принадлежащих классу s; mjколичество классов элементов в j-м столбце; i, j – номер строки и столбца промежуточной матрицы B соответственно; число характеризует значение плотности вероятности распределения элементов на входе j-го нейрона в случае равномерного закона распределения; число характеризует значение плотности вероятности распределения элементов s-го класса на входе j-го нейрона; r – количество итераций процедуры оптимизации; – статистическая оценка математического ожидания значений достоверности прогнозирования на тестовой выборке, полученная по результатам ряда экспериментов обучения нейронной сети при различных начальных значениях весовых коэффициентов; δ – доверительный интервал для значения , определенный с доверительной вероятностью 0.99 [5]; εдоп1, εдоп2 – допустимые значения на приращение и δ соответственно.


Алгоритмы решения задачи


Для решения задачи (1) и исследования влияния энтропии входов и выходов нейросетевой модели на ее способности к обобщению можно использовать различные алгоритмы.

Алгоритм 1

1. Изменить порядок следования строк (обучающие пары) в исходной матрице A случайным образом.

2. Присвоить элементам промежуточной матрицы значения элементов исходной матрицы B=А, установить значение счетчика r=0, инициализировать матрицу С=B.

3. Рассчитать целевую функцию W для матрицы B.

4. Установить значение счетчика i = 0. Считать строку (Xi,Yi) из матрицы А.

5. Добавить строку (Xi,Yi) в матрицу B снизу.

6. Рассчитать целевую функцию Wi для полученной матрицы B.

7. Если Wi <W, то C=B, W=Wi, повторить п. 5-7.

8. Если Wi W, то i=i+1.

9. Если i < NA, повторить п. 5-9.

10. Если iNA, то r = + 1, случайным образом изменить порядок следования строк (обучающих пар) в матрице C, провести ряд экспериментов по обучению нейросетевой модели на обучающей выборке C и проверочной выборке при различных начальных значениях весовых коэффициентов, оценить ее характеристики и δ на тестовой выборке. Если выполняется условие (2), прекратить формирование обучающей выборки С. Если условие (2) не выполняется, повторить п. 3–9.


11. Использовать полученную выборку С для длительного обучения нейронной сети.

Алгоритм 2

1. Изменить порядок следования строк (обучающие пары) в исходной матрице A случайным образом.

2. Присвоить элементам промежуточной матрицы значения элементов исходной матрицы B=А, установить значение счетчика r=0, инициализировать матрицу С=B.

3. Рассчитать целевую функцию W для матрицы B.

4. Установить значение счетчика i = 0. Считать строку (Xi,Yi) из матрицы А.

5. Добавить строку (Xi,Yi) в матрицу B снизу.

6. Рассчитать целевую функцию Wi для полученной матрицы B.

7. Если Wi <W, то C=B, W=Wi, i = i + 1.

8. Если Wi W, то i = i + 1.

9. Если i < k*NA, где k – произвольно выбираемое целое число, повторить п. 5–9.

10. Если ik*NA, то r + 1, провести ряд экспериментов по обучению нейросетевой модели на обучающей выборке C и проверочной выборке при различных начальных значениях весовых коэффициентов, оценить ее характеристики и δ на тестовой выборке. Если выполняется условие (2), прекратить формирование обучающей выборки С. Если условие (2) не выполняется, повторить п. 4–10.


11. Использовать полученную выборку С для длительного обучения нейронной сети.

В процессе работы алгоритмов проверочная и тестовая выборки остаются неизменными.

При обучении необходимо задать небольшое и одинаковое время обучения t в каждом эксперименте, при этом количество циклов обучения при различных размерах обучающей выборки будет различным. Это связано с тем, что размер обучающей выборки постоянно увеличивается и, для возможности корректного сравнения способности модели к обобщению, необходимо в каждом эксперименте обеспечить одинаковое количество обучающих пар векторов.


Анализ результатов моделирования


Представленные алгоритмы малоэффективны, если обучающая выборка уже обладает достаточной энтропией, и являются далеко не оптимальными, так как можно создать более эффективные процедуры минимизации целевой функции, как по скорости, так и по качеству решения задачи (1). Данный подход не претендует на общность, так как в отдельных случаях могут потребоваться существенные изменения в самой постановке задачи (1) и методике ее решения. Тем не менее, он позволил улучшить достоверность прогнозирования технического состояния бортовой аппаратуры малого КА с помощью многослойной нейронной сети, имеющей следующие характеристики: количество скрытых слоев – 2, нейронов в каждом скрытом слое – 5, входных нейронов – 28, выходных нейронов – 5, алгоритм обучения – последовательный наискорейшего спуска (рис. 1).             




Рис. 1. Зависимость характеристик модели прогнозирования на тестовой

выборке от параметров алгоритма максимизации энтропии


Выводы

За счет использования представленных в статье алгоритмов формирования обучающей выборки и максимизации энтропии входов и выходов нейросетевой модели удалось добиться эффекта обобщения на ситуации, не наблюдавшиеся в обучающей и проверочной выборке, повысить достоверность прогнозирования на тестовой выборке на 25%. Результаты прогнозирования, полученные с помощью моделей на основе полиномиальной авторегрессии, оказались хуже на 10 % [6].



Список литературы


  1. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. – М.: МИФИ, 1998.

  2. Калан Р. Основные концепции нейронных сетей: Пер. с англ. – М.: Издательский дом “Вильямс”, 2001.

  3. Козырев Г.И. Основы испытаний бортовых радиоэлектронных систем. Учебное пособие. – СПб.: ВИКУ, 2001.

  4. Телеметрия / Белицкий В.И. и др. – Л.: МО СССР, 1984.

  5. Хартман К. Планирование эксперимента в исследовании технологических процессов. − М.: Мир, 1977.

  6. Якимов В.Л., Назаров А.В. Прогнозирование технического состояния малых космических аппаратов с использованием многослойных нейронных сетей //Известия вузов. Приборостроение, № 1, 2006. С. 7–11.




УДК 004.032.26(06) Нейронные сети