Нейросетевой метод управления на основе подкрепляемого обучения

Нейросетевой метод управления на основе подкрепляемого обучения

Автор: Вичугов, Владимир Николаевич

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Томск

Количество страниц: 148 с. ил.

Артикул: 4240343

Автор: Вичугов, Владимир Николаевич

Стоимость: 250 руб.

Нейросетевой метод управления на основе подкрепляемого обучения  Нейросетевой метод управления на основе подкрепляемого обучения 

ОГЛАВЛЕНИЕ
СПИСОК СОКРАЩЕНИЙ
ВВЕДЕНИЕ
1 МЕТОД ПОДКРЕПЛЯЕМОГО ОБУЧЕНИЯ.
1.1 Постановка задачи подкрепляемого обучения.
1.2 Суммарная величина подкрепления.
1.3 Стратегия управления
1.4 Исследование среды и использование знаний.
1.5 Свойства сигналов состояния внешней среды и подкрепления
1.6 Функции оценки
1.7 Оптимальная стратегия управления
1.8 Оптимальные функции оценки
1.9 Алгоритмы обучения
1.9.1 Алгоритм временных разностей
1.9.2 Алгоритм обучения
1.9.3 Алгоритм ЗЛИВА
1.9.4 Алгоритм ТОл
1.9.5 Анализ алгоритмов обучения
Основные результаты и выводы по главе 1.
2 СПОСОБ ПОСТРОЕНИЯ ИЬСАУ
2.1 Структурная схема системы экстремального управления.
2.2 Обобщенная структурная схема ЛЬСЛУ.
2.2.1 Импульсный элемент
2.2.2 Квантователь
2.2.3 Анализирующее устройство
2.2.4 Блок Агент
2.2.5 Экстраполятор.
2.3 Программное средство Исследование КЬСАУ
2.3.1 Пользовательский интерфейс
2.3.2 Модуль Математическая модель объекта управления.
2.3.3 Модуль Задающее устройство
2.3.4 Модуль Управляющее устройство.
2.3.5 Модуль визуализации и протоколирования
2.4 Экспериментальные исследования ЛЬСАУ.
2.4.1 Исследование системы управления объектом первого порядка Апериодическое звено
2.4.2 Исследование системы управления объектом второго порядка Колебательное звено
2.4.3 Исследование системы управления объектом Маятник
2.5 Результаты исследований САУ
Основные результаты и выводы но главе 2.
3 НЕЙРОСЕТЕВОЙ МЕТОД УПРАВЛЕНИЯ НА ОСНОВЕ ПОДКРЕПЛЯЕМОГО ОБУЧЕНИЯ
3.1 Классификация ИНС.
3.1.1 Однослойный перцептрон
3.1.2 Многослойный перцептрон.
3.1.2.1 Алгоритм обратного распространения ошибки.
3.1.3 Радиальнобазисная нейронная сеть.
3.1.3.1 Градиентный алгоритм обучения радиалыюбазисиой нейронной сети
3.1.3.2 Модифицированный градиентный алгоритм обучения радиальнобазисной нейронной сети.
3.2 Обобщенная структурная схема нсйросетевой САУ.
3.2.1 Блок нормализации,
3.2.2 Формирование сигнала выходного воздействия.0
3.2.3 Блок Агент .
3.3 Программное средство Исследование САУ
3.4 Экспериментальные исследования САУ.
3.4.1 Исследование системы управления объектом второго порядка.
3.4.2 Исследование системы управления объектом Акробот.д.
3.5 Результаты исследования нейросетевой САУ
Основные результаты и выводы но главе 3
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ


Вторая глава содержит описание разработанной обобщенной структурной схемы БЬ-САУ, в которой функция оценки воздействия представлена матрицей вещественных чисел. Приведены алгоритмы функционирования структурных блоков, описание разработанного программного средства и результаты экспериментальных исследований систем управления различными ОУ. В третьей главе представлен метод управления, основанный на обобщенной структурной схеме нейросетевой RL-САУ, в которой функция оценки воздействия представлена с помощью РБНС, и алгоритмах функционирования структурных блоков. Представлен обзор основных типов ИНС и алгоритмов обучения. Приведено описание модифицированного градиентного алгоритма обучения РБНС. Приведены результаты экспериментальных исследований систем управления различными ОУ. В заключении изложены основные научные и практические результаты, достигнутые в ходе диссертационного исследования и решения поставленных задач. В приложения вынесены листинг программы с реализацией модифицированного градиентного алгоритма обучения РБНС на языке Object Pascal и акты внедрения результатов диссертационной работы. Метод подкрепляемого обучения, называемый также методом обучения с подкреплением, относится к группе методов машинного обучения и занимает промежуточное положение между методами обучения с учителем и без учителя. В методах обучения с учителем обучаемой системе вместе с каждым вектором входных сигналов предоставляется соответствующий эталонный вектор выходных сигналов, который система должна сформировать при поступлении данного вектора входных сигналов в рабочем режиме. Разность между эталонным и реальным вектором выходных сигналов используется для настройки параметров обучаемой системы. Примером метода обучения с учителем является метод обратного распространения ошибки, который используется при обучении искусственных нейронных сетей [3]. При использовании методов обучения без учителя обучаемой системе предоставляется только вектор входных сигналов. Система производит анализ входных сигналов и на его основе формирует выходные сигналы. Например, система может классифицировать сигналы в отдельные классы без какой-либо априорной информации о них на основе критерия минимальной разности сигналов одного класса и максимальной разности сигналов разных классов []. В методе подкрепляемого обучения вместо эталонного вектора выходных сигналов обучаемая система получает скалярный сигнал подкрепления или поощрения, который характеризует, насколько хорошо система справляется с поставленной задачей []. Величина подкрепления, полученная в некоторый момент времени /, характеризует не только выходные сигналы, сформированные в этот момент времени, но и все выходные сигналы, сформированные обучаемой системой от момента начала обучения до момента времени /. Например, в шахматной партии обучаемая система получает сигнал подкрепления, равный нулю, в течение всего времени игры, кроме последнего хода, когда система получает положительный или отрицательный сигнал подкрепления в зависимости от победы или поражения. Целью функционирования обучаемой системы является формирование такого соответствия между вектором входных сигналов и вектором выходных сигналов, которое приводит к максимизации суммарной величины подкрепления за все время функционирования системы. В методе подкрепляемого обучения рассматривается агент, взаимодействующий с внешней средой. В данной работе сохранена терминология, которую использовали авторы метода подкрепляемого обучения []. Под агентом понимается некоторая автономная система, которая имеет возможность получать информацию о состоянии внешней среды и формировать воздействия, которые приводят к изменению состояния внешней среды. Внешней средой называется все, что находится вне агента и с чем он взаимодействует. Схема взаимодействия агента и среды показана на рисунке 1. Рисунок 1. Агент и среда взаимодействуют в дискретные моменты времени /ь называемые тактами. В каждый такт /,• агент получает информацию о состоянии внешней среды Я/еб', где 5 - конечное множество возможных состояний внешней среды, и на основе этой информации вырабатывает некоторое воздействие на внешнюю среду Я,еЛ(.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.353, запросов: 244