Диссертация на тему "Исследования по стохастическому оптимальному уровню", скачать бесплатно автореферат по специальности 01.01.05 - Теория вероятностей и математическая статистика

Общая характеристика работы
Актуальность темы. Математические модели и методы стохастического оптимального управления составляют раздел общей теории оптимального управления. Краеугольным камнем детерминированной части этой теории для процессов, протекающих во времени, служат общая концепция динамического программирования и принцип максимума Понтрягина, разработанные Веллманом, Понтрягиным и их многочисленными учениками и последователями.
В создании стохастической части этого раздела исходным пунктом послужили работы Вальда и других авторов по последовательному анализу, которые привели к созданию общей теории статистических решений. Различные расширения этой теории и близкие по духу идеи отражены в работах Ховарда, Блэкуэлла, Штрауха, Дынкина и Юшкевича, Райфа и Шляйфера, Гихмана и Скорохода и многих других.
К тому же кругу вопросов относятся такие математические теории, как управление процессами диффузионного и более общего типа (при этом стоит упомянуть работы Крылова, Прагараускаса и их учеников), теория оптимальной остановки марковских цепей и статистика случайных процессов, развитые в работах Ширяева, Липцера и Ширяева, Чоу и др., стохастический принцип максимума (Аркин и др.), теория адаптивного управления (Срагович и его ученики).
Важную роль сыграла в свое время задача оптимального выбора, которая во многом стимулировала развитие общей теории оптимальной остановки.
В задачах последовательного управления по неполным данным существенное место занимает так называемая задача о ’’двуруком бандите”, которая отражает основные особенности соответствующей теории. По этой тематике опубликовано несколько монографий и много статей. Упомянем только работы Уиттла, Гиттинса, Бэрри и Фристеда, Варайя, Глазербука, Демпстера и др.
Основным моментом при рассмотрении задач последовательного управления по неполным данным в байесовской постановке является их сведение к задачам управления по полным наблюдениям, когда надо следить за достаточными статистиками. В рассматриваемых задачах достаточными статистиками являются апостериорные вероятности гипотез, при этом в случае непрерывного времени, соответствующая задача сводится к задаче управления процессом с дискретным вмешательством случая (piecewise deterministic processes или PDP - в английской терминологии). Изучению этих процессов посвящена в настоящее время также обширная литература. Следует упомянуть работы Вермеша, Ленхардта и Ляо, Дэвиса, Сонэра и др.
Общие вопросы стохастического управления (в основном с полной информацией) рассматриваются в работах Кушнера, Бертсекаса и Шрива, Уитла, Росса, Стенгеля, Кумара и Варайя, Дэвиса, Дэвиса и Винтера, Боркара и др.
Существует обширная литература, посвященная прикладным аспектам стохастического управления. Упомянем только работы Фельдбаума, Красовского, Куржанского, Юдина, Черноусько, Колмановского и многих других.
В последние годы развитие теории стохастического управления существенно стимулировалось потребностями решения задач управления производственными процессами и

финансовыми инструментами. Вопросам стохастического управления, связанным с производственными процессами посвящены работы Гершвина, Кумара, Караманиса, Ласер-ре, Бея, Хойри, Сэти и его соавторов и др. Применение соответствующей теории и методов к вопросам финансовой математики хорошо отражены в недавно вышедшей монографии Ширяева и монографии Сэти, в которых содержится обширная библиография по этой тематике.
Проблематика управляемых случайных процессов является весьма популярной в последние десятилетия. Почти все конференции, посвященные теории управления, теории вероятностей и случайным процессам имеют соответствующие секции. Такие секции присутствуют и на многих конференциях, посвященных прикладным вопросам.
Цель работы. Диссертационная работа посвящена развитию новых методов и подходов при исследовании управляемых случайных процессов. Эти методы и подходы связаны с углубленным исследованием уравнения оптимальности Гамильтона-Якоби-Беллмана, структуры решения этого уравнения (называемого функцией Веллмана или ценой игры), и структуры оптимального управления. В отличие от случая дискретного времени с конечным горизонтом, когда имеется возможность строить оптимальное решение индукцией назад, начиная от последнего момента времени, для случая непрерывного времени, а тем более при бесконечном горизонте управления, такая возможность отсутствует, и приходится искать новые методы и подходы, заменяющие такую индукцию, и позволяющие решать конкретные задачи и изучать свойства оптимальных решений.
Наиболее существенные результаты и их новизна:
- Изучена задача оптимального выбора при случайном числе объектов, приведены условия, при которых множество остановки носит островной характер, сформулированы принципы рассмотрения предельной задачи. Для игр на случайных процессах, обобщающих задачу оптимального выбора, доказаны теоремы о существовании и числе точек равновесия по Нэшу;
- Развит подход к решению задач последовательного управления по неполным данным с дискретным вмешательством случая. Этот подход основан на их сведении к детерминированным задачам управления между скачками случайного процесса. С помощью этого подхода подробно изучена пуассоновская версия так называемой ’’задачи о двуруком бандите” с дисконтированием. Получены явные формулы и исследована чувствительность критерия оптимальности по отношению к коэффициенту дисконтирования.
- В задаче управления стохастическим линейным регулятором с квадратичным критерием качества получен неожиданный и неулучшаемый результат о порядке роста ’’дефекта” оптимального управления.
- С использованием развитого подхода к решению задач с дискретным вмешательством случая доказана теорема о существовании оптимального синтеза для линейных по управлению задач с интегральным функционалом от дисконтированной функции полезности на бесконечном интервале времени. При этом учитывается наличие детерминированных фазовых ограничений и ограничений на множество управлений, а именно, ограничений, зависящих от заданного априори марковского процесса с конечным числом состояний.

С) £ < 0, £2 > 0, 0 < 82 < 61. (При £162 < 0 все остальные случаи сводятся к этим заменой номеров приборов и гипотез).
Отметим, что случай Веллмана совпадает с В), а случай Фельдмана является подслу-чаем С), когда £ — —е2, 82 — —81. Во всех случаях А), В) и С), согласно первой гипотезе лучшим является второй прибор, а согласно второй гипотезе - первый прибор.
При фиксированном правиле действий /3) рассмотрим процесс £(£) = [в \ Этот
процесс можно считать непрерывным справа и имеющим пределы слева. Положим
Как следует из параграфа 4, при любом а Е (0,1) можно определить такое правило действий /9“ = {/9“(£)}(>о, что для соответствующего этому правилу действий процесса £(£) будет выполняться равенство
Такое правило действий будем называть а-пороговым. При применении а-порогового правила действий, если апостериорная вероятность первой гипотезы больше а (соответственно меньше а), то весь ресурс нужно выделять прибору, лучшему согласно первой гипотезе (соответственно, лучшему согласно второй гипотезе). Далее мы покажем, что если апостериорная вероятность в какой-то момент времени равна а, то в случае С) до момента появления очередного события происходит деление ресурса между двумя приборами. В случаях А) и В) такая ситуация невозможна.
Введем следующие обозначения. При 6 > 0, d > 0, —оо < а < -fco положим
Легко понять, что если 6 ф d, то для любого р > 0 существует такое a(b, d, р) > 0, что /(а(Ь, d, р), b, d) = р, причем а(0, d, р) = p/d, и
Из того, что 61 < 0, следует, что /Да) = /(а, А}, А), а — а(А|, А,р), а! < оо. В дальнейшем будем считать, что +со/(+со + с) = 1 при —оо < с < +оо, (7)+со — 0 при 0 < 7 < 1.
1 при 0 < £ < а,
О при а < £ < 1,
а (И
82/(82 — 51) при / = а, 82 > О,
(6.2)
произвольно при £ = а, 82 > 0.
a(b, d, р) = p[d—b+ bln(b/d) + о(р) при р —> 0, Ъ > 0.
В случае b = d положим а(Ь, 6, р) = —оо < а < -fco.
Пусть при j — 1
(6.3)
/Да) = /(а, min(Ai, A),max(Aj, А)), ctj = a(min(Ai, A), max(A{, Aj), p).
(6.4)

Название работы	Автор	Дата защиты
Асимптотические представления распределений сумм слабо зависимых величин	Клоков, Сергей Александрович	1999
Байесовские и вариационные задачи последовательного анализа	Гапеев, Павел Викторович	2001
Преобразование независимости случайных величин и условные квантили многомерных распределений	Шатских, Сергей Яковлевич	2002

Электронная библиотека диссертаций

Исследования по стохастическому оптимальному уровню

Рекомендуемые диссертации данного раздела