+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Применение минимаксного подхода к отысканию оптимальной стратегии в моделях целесообразного поведения в случайной среде

  • Автор:

    Колногоров, Александр Валерианович

  • Шифр специальности:

    05.13.18, 05.13.01

  • Научная степень:

    Докторская

  • Год защиты:

    2001

  • Место защиты:

    Великий Новгород

  • Количество страниц:

    182 с. : ил

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы


ОГЛАВЛЕНИЕ
О ПОСТАНОВКАХ ЦЕЛИ В ЗАДАЧЕ О ЦЕЛЕСООБРАЗНОМ ПОВЕДЕНИИ В СЛУЧАЙНОЙ СРЕДЕ, ПРИВОДЯЩИХ К МИНИМАКСНОМУ ПОДХОДУ
АВТОМАТНЫЙ ПОДХОД
Постановка задачи и основные результаты
Некоторые вспомогательные результаты
Оценки для отношения произведений вероятностей
Оценка снизу для минимаксного риска
Описание оптимизационных автоматов
Оценки минимаксного риска на классе всех стационарных

Оценки минимаксного риска для автоматов Хеллмана-Ковера
Обсуждение результатов
АПРИОРНЫЙ ВЫБОР ПРОДОЛЖИТЕЛЬНОСТИ ЭТАПОВ ОБУЧЕНИЯ И УПРАВЛЕНИЯ
Постановка задачи и основные результаты
Оценка минимаксного риска и оптимального априорного
времени обучения
Пример. Бинарная стационарная среда Оценка квадратичного минимаксного риска и соответствующего оптимального времени обучения Пример. Бинарная стационарная среда Обобщение результатов на случай К>2 Обсуждение результатов
АЛГОРИТМ ОТЫСКАНИЯ МИНИМАКСНЫХ СТРАТЕГИИ И РИСКА ДЛЯ БИНАРНОЙ СТАЦИОНАРНОЙ СРЕДЫ
Постановка задачи и основные результаты
Эквивалентное определение стратегии
Смешанная стратегия и вариация стратегии
Свойства функции потерь и существование минимаксной
стратегии
Критерий минимаксной стратегии Свойства минимаксной стратегии
Сведение задачи к нахождению минимаксной стратегии для конечного множества параметров Симметрические множества параметров и стратегии Стратегии, зависящие только от достаточных статистик

§3.10 Байесовские риск и стратегия на конечном множестве
параметров
§3.11 Определение минимаксных риска и стратегии на конечном
множестве параметров §3.12 Определение минимаксных риска и стратегии для некоторых
значений Т на множестве всех бинарных стационарных сред §3.13 Определение минимаксных риска и стратегии для некоторых
значений Т на множестве бинарных стационарных сред с известной максимальной вероятностью дохода §3.14 Обсуждение результатов
ГЛАВА 4 АСИМПТОТИЧЕСКИЕ ОЦЕНКИ МИНИМАКСНОГО
И КВАДРАТИЧНОГО МИНИМАКСНОГО РИСКОВ §4.1 Постановка задачи и основные результаты
§4.2 Неулучшаемые по порядку асимптотические оценки
минимаксного риска §4.3 Уточнение оценки сверху при К=2 на основе моделирования
методом Монте-Карло §4.4 Неулучшаемые по порядку асимптотические оценки
квадратичного минимаксного риска §4.5 О стратегиях поведения на бесконечном отрезке времени,
сохраняющих порядок скорости роста функции потерь §4.6 Обсуждение результатов
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ

ВВЕДЕНИЕ
О ПОСТАНОВКАХ ЦЕЛИ В ЗАДАЧЕ О ЦЕЛЕСООБРАЗНОМ ПОВЕДЕНИИ В СЛУЧАЙНОЙ СРЕДЕ, ПРИВОДЯЩИХ К МИНИМАКСНОМУ ПОДХОДУ
В настоящее время все большее значение приобретает исследование задач управления с неполной априорной информацией. К их числу относится и задача о целесообразном и/или оптимальном поведении в случайной среде (см. монографии М.Л. Цетлина [65], и В.И. Варшавского [7]). Далее эта задача рассматривается в следующей постановке. Пусть имеются К вариантов (К > 2), называемых также управлениями, или действиями. Выбор любого из вариантов в дискретный момент времени t = 1,2,3,... приводит к получению случайного дохода £t, распределение которого зависит только от выбранного варианта, но не зависит от предыстории процесса и момента времени t. Вид распределения дохода в зависимости от выбираемого варианта априори не известен или известен частично, например, содержит неизвестный параметр. Таким образом t = 1,2,3,... есть управляемый случайный процесс, или случайная среда, причем среда с указанной зависимостью распределений от выбираемых вариантов получила название стационарной. Временной интервал, на котором осуществляется управление, может быть как известным конечным, так и бесконечным. Таким образом рассматриваемая задача есть задача об оптимальном управлении с неполной априорной информацией. А сам процесс выбора вариантов, осуществляемый, как правило, на основе известной предыстории управления, обычно трактуют как поведение в случайной среде. Тот факт, что априорные распределения известны не полностью, означает, что алгоритмы управления должны быть применимы ко всем рассматриваемым средам, т.е. должны быть адаптивными, поэтому данную задачу рассматривают также как задачу адаптивного управления (см. монографии В.Г. Сраговича [55], [56], и A.B. Назина и A.C. Позняка [43]). Наконец, отметим, что иногда значения ф бывает удобнее интерпретировать как потери, а не как доходы.

Правое неравенство (1.12) доказывается аналогично. Неравенству (1.13) соответствует в этом случае неравенство
откуда уже легко вытекает требуемая оценка. Невозможность знака равенства в оценке при рк > р1, N >2 также доказывается от противного. Сначала устанавливается, что в этом случае отличными от нуля в каждой ветви 5д, автомата могут быть те и только те и;(п), 1 £ ,5'*, для которых выполнены условия Пк = Мк — 1, Щ =; О, I ф к. Полагая для определенности, что > 2, далее следует последовательно рассмотреть матрицы переходных вероятностей
где /Зу = ||/3,;||,'ея, Ъ = 1|7д||;е5, т.е. из состояния 1 (соответственно, состояния 2) переходы совершаются всегда так, как если бы на входе был 0. При этом оказывается, что все переходы из ветвей • • •, 5'д- в ветвь 5) выполняются только через, состояние 1 (соответственно, состояние 2). Полученное противоречие означает невозможность знака равенства в правой части оценки (1.12) при сделанных предположениях.
Теорема полностью доказана.
Следствие. При рк > Р1 из (1.12) и неравенства о среднем арифметическом и среднем геометрическом следуют оценки
причем знак равенства при рк > р, N > 2 невозможен.
В некотором пояснении нуждается оценка (1.16). Правое неравенство (1.12) нужно представить в следующем эквивалентном виде
НТо ИьУей Ц/З172 • • • || ; 1|7о11»^€5 — blP2---lKNW
(1.16)
(1.15)

Рекомендуемые диссертации данного раздела

Время генерации: 0.117, запросов: 967