+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Разработка численных методов выбора контрастирующих признаков по эмпирическим данным

  • Автор:

    Цурко, Варвара Владимировна

  • Шифр специальности:

    05.13.18

  • Научная степень:

    Кандидатская

  • Год защиты:

    2014

  • Место защиты:

    Москва

  • Количество страниц:

    100 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы


Оглавление
Введение
1 Восстановление зависимостей по эмпирическим данным
1.1 Задачи восстановления зависимостей
1.1.1 Классификация
1.1.2 Регрессия
1.1.3 Оценка плотности распределения
1.1.4 Контрастирование распределений
1.2 Методы отбора признаков
1.2.1 Определения понятия «значимый признак»
1.2.2 Классификация методов отбора значимых признаков
1.3 Обзор методов оценки среднего риска по эмпирическим данным
1.3.1 Теория Вапника-Червоненкиса
1.3.2 Оценки среднего риска по эмпирическому риску, адаптированные к данным
1.4 Основные выводы
2 Разработка метода выбора контрастирующих признаков
2.1 Средний риск
2.2 Эмпирический риск
2.3 Равномерная оценка Вапника-Червоненкиса уклонения эмпирического риска от среднего в
задаче контрастирования
2.4 Оценки среднего риска, основанные на Радемахеровской сложности
2.4.1 Штраф Радемахера
2.4.2 Оценка среднего риска
2.5 Алгоритм выбора контрастирующих признаков
2.6 Основные выводы
3 Применение метода выбора контрастирующих принаков для поиска классов заболеваний, влияющих на возникновение злокачественных новообразований
3.1 Статистические данные о причинах смерти и сопутствующих заболеваниях
3.2 Применение метода контрастирования распределений при поиске связи между причинами смерти и сопутствующими заболеваниями
3.2.1 Рак органов пищеварения и брюшины
3.2.2 Рак органов дыхания и грудной клетки
3.2.3 Рак мочеполовых органов
3.3 Основные выводы
4 Применение метода выбора контрастирующих признаков для контроля производственного процесса
4.1 Выбор параметров для классификации состояний производственного процесса
4.2 Применение метода выбора контрастирующих признаков для контроля производственного
процесса
4.3 Проверка результатов применения метода выбора контрастирующих признаков
4.4 Основные выводы
Заключение
Список основных обозначений
Список литературы
Список иллюстраций
Список таблиц
Приложение
Введение
Актуальность темы. Современное развитие экспериментальной базы научных исследований, создание сложных систем с большим числом взаимосвязанных компонент, развитие средств телекоммуникации и телеметрии привело к необходимости автоматически обрабатывать большие объёмы многомерных массивов данных и создало возможность выявлять ранее недоступные для анализа закономерности и связи.
Среди многих задач автоматизированной обработки многомерных эмпирических данных актуальна проблема выделения наиболее значимых, существенных для решаемой задачи факторов и переменных. Эта проблема важна при анализе популяционных данных с целью выявления
закономерностей заболеваемости и смертности, при поиске факторов,
существенных для классификации состояний производственного процесса, а также в различных задачах медицинской диагностики, анализа изображений и текстов. Исходные данные, возникающие в таких задачах, обычно характеризуются высокой размерностью. Количество признаков, например, в задачах распознавания текстов может достигать порядка 104 - 107, причем значимыми является лишь небольшая часть из них. Данные, получаемые в биологических экспериментах на микрочипах, характеризуются экспрессией десятков тысяч генов, причем число доступных для анализа объектов исчисляется сотнями. В такой ситуации необходимо привлечение алгоритмов машинного обучения, способных учитывать явно ненаблюдаемые
закономерности между признаками. Учёт этих закономерностей может
использоваться для более компактного и статистически надёжного описания данных. Кроме того, наличие таких закономерностей часто представляет самостоятельный интерес для исследователя, давая новые знания об изучаемом объекте.
Для повышения результативности анализа многомерных данных большой эффект даёт снижение их размерности через выделение лидирующих факторов и комбинаций признаков. При этом строятся модели взаимного влияния

2 Разработка метода выбора контрастирующих признаков
Задача контрастирования распределений возникает при отборе факторов и признаков распределения которых в наибольшей степени различаются при сравнении двух классов. Примером является выбор симптомов и сопутствующих заболеваний при выяснении условий развития конкретной патологии, например, возникновения онкологического заболевания. Также такой подход может применяться при выделении набора параметров, связанных с интересующим состоянием технического объекта, например, с исправным функционированием отдельных узлов.
В второй главе описывается постановка задачи выбора контрастирующих признаков как задачи максимизации среднего риска и рассматриваются методы максимизации среднего через эмпирический с применением равномерной оценки Вапника-Червоненкиса и адаптированной к данным оценки, использующей штрафную функцию Радемахера.
2.1 Средний риск
Многие задачи анализа данных могут быть поставлены как задачи минимизации среднего риска. Такими задачами являются задача классификации, восстановления регрессионной зависимости, восстановления плотности распределения. Задача выбора контрастирующих признаков может быть сформулирована аналогичным образом.
Пусть 1еЯп- множество объектов, У = {ОД} - множество классов, Р -неизвестное вероятностное распределение на Ху. У. Обозначим (.х,у) случайную пару из распределения Р. Объект х = (х{1),...,х(п)) - п-мерный вектор, координаты вектора имеют смысл признаков.
Определим байесовские оценки многомерных гистограмм. Пусть область значения координаты х(]) разделена на ту интервалов, тогда к = П/=1 ту -число интервалов «-мерной гистограммы, а1, ...,ак - п-мерные интервалы деления области значений х. Если априорное распределение вероятностей

Рекомендуемые диссертации данного раздела

Время генерации: 0.120, запросов: 967