Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных

Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных

Автор: Солодков, Алексей Юрьевич

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Саратов

Количество страниц: 136 с. ил.

Артикул: 3302418

Автор: Солодков, Алексей Юрьевич

Стоимость: 250 руб.

Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных  Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных 

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
1. ОБЗОР. МЕТОДЫ ХРАНЕНИЯ И УПРАВЛЕНИЯ ДАННЫМИ. МЕТОДЫ НЕТОЧНОГО СОПОСТАВЛЕНИЯ СТРОК.
МЕТОДЫ ПРИНЯТИЯ РЕШЕНИЙ
1.1. Методы хранения и управления данными
1.1.1. Базы данных
1.1.2. Хранилища данных.
1.1.3. Очистка данных.
1.2. Методы неточного сопоставления строк
1.2.1. Расстояние редактирования
1.2.2. Нахождение наибольшей общей подпоследовательности
1.2.3. Метод пграмм
1.2.4. Тпедеревья
1.2.5. Хеширование
1.3. Методы принятия решений.
1.3.1. Таблицы принятия решений.
1.3.2. Деревья принятия решений.
1.3.3. Фреймовые модели.
1.3.4. Нейросетевые методы
1.3.5. Теория нечетких множеств.
1.3.6. Генетические алгоритмы.
1.3.7. Структурные методы анализа.
1.4. Выводы
2. РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И МЕТОДОВ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ
НА ПРИМЕРЕ ЮРИДИЧЕСКИХ ЛИЦ.
2.1. Алгоритмы сравнения реквизитов объектов.
2.1.1. Символьные поля.
2.1.2. Сложные символьные поля.
2.1.2.1. Наименование объекта.
2.1.2.2. Почтовый адрес.
2.1.3. Числовые поля.
2.2. Алгоритмы сравнения объектов
2.2.1. Таблицы принятия решений
2.2.2. Деревья принятия решений
2.2.3. Структурный метод принятия решений
2.3. Выводы
3. ПРИМЕНЕНИЕ АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ЮРИДИЧЕСКИХ ЛИЦ В ЗАДАЧЕ ПОСТРОЕНИЯ ХРАНИЛИЩА ДАННЫХ
3.1. Выбор класса задач
3.2. Построение хранилища данных
Управления Федеральной службы налоговой полиции по Саратовской области.
3.2.1. Особенности предметной области. Выбор СУБД
3.2.2. Входной поток и Метапоток хранилища данных
3.2.3. Восходящий поток
3.2.4. Выходной поток
3.2.5. Выбор реквизитов для принятия решения.
3.2.6. Построение дерева принятия решений
3.2.7. Структурный метод принятия решений
3.3. Выводы
4. РЕАЛИЗАЦИЯ, ЭКСПЕРИМЕНТЫ, ВНЕДРЕНИЕ
4.1. Оценки эффективности алгоритма.
Сравнение с традиционными методами.
4.2. Описание программной реализации алгоритма идентификации объектов нечисловой природы
4.3. Технические характеристики.
4.4. Выводы.
ЗАКЛЮЧЕНИЕ.
ЛИТЕРАТУРА


Объекты реального мира обладают многими описывающими реквизитами, из которых можно выбрать несколько ИН. Наличие ошибок и пропусков в данных априори не позволяет точно идентифицировать все объекты, основываясь на одном реквизите, или на точном равенстве нескольких реквизитов. Эксперт конкретной предметной области, принимая во внимание особенности этой предметной области, может точно идентифицировать объекты, имеющие опечатки и пропуски в значениях реквизитов. Разработанный в данной диссертационной работе подход позволяет исключить влияние искаженных данных на идентификацию объектов. В связи с автоматизацией идентификации объектов исключается «человеческий фактор», что существенно повышает достоверность и сокращает время заполнения хранилища данных. Целыо диссертационной работы является разработка математических моделей и методов очистки данных и идентификации объектов нечисловой природы в хранилищах данных. БД по дополнительно наложенным условиям. Классификаторы нечисловых реквизитов, в том числе имеющих сложную семантическую структуру на основе математической модели, генерирующие символьный либо числовой результат сравнения. Метод проверки идентичности двух объектов на основе деревьев принятия решений и совокупности полученных результатов классификаторами по отобранным для идентификации реквизитам. Математическая модель и метод идентификации нечисловых объектов, инвариантный по отношению к наличию пропусков и опечаток в данных с автоматической адаптацией набора реквизитов для сравнения. Методика внедрения разработанного математического обеспечения при создании хранилища данных на примере Управления Федеральной службы налоговой полиции Российской Федерации по Саратовской области. Разработанный метод идентификации был успешно применен в Управлении Федеральной службы налоговой полиции Российской Федерации по Саратовской области при решении задачи построения интегрированного банка данных по информации из нескольких БД государственных контрольных органов Саратовской области. Получен акт внедрения разработанных методов. Основные теоретические положения и практические результаты работы обсуждались и докладывались на: V молодежной научно-технической конференции «Наукоемкие технологии и интеллектуальные системы » (Москва, ), Всероссийской научно-практической конференции «Технологии Интернет - на службу обществу» (Саратов, ), XVI Международной научной конференции «Математические методы в технике и технологиях» (Ростов-на-Дону, ), Всероссийской научной конференции «Сложные системы. Анализ, моделирование, управление» (Саратов, ). Публикации. Основные положения диссертации отражены в 8 публикациях, в том числе в 1 статье в журнале «Системная интеграция» рекомендованном ВАК. Без соавторов опубликовано 2 работы. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы и приложений. Изложена на 6 страницах, содержит рисунков, 8 таблиц, список используемых источников включает 7 наименований. Первая глава посвящена обзору методов хранения данных, методов сопоставления строк и методов принятия решения, необходимых для построения алгоритма идентификации. Вторая глава посвящена разработке методов идентификации юридических лиц. Рассмотрены основные, наиболее часто встречающиеся и необходимые для процесса идентификации ЮЛ реквизиты. Особое внимание уделено алгоритмам, разработанным для обработки сложно структурированных реквизитов, таких как наименование предприятия, почтовый адрес. Предлагается подход к обработке числовых данных. Третья глава описывает применение разработанного метода идентификации ЮЛ при построении хранилища данных в УФСНП РФ по Саратовской области. Изложены особенности предметной области. Проведен выбор реквизитов используемых для принятия решения об идентичности объектов. Приведен алгоритм идентификации ЮЛ. В четвертой главе описана реализация метода, проведено сравнение полученного алгоритма с традиционными, используемыми для решения подобных задач. Заключение содержит основные выводы и рекомендации, являющиеся результатом проведенных исследований.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.245, запросов: 244