Разработка математического и программного обеспечения идентификации объектов в базе данных на основе нестрогого соответствия

Разработка математического и программного обеспечения идентификации объектов в базе данных на основе нестрогого соответствия

Автор: Карахтанов, Дмитрий Сергеевич

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Воронеж

Количество страниц: 146 с. ил.

Артикул: 4966152

Автор: Карахтанов, Дмитрий Сергеевич

Стоимость: 250 руб.

Разработка математического и программного обеспечения идентификации объектов в базе данных на основе нестрогого соответствия  Разработка математического и программного обеспечения идентификации объектов в базе данных на основе нестрогого соответствия 

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ.
ГЛАВА 1. СОСТОЯНИЕ ПРОБЛЕМЫ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ В БАЗАХ ДАННЫХ.
1.1 Проблемы идентификации объектов в базах данных
1.2 Ограничения существующих поисковых алгоритмов
1.3 Постановка задач исследования
ГЛАВА 2. РАЗРАБОТКА ПРОЦЕДУР НЕСТРОГОГО СООТВЕТСТВИЯ .
2.1 Процедура определения функции релевантности
2.2 Процедура вычисления расстояния между строками.
2.3 Процедура приближенного поиска по длинным строкам
2.4 Процедура формирования ключа фонетической похожести
Выводы.
ГЛАВА 3. РАЗРАБОТКА АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ В БАЗАХ ДАННЫХ.
3.1 Алгоритм поиска и устранения дубликатов
3.2 Алгоритм идентификации физических лиц
3.3 Алгоритм поиска по отдельным атрибутам.
Выводы.
ГЛАВА 4. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ В БАЗАХ ДАННЫХ.
4.1 Особенности программной реализации средств автоматизации поиска дубликатов в базе данных.
4.2 Исследование эффективности разработанных алгоритмов в коммерческих базах данных
4.3 Альтернативные применения.
ЗАКЛЮЧЕНИЕ..
ОСПОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ.
ЛИТЕРАТУРА


По статистике, доля структурированных данных в современных базах данных составляет не более -%, остальные же приходятся на долю различных справочников, сканированных документов и другой разрозненной информации. В этом случае возникает проблема поиска и выборки необходимой информации из большого неструктурированного массива. Для многих организаций информация является основным активом. Искажение или повреждение важной информации может привести к существенным финансовым потерям и репутационным рискам. Потери вследствие неверного, плохого оказания услуг («брак» в информации). Данный вид потерь присутствует почти в любой организации. Потери вследствие использования не оптимальных: технологических цепочек. Данный вид потерь, присутствует почти в любой организации. По этим причинам в. Потери времени, денежных средств, клиентов по причине отсутствия либо' дублирования информации. Данный вид потерь присутствует почти в любой организации. Потери составляют около % времени сотрудников; что влечет увеличение стоимости выполняемой операции. Основным фактором, стимулирующим развитие- технологий- поиска, является появление большого количества электронных библиотек и архивов, содержащих значительные объемы актуальных знаний. Производительность и эффективность любой системы хранения информации напрямую зависит от эффективности и производительности поисковых систем. Именно поисковая система определяет, превратятся ли в знания-многочисленные разрозненные данные, поступающие по различным каналам связи и накапливаемые. Наиболее распространенным видом информационных ресурсов, для организаций, работающих с персональными данными (бюро* кредитных историй^ банки, страховые организации, любые организации с достаточно крупным штатом сотрудников), являются тексты на естественных языках. Этим обусловлено широкое применение в таких системах технологий текстового поиска. Интернет. Вследствие этого задача поиска в базах персональных данных не может быть в полной мере решена только методами проверки на точное соответствие. Становится актуальной задача разработки специальных методов и технологий текстового поиска с использованием нетривиальных решений, в том числе на основе операций нестрогого соответствия. Однако универсальной методики поиска в условиях зашумленности данных не существует, поскольку каждая проблема имеет собственную оригинальную специфику. Для решения возникших проблем требуется использовать алгоритмы способные найти все лексикографически близкие к шаблону поиска слова, отличающиеся заменами, пропусками и вставками символов. Таким образом, автоматически становится допустимой ошибка, как во входных данных, так и в терминах запроса. В настоящее время возможности выполнения поиска по сходству никак не используются в СУБД. Таким образом, возникает задача разработки алгоритмов выполнения специальных реляционных операций, возникающих в задаче отождествления записей [5, 6]. Проведенный анализ направлений развития современных баз данных показывает, что сложившиеся и формирующиеся за последние годы тенденции развития информационных технологий оказывают существенное влияние, в том числе и на функциональные возможности автоматизированных систем кредитных организаций. В данной работе предлагается комплекс алгоритмов, предназначенный для применения в автоматизированных информационных системах, связанных с накоплением и обработкой персональных данных. Данный комплекс целесообразно применять при поиске с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании - персональных данных клиента (Ф. И.О. Комплексы позволяют быстро отобрать все слова, фрагменты которых совпадают с фрагментами слова в запросе, лежащие в заданной окрестности допустимых искажений. Задавая размер этой окрестности (процент отличающихся фрагментов и допустимые смещения их позиций в слове), можно легко регулировать точность и полноту поиска - отбирать слова по степени близости к запросу. Полная идентификация клиента при наличии искажений информации в базе данных или в поисковых запросах.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.198, запросов: 244