+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей

  • Автор:

    Кучин, Иван Юрьевич

  • Шифр специальности:

    05.13.01, 05.13.19

  • Научная степень:

    Кандидатская

  • Год защиты:

    2012

  • Место защиты:

    Астрахань

  • Количество страниц:

    132 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИЗ ПРОБЛЕМЫ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ПЕРСОНАЛЬНЫМ ДАННЫМ
1.1. Влияние свойств данных на методы их обработки
1.2. Описание категории «персональные данные»
1.3. Проблема идентификации по персональным данным
1.3.1. Анализ проблемы идентификации личности по персональным данным
1.3.2. Идентификация личности по персональным данным
1.3.3. Фактор связности данных
1.4. Построение модели оценки характеристики доступности персональных данных
1.4.1. Реальное положение дел с доступностью персональных данных на рынке информационных услуг
1.4.2. Влияние природы данных на их доступность
1.4.3. Желание субъекта добровольно раскрывать информацию о себе
1.4.4. Результаты оценки доступности данных
1.4.5. Проведение поискового эксперимента по оценке доступности персональных данных
1.5. Формирование общей схемы идентификации данных
1.5.1. Результаты оценки доступности данных
1.5.2. Анализ факторов, влияющих на информативность атрибутов
1.5.3. Влияние числа и распределение значений в атрибуте на его информативность
1.5.4. Влияние числа атрибутов и зависимости между ними на информативность
1.6. Обобщение проблемы идентификации личности по персональным данным
1.7. Выводы по первой главе
ГЛАВА 2. ПОИСК ЗАКОНОМЕРНОСТЕЙ В БАЗАХ С ПЕРСОНИФИЦИРОВАННОЙ ИНФОРМАЦИЕЙ
2.1. Поиск знаний в больших базах данных
2.2. Предлагаемые усовершенствования метода SSA-Гусеница
2.2.1. Этап разложение данных в методе SSA
2.2.2. Этап восстановления ряда в модели SSA
2.2.3. Диагональное усреднение
2.2.4. Параметры и предлагаемые методы
2.3. Возможная реализация метода SSA-Гусеница
2.4. Нахождение скрытых закономерностей в базах с персональными данными
2.5. Использования персонифицированной информации в качестве объекта поиска знаний методами Data Mining
2.6. Выводы по второй главе
ГЛАВА 3. ОБЕЗЛИЧИВАНИЕ ПЕРСОНАЛЬНЫХ ДАННЫХ
3.1. Актуальность и классификация подходов обезличивания
3.2. Атака на основе связей («join attack»)
3 3. Обезличивание методом сокращения идентифицирующей способности базы данных

3.3.1. Модель «-анонимности»
3.3.2. -минимальное обезличивание
3.3.3. Оценка сложности модели k-мннимального обезличивания
Обобщенные данные предложенных алгоритмов для решения проблемы к-минимального обезличивания приведены в таблице
3.3.4. Выводы по методу обезличивания путем сокращения идентифицирующей способности информации
3.4. Обезличивание путем использования недоступных идентификаторов

3.4.1. Описание метода обезличивания
3.4.2. Варианты обеспечения безопасности «базы-справочника»
3.5. Достоинства и недостатки существующих методов обезличивания
3.6. Обезличивания с использованием неполных идентификаторов с возможностью восстановления
3.6.1. Формализация предлагаемого метода обезличивания
3.6.2. Алгоритм «обезличивания с восстановлением»
3.6.3. Тестирование предложенного метода обезличивания на базе реальной базе
данных. Обсуждение результатов
3.7. Обезличивания путем привязки к графу операционной системы
3.8. Выводы по третьей главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ

ВВЕДЕНИЕ
Активное внедрение информационных технологий для повышения эффективности управления привело к формированию больших объемов собранных данных. Количественный рост информации в настоящее время приводит к накоплению качественно новых знаний [43, 63]. Традиционные методы обработки накопленных данных, не дают эффективных подходов для ее интеллектуального анализа, в отличие от методов нового и активно развивающегося научного направления Data Mining, нацеленного на поиск ранее неизвестных знаний.
Особый интерес в качестве объекта поиска новых закономерностей представляет персонифицированная информация или персональные данные (ПДн), т.е. информация, генерируемая или так или иначе связанная с конкретной личностью. Значительная потребность в использовании этой информации и ее анализе, в том числе методами Data Mining, в настоящее время испытывается в двух сферах: в бизнес аналитике (в основном для понимания и прогнозирования покупательских предпочтений людей) и сфере государственных услуг (в связи с активным переводом услуг населения в электронный формат: единая карта гражданина РФ, электронные очереди, электронное правительство и прочие сервисы).
В рамках указанной обработки персонифицированной информации все острее проявляются противоречия требований интеллектуального анализа данных и сохранения приватности личности при использовании ее данных. Так 34,7% организаций [93], обрабатывающих персональные данные, в качестве основного препятствия к использованию их в качестве объекта исследования называют неясность положений Федерального закона №152 «О персональных данных»[102]. В частности, законодательно установлено, но не регламентировано требование проведения предварительной процедуры обезличивания персональных данных перед их исследованием [102, Ст.6 п.9], что значительно препятствует полноценному и безопасному их использованию в качестве объекта поиска новых знаний.
С учетом всего вышесказанного в настоящее время возникает столкновение интересов, связанных с обработкой электронной персонифицированной информацией следующих сторон: бизнес, государства и субъекты персональных данных вместе с контролирующими органами, регулирующими вопросы обеспечения безопасной обработки этих данных. Полное выполнение требований одной из сторон непременно

Очевидно, что поиск можно было продолжать и далее, т.к. число известных идентификаторов человека увеличивалось с каждым шагом эксперимента. Начав поиск с минимального набора общедоступных данных и прибегая только к открытым источникам законными способами, удалось получить достаточно подробную картину личности. Аналогичные результаты были получены и для других записей из собранных в работе базы персональных данных. Стоит ли говорить, какие возможности появляются у мошенников, умеющих находить применение подобной информации.
Исследовав проблему доступности, переходим к проблеме соотнесения записей в базе данных с конкретным человеком, или проблеме идентификации личности по персональным данным.
1.5. Формирование общей схемы идентификации данных
1.5.1. Результаты оценки доступности данных
Идентифицирующая способность атрибута, позволяющая дифференцировать субъектов в базе данных по его значениям, требует числового выражения. Для этого введем свойство «информативности» атрибута.
В принципе, любые персональные данные дают дополнительную информацию о субъекте, однако, «информативность» всех атрибутов различна. Так атрибут «пол» делит всех субъектов на две, примерно равные группы - мужчины и женщины. Атрибут «год рождения» позволяет произвести более детальную дифференциацию, а полная дата рождения может выступать в роли уникального идентификатора в небольших базах данных.
Для подсчета «информативности» атрибутов предлагается формула, аналогичная предложенной Шенноном, для измерения меры уменьшения информационной неопределенности [55]:
(1.3)

А - атрибут базы данных;
1(А) - информативность атрибута А;

Рекомендуемые диссертации данного раздела

Время генерации: 0.112, запросов: 967