+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Сравнительный анализ алгоритмов заполнения пропусков в социологических данных

Сравнительный анализ алгоритмов заполнения пропусков в социологических данных
  • Автор:

    Зангиева, Ирина Казбековна

  • Шифр специальности:

    22.00.01

  • Научная степень:

    Кандидатская

  • Год защиты:

    2012

  • Место защиты:

    Москва

  • Количество страниц:

    220 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"
1.1 ТИПЫ ОТДЕЛЬНЫХ ПРОПУСКОВ И ДОПУСТИМЫЕ СПОСОБЫ РАБОТЫ С НИМИ 
ГЛАВА 2. АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: СИСТЕМАТИЗИРОВАНЫЙ ОБЗОР


СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. ОТДЕЛЬНЫЕ ПРОПУСКИ В СОЦИОЛОГИЧЕСКИХ ДАННЫХ: ПРИЧИНЫ, ВИДЫ И ПОДХОДЫ К РАБОТЕ

1.1 ТИПЫ ОТДЕЛЬНЫХ ПРОПУСКОВ И ДОПУСТИМЫЕ СПОСОБЫ РАБОТЫ С НИМИ


1.2. ПРИЧИНЫ НЕОТВЕТОВ НА ВОПРОСЫ КАК ДЕТЕРМИНАНТЫ СТЕПЕНИ СЛУЧАЙНОСТИ ПРОПУСКОВ И ДОПУСТИМЫХ СПОСОБОВ ИХ ЛИКВИДАЦИИ

РЕЗЮМЕ ПЕРВОЙ ГЛАВЫ

ГЛАВА 2. АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: СИСТЕМАТИЗИРОВАНЫЙ ОБЗОР

2.1. ОСНОВНЫЕ АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ


2.2. ИМЕЮЩИЕСЯ НАРАБОТКИ В ОБЛАСТИ ТЕОРЕТИЧЕСКОГО И ЭКСПЕРИМЕНТАЛЬНОГО СРАВНЕНИЯ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ

РЕЗЮМЕ ВТОРОЙ ГЛАВЫ


ГЛАВА 3. МЕТОДИЧЕСКИЙ ЭКСПЕРИМЕНТ: СРАВНЕНИЕ ЭФФЕКТИВНОСТИ ОТДЕЛЬНЫХ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ
3.1. МЕТОДИКА ЭКСПРИМЕНТАЛЬНОГО СРАВНЕНИЯ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: ТЕОРЕТИЧЕСКОЕ ОПИСАНИЕ
3.2. ЭМПИРИЧЕСКАЯ АПРОБАЦИЯ РАЗРАБОТАННОЙ МЕТОДИКИ ЭКСПРИМЕНТАЛЬНОГО СРАВНЕНИЯ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ
РЕЗЮМЕ ТРЕТЬЕЙ ГЛАВЫ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
ПРИЛОЖЕНИЕ 1. ОПИСАНИЕ ПЕРЕМЕННЫХ, ЗАДЕЙСТВОВАННЫХ В МЕТОДИЧЕСКОМ ЭКСПЕРИМЕНТЕ
ПРИЛОЖЕНИЕ 2. РЕЗУЛЬТАТЫ РАССМАТРИВАЕМЫХ МЕТОДОВ АНАЛИЗА ДАННЫХ, ПОЛУЧЕННЫЕ НА ЭТАЛОННОМ МАССИВЕ, И ИХ СОДЕРЖАТЕЛЬНАЯ ИНТЕРПРЕТАЦИЯ
ПРИЛОЖЕНИЕ 3. СРАВНЕНИЕ С ЭТАЛОННЫМИ РЕЗУЛЬТАТОВ АНАЛИЗА, ПОЛУЧЕННЫХ ПОСЛЕ ВНЕСЕНИЯ В ДАННЫЕ ИСКУССТВЕННЫХ ПРОПУСКОВ
ПРИЛОЖЕНИЕ 4. СРАВНЕНИЕ С ЭТАЛОННЫМИ РЕЗУЛЬТАТОВ АНАЛИЗА ДАННЫХ, ПОЛУЧЕННЫХ ПОСЛЕ ЗАПОЛНЕНИЯ ПРОПУСКОВ
ПРИЛОЖЕНИЕ 5. СХЕМЫ ДЛЯ ВЫБОРА АЛГОРИТМА ЗАПОЛНЕНИЯ ПРОПУСКОВ В ЗАВИСИМОСТИ ОТ КОЛИЧЕСТВА ПРОПУСКОВ И МЕТОДА АНАЛИЗА ДАННЫХ

ВВЕДЕНИЕ
Актуальность
Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальных исследованиях респонденты по разным причинам не отвечают на отдельные вопросы, в результате чего в данных появляются пропуски, с которыми приходится бороться разными способами. Первый способ, предлагаемый всеми известными статистическими пакетами, предусматривает автоматическое исключение из анализа наблюдений (наблюдением мы называем данные, отвечающие отдельному изучаемому объекту, чаще всего - респонденту) с пропусками, что ведет к снижению валидности статистических выводов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа, систематических смещений. Позже на их основе могут быть приняты ошибочные стратегические решения, устранение негативных последствий которых потребует дополнительных затрат.
Чтобы сгладить указанные недостатки удаления неполных наблюдений, оставшиеся полные наблюдения иногда взвешивают. Этот второй способ в большинстве случаев проблему тоже не решает. Корректировка пропусков в значениях одной характеристики путем взвешивания по ней всех имеющихся наблюдений вызовет неоправданные смещения в распределениях значений остальных характеристик, для которых все значения могли быть изначально известны.
Исследователю необходимы практические инструменты для восстановления отсутствующей информации. Эти инструменты обеспечивает третий (помимо удаления неполных наблюдений и взвешивания полных), на данный момент наиболее перспективный и бурно развивающийся подход — искусственное заполнение пропусков в данных.
На сегодняшний день разработано множество алгоритмов заполнения пропусков, однако сведения о них пока что не систематизированы и разбросаны по большому количеству работ. Отсутствуют обзорные работы, дающие представление о специфике, достоинствах и недостатках хотя бы наиболее распространенных в исследовательской практике алгоритмов заполнения пропусков. Крайне малочисленны и исследования, направленные на сравнительную оценку применимости отдельных алгоритмов заполнения пропусков в конкретных исследовательских ситуациях. Сказанное позволяет считать, что работа, направленная на систематизацию методов заполнения

пропусков в данных и выявление условий их эффективного использования в социологии, является актуальной.
Разработанность проблемы
Рассмотрение проблемы использования в социологии алгоритмов заполнения пропусков не может быть оторвано от условий применения других способов «борьбы» с пропусками, от анализа причин возникновения последних. Поэтому круг проанализированных в диссертации работ содержал отнюдь не только публикации, посвященные непосредственно алгоритмам заполнения пропусков, но и ряд работ, посвященных и другим аспектам изучения пропусков в данных статистических обследований (особенно социологических)1. Проведенный анализ показал, что такой подход оправдан.
В работах, посвященных анализу случаев неполноты социологической (статистической) информации, выделяются две большие темы: (1) недостижимость респондентов и (2) неответы на отдельные вопросы, или отдельные пропуски в данных. Диссертация посвящена исключительно второй теме.
В российской социологии изучением причин возникновения пропусков в данных, анализом роли пропущенных данных, разработкой отдельных алгоритмов заполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник, Б.З. Докторов, Е.И. Злоба, H.A. Клюшина, Г.С. Лбов, А.Б.Луппов, В.Ю. Королев,
О.М. Маслова, А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, А.А.Снитюк, Е.Г. Татарова, Ю.Н. Толстова, П.Ю. Чеботарев, И.В. Яцкив. Однако наиболее широкое освещение проблематика работы с пропусками данных получила в работах западных исследователей. Настоящая работа в значительной мере лежит в русле идей, предложенных западной школой.
Три основных подхода к работе с отдельными пропусками— удаление неполных наблюдений, взвешивание полных наблюдений и заполнение пропусков — анализировали и сравнивали между собой Р. Платек, Р. Литтл,
1 Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных в статистических обследованиях вообще, без привязки к конкретной тематике последних. Однако ситуации, складывающейся в социологии, автор уделяет особое внимание. Проявляется это в основном при обсуждении характера случайности пропусков (где основное внимание уделяется причинам их возникновения); выбора учитываемых методов анализа восстановленных данных (это - наиболее употребительные в социологии методы, хотя они широко используются и в других отраслях науки); выбора исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков. См.например: Татарова Г.Г. Основания математической формализации в социологии: новые
представления о старых проблемах // Математическое моделирование социальных процессов. Вып. 10: сб.ст. / Под ред. А.П. Михайлова. - М.: КДУб 2009. С.351-362. Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000.
стремится приукрасить действительность и приблизить ее к желаемому идеалу
[Schrapler 2001. Р.27-35].
При рассмотрении ответа на вопрос как образца рационального действия важную роль играет уровень доверия респондентов ситуации опроса и личности обращающегося к нему интервьюера (анкетера, исследователя). Доверие в данном случае выступает как фактор, уменьшающий субъективную величину личных издержек от ответа на вопрос, повышая тем самым вероятность получения ответа.
Многие авторы видели в повышении степени доверия между респондентом и интервьюером основное решение проблемы неответов на сенситивные [Loosveldt,
1999; Schrapler, 2001].
В качестве способов усиления доверия рассматривают:
1. Обязательное вознаграждение (не только в денежном выражении) за участие человека в исследовании. Величина вознаграждения должна прямо зависеть от количества вопросов, на которые респондент ответил. Чем больше вопросов респондент оставит без ответа, тем меньшим будет его вознаграждение.
2. Предварительное установочное общение респондента и интервьюера еще до самого интервью. Интервьюер должен заранее наладить с человеком эмоциональный контакт и договориться об интервью или заполнении анкеты. Это необходимо, для того чтобы подготовить человека к ситуации непосредственного интервьюирования, часто стрессовой для многих людей. Такая подготовительная работа адаптирует человека к новым условиям, в результате чего он с большей вероятностью ответит на все вопросы [Hill, Willis, 2001. Р.420-423].
Еще одним фактором, способствующим неответам респондентов на отдельные вопросы, является социальная дистанция и эмоциональное отчуждение между ними и интервьюерами (анкетерами). Чем больше величина социальной дистанции, тем выше вероятность не возникновения контакта между интервьюером и респондентом. В результате респондент откажется участвовать в опросе в принципе либо не ответит на многие вопросы [Dilman, 1978. Р.218-220].
В большей степени такая закономерность справедлива для исследований, затрагивающих сенситивные темы: доходы, вредные привычки, девиантное поведение и т.д.
Эмпирически установлены следующие взаимосвязи характеристик респондента и интервьюера, значимые в случае вопросов о доходах:

Рекомендуемые диссертации данного раздела

Время генерации: 0.156, запросов: 962