Диссертация на тему "Методы тематической классификации текста : на примере образа Российской Федерации в New York Times", скачать бесплатно автореферат по специальности 22.00.01

Содержание
Введение
Глава 1. Подходы к проведению тематического анализа текстов
§ 1. Способы отбора источников
§2. Формализованный подход: кластерный анализ, тематическое
моделирование
§3. Эвристический подход: тематический анализ
§4. Стратегия смешивания методов (mixed methods research)
Резюме
Глава 2. Теоретико-методологические основания изучения образа
Российской Федерации в средствах массовой информации
§1. Образ России как междисциплинарное понятие
§2. Ключевые ценности американского общества
§3. Новости как дискурс
Резюме
Глава 3. Описание и апробация алгоритма тематической
классификации текста в рамках стратегии смешивания методов
§1. Описание алгоритма проведения исследования
§2. Образ России как интегральное понятие
§3. Ценности американского общества в статьях «Нью-Йорк тайме»
о России
Резюме
Заключение
Список использованной литературы
Приложение
Приложение

Введение
Актуальность темы исследования
Стремительное распространение технологий производства, обработки, трансляции и хранения информации в текстовом виде, лавинообразный рост и широкая доступность данных в электронном виде, а также повышение роли информации как ресурса и основы принятия решений обусловили запрос на разработку автоматизированных средств обработки и анализа текстовых данных. В настоящее время мы являемся свидетелями интервенции формализованных методов анализа текстовых данных1, что обусловливает завышенные ожидания к возможностям автоматизированных средств и их неадекватное использование. Основными причинами завышенных ожиданий, на наш взгляд, является агрессивная маркетинговая политика корпорации-разработчиков специализированного программного обеспечения, акцентирующая внимание на возможности практически полного исключения человека при сборе, обработке и анализе информации; низкий уровень осведомленности пользователей об алгоритмах и ограничениях методологий, лежащих в основе того или иного программного продукта; а также исключительно небольшое количество междисциплинарных научных исследований, направленных на решение задач определения «границ» и условий применения формализованных методов анализа текстовых данных в гуманитарных науках (которые являются одним из их основных «потребителей»).
Вместе с тем, подавляющее большинство современных гуманитарных исследований, содержащих этап обработки текстовой информации (в том числе ответы на открытые вопросы анкеты, транскрипты интервью и фокус-групп, тексты новостей и пр.), продолжают использовать традиционные
1 Формализованные методы анализа текстовых данных развивались обособленно, чаще в технических дисциплинах, таких как искусственный интеллект, ненросетевое моделирование, лингвистическое обеспечение систем автоматизированного проектирования и программирования и пр.

методы анализа, основанные на эвристических алгоритмах": кодировании, априорной категоризации и пр. Основными причинами устойчивого применения традиционных методов анализа текстовых данных, па наш взгляд, является определенная степень инерционности методической составляющей исследований; неизученность, и, как следствие, отсутствие доказательств надежности и валидности формализованных методов при решении конкретных задач социального анализа; а также отсутствие исследований, посвященных верификации возможностей и условий интеграции различных направлений методов анализа текстовых данных.
Таким образом, в настоящее время наблюдается значительный разрыв между потенциальными возможностями формализованных методов анализа текстовых данных и фактическим использованием их потенциала. Применение формализованных методов для анализа больших массивов текстовых данных для решения задач социального анализа является скорее новаторством, чем нормой. Возможно, по причине того, что применение методов не стало нормой, они используются не всегда корректно и адекватно поставленным задачам.
Несмотря на взрывной рост количества методов и алгоритмов формализованного тематического анализа, крайне малочисленны исследования, дающие представления и конкретные руководства эмпирическому исследователю-гуманитарию об их специфике, достоинствах и недостатках. Узконаправлены и немногочисленны исследования, сфокусированные на сравнительной оценке применимости отдельных направлений методов анализа текстовых данных в конкретных исследовательских ситуациях, определяющие роль эвристических алгоритмов в процессе анализа. Следствием является отсутствие пошагового алгоритма анализа корпуса текстовых данных, основанного и
2 Под эвристическими алгоритмами понимается способ анализа данных и решения задач, не имеющий строю! о обоснования, подающий приемлемые решения в большинстве практически значимых задач.

[Hofmann, 1999] и (4) слова, взвешенные по их редкости в корпусе документов (показатель часто называется TF-IDF или частота встречаемости термина на обратную частоту документа в корпусе) [Manning, Raghavan, Schutze, 2008]. Описанные модификации являются принципиально аналогичными (представление текста в виде неупорядоченных униграмм).
Классификация документов по известным категориям
Классификация документов по известным категориям является наиболее распространенным использованием методов контент-анализа в социальных науках. Например, исследователи могут изучать влияние рекламы [Ansolabehere, Shanto, 1995], репрезентацию социальных проблем в международных документах [Schrodt, 2000], тональность местных новостей [Eshbaugh-Soha, 2010]. В любом случае, цель подобных исследований состоит в классификации каждого документа в определенную категорию, в изучении общего распределения документов по категориям, или и то, и то. Ручное кодирование как инструмент решения подобных проблем исключительно трудо- и времязатратен. Даже после формулировки кодировочных правил и подготовки кодировщиков, ручные методы кодирования требуют прочтения каждого документа. Автоматизированные методы могут уменьшить затраты на классификацию документов за счет ограничения количества классификаций, которые должны выполнить исследователи. Ниже мы охарактеризуем две группы методов для оптимизации классификации. Методы, основанные на словарях (dictionary methods) в качестве индикатора присутствия категории в тексте используют частоту ключевых слов. Методы, основанные на обучении с учителем, напоминают ручное кодирование, но замененное компьютером. На первом этапе человек кодирует подмножество документов в заданную схему классификации. Затем эта обучающая выборка используется для обучения

Название работы	Автор	Дата защиты
Феномен социальных сетей : акторно-сетевой контекст, теоретико-методологический анализ	Малов, Егор Андреевич	2014
Концепции социального контроля в американской социологии конца XIX - XX веков: историко-социологический анализ	Обрывалина, Ольга Андреевна	2014
Социологический контент в творческом наследии А.А. Зиновьева	Ларин Олег Николаевич	2016

Электронная библиотека диссертаций

Методы тематической классификации текста : на примере образа Российской Федерации в New York Times

Рекомендуемые диссертации данного раздела