Модели и алгоритмы обработки корпуса документов научной информации

Модели и алгоритмы обработки корпуса документов научной информации

Автор: Седова, Яна Анатольевна

Автор: Седова, Яна Анатольевна

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2011

Место защиты: Астрахань

Количество страниц: 124 с. ил.

Артикул: 4954676

Стоимость: 250 руб.

Модели и алгоритмы обработки корпуса документов научной информации  Модели и алгоритмы обработки корпуса документов научной информации 

Введение.
Глава 1. Современное положение и результаты исследований по
системному анализу неструктурированной текстовой информации
1.1 Основные понятия информационного поиска.
1.2 Информационная технология поиска текстовых документов
1.2.1 Агент
1.2.2 Индексатор.
1.2.3 Семантический анализ корпуса.
1.2.4 Анализ запроса.
1.2.5 Поиск
1.3 Модели информационного поиска.
1.4 Поиск по смыслу и латентносемантический анализ.
1.5 Модели процесса поиска информации3 Г
1.6 Сравнительная характеристика групп ИПС
1.7 Оценка поисковых систем.
1.8 Анализ научной информации.
1.9 Постановка задачи исследования
РЕЗУЛЬТАТЫ И ВЫВОДЫ К ПЕРВОЙ ГЛАВЕ.
Глава 2. Системный анализ неструктурированной текстовой информации, представленной в виде корпуса текстов научного знания
2.1 Основные определения.
2.2 Алгоритм построения семантической модели корпуса.
2.2.1 Получение списка терминов из документа.
2.2.2 Выделение доминантных терминов.
2.3 Латентный семантический анализ.
2.4 Пример применения латентного семантического анализа
2.5 Поиск по корпусу.
РЕЗУЛЬТАТЫ И ВЫВОДЫ КО ВТОРОЙ ГЛАВЕ
Глава 3. Интеллектуальный анализ корпуса текстов научного знания.
3.1 Поиск по корпусу.
3.2 Алгоритм уточнения запроса пользователя
3.3 Пример работы алгоритма уточнения запроса
3.4 Описание модифицированной информационной технологии
РЕЗУЛЬТАТЫ И ВЫВОДЫ К ТРЕТЬЕЙ ГЛАВЕ
Глава 4. Автоматизированная система анализа корпуса текстов научного знания.
4.1 Описание разработанного программного продукта
4.2 Структура индекса
4.3 Информационный агент и индексация
4.4 Описание исходных данных.
4.5 Морфологический анализ текста
4.6 Тестирование системы.
4.6.1 Тестирование на одном компьютере.
4.6.2 Индексация распределенного текстового корпуса.
4.6.3 Латентный семантический анализ распределенного корпуса. 3 РЕЗУЛЬТАТЫ И ВЫВОДЫ К ЧЕТВЕРТОЙ ГЛАВЕ.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ ПО РАБОТЕ.
Приложение 1.
Приложение 2.
ВВЕДЕНИЕ


Результаты исследования реализованы в госбюджетных научноисследовательских работах ФГОУ ВПО Астраханский государственный технический университет Теоретический анализ и математическое моделирование информационных систем, Теоретический анализ и математическое моделирование систем поддержки принятия управленческих решений внедрены в учебный процесс Астраханского государственного технического университета и в муниципальном бюджетном учреждении г. На основе модифицированной информационной технологии разработана автоматизированная система Информационноаналитическая система интеллектуального анализа текстовых электронных ресурсов, прошедшая государственную регистрацию. Личный вклад автора. В работах, выполненных в соавторстве, автору принадлежат формализация задачи, построение моделей, разработка алгоритмов, проектирование и реализация программного обеспечения. Апробация научных результатов. Саратов, Псков, , I Международной научнопрактической конференции Эволюция системы научных коммуникаций ассоциации университетов прикаспийских государств Астрахань, , Всероссийской конференции студентов, аспирантов и молодых ученых Технологии i в теории и практике программирования Москва, , V Всероссийской научноинновационной конференции студентов, аспирантов и молодых ученых Москва, , ой Научнопрактической конференции профессорскопреподавательского состава Астраханского государственного технического университета Астрахань, , Международной научнопрактической конференции Фундаментальные и прикладные исследования университетов, интеграция в региональный инновационный комплекс Астрахань, . Публикации. Основные положения диссертационной работы отражены в опубликованных научных работах, среди которых 3 статьи в журналах, рекомендованных ВАК, 1 свидетельство о регистрации программы для ЭВМ и публикаций в сборниках международных, всероссийских научных конференций. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав основного текста, заключения, списка литературы из наименований и 2 приложений. Общий объем работы 7 страниц машинописного текста, который включает рисунков, таблиц и формул. Во введении обоснована актуальность темы, определены цель и задачи исследования. Первая глава посвящена обзору и анализу результатов исследований по системному анализу и автоматизированной обработке неструктурированной текстовой информации. Рассмотрены существующие типы моделей информационного поиска, типовая архитектура современных информационнопоисковых систем. Практика показывает слабую востребованность методов семантической обработки текстовой информации, поскольку они опираются на онтологии, тезаурусы или семантические сети, создание которых требует привлечения экспертов. Практическое применение получили методы, использующие статистическую обработку текста и не осуществляющие его семантический анализ. Необходимым компонентом информационной технологии обработки научного знания является семантический анализ. При этом наиболее перспективными для обработки научного знания являются методы семантического анализа текста, не использующие для анализа никаких хранилищ знаний, собирающие все необходимые данные только из анализируемого текстового корпуса и сводящие к минимуму участие эксперта в процессе обработки. Для оценки эффективности информационного поиска общепринятыми являются метрики, использующиеся конференцией по оценке систем текстового поиска x iv и Российским семинаром по оценке методов информационного поиска РОМИП полнота, точность, аккуратность, ошибка и мера. Данные характеристики взяты за основу для оценки достижения цели исследования. Во второй главе произведен системный анализ неструктурированной текстовой информации, представленной в виде корпуса текстов научного знания, позволивший отделить ряд системных характеристик объекта исследования. Предложенные характеристики могут быть использованы для детализации поисковых запросов. Разработана трехмерная семантическая модель корпуса документов, позволяющая представить корпус в виде взвешенного графа для последующего анализа.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.318, запросов: 244