Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации

Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации

Автор: Чугреев, Валерий Леонидович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2003

Место защиты: Санкт-Петербург

Количество страниц: 185 с.

Артикул: 2614364

Автор: Чугреев, Валерий Леонидович

Стоимость: 250 руб.

СОДЕРЖАНИЕ
ВВЕДЕНИЕ.
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ.
1.1. Введение в информационнопоисковые системы.
1.2. Обзор моделей поиска и методов тематического анализа текстовой информации.
1.4. Постановка задач исследования
1.5. Выводы.
2. РАЗРАБОТКА МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА
2.1. Графовая модель структурного представления текста произвольного содержания.
2.2. Метод частотноконтекстной классификации тематики текста
2.3. Алгоритм вычисления степени тематической принадлежности текста к образцу.
2.4. Алгоритм поиска значений информационных признаков тематики текста.
2.5. Выводы.
3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА
3.1. Организация поиска.
3.2. Программная реализация графовой модели структурного представления текста произвольного содержания
3.3. Программная реализация метода частотноконтекстной классификации тематики текста
3.4. Программная реализация алгоритма вычисления степени
тематической принадлежности текста к образцу.
3.5. Программная реализация алгоритма поиска значений
информационных признаков тематики текста
3.6. Выводы
4. ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ
4.1. Планирование эксперимента.
4.2. Результаты экспериментальных исследований метода частотноконтекстной классификации.
4.3. Результаты экспериментальных исследований алгоритма вычисления степени тематической принадлежности текста к образцу
4.4. Результаты экспериментальных исследований алгоритма поиска значений информационных признаков тематики текста.
4.5. Результаты экспериментальных исследований сравнения точности вычисления тематической близости
4.5. Выводы
ЗАКЛЮЧЕНИЕ.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ


Наполнение тематического каталога • документами может выполняться как в ручном, так и в автоматическом режиме. Однако наиболее качественным все же остается ручной подбор документов для таких каталогов с привлечением экспертов по конкретным тематическим разделам или полуавтоматический вариант с предварительным “грубым” поиском документов и последующей их селекцией. Поисковые системы ориентированны на поиск слабоструктурированной информации. Как правило, они используются для поиска документов в больших и динамичных информационных коллекциях, например, в Интернете. В рамках данной работы наибольший интерес представляют именно поисковые системы, а точнее, используемые в них методы анализа документов. Специфика поиска в Интернете. Ранние информационно-поисковые системы и методы поиска разрабатывались и тестировались на относительно небольших, однородных коллекциях. Современные условия поиска и, соответственно, требования к информационно-поисковым системам претерпели значительные изменения. Главным образом, эти условия и требования связаны с развитием Интернета, который имеет свои специфические черты и особенности [, ]. Рассмотрим эти особенности. Размер. Одной из главных особенностей Интернета является огромный объем доступных информационных ресурсов, продолжающий, к тому же, интенсивно нарастать. По оценкам специалистов, уже сейчас в Интернете содержится более миллиарда страниц, общий размер этих страниц оценивается в терабайтах [, ]. В связи с этим возникают высокие требования к масштабируемости используемых алгоритмов поиска. Динамика. Высокая степень обновления информационных ресурсов Интернета. Очень часто появляются новые и удаляются существующие страницы, меняется их местоположение. Статистика показывает, что среднее время жизни половины страниц в Интернете не превышает десяти дней, ежемесячно примерно % страниц подвергается изменениям, а объем всей информации в сети увеличился в два раза за последние два года [, ]. Данная особенность значительно затрудняет использование общих статистических характеристик коллекции. Взаимосвязи. Одной из особенностей информационного пространства Интернета является то, что страницы взаимосвязаны между собой. Эта взаимосвязь реализуется с помощью гиперссылок, что может быть использовано при реализации некоторых методов поиска. Свободная публикация. В Интернете возможно свободное размещение документов и их удаление из коллекции, т. Вследствие этого могут быть нарушения целостности отдельных документов коллекции и связей между ними. Избыточность. Для Интернета характерна большая избыточность информационных ресурсов. Очень часто на разных страницах публикуется несколько копий одного и того же документа или его незначительно модифицированных версий. Исследования показывают, что около % информации в Интернете - это точные или приблизительные копии других документов [7]. Неконтролируемое качество. Пользователи. Многие из них не умеют грамотно и эффективно формулировать запросы. Статистика показывает, что более % поисковых запросов в Интернете состоят из 1-2 слов, для примера, в классических информационно-поисковых системах эта величина 7-9 слов [, ]. Зачастую это приводит к большому количеству обрабатываемых и анализируемых в результате поиска документов. Исследования поведения пользователей показали, что многие из них не готовы к продолжительному ожиданию результатов поиска и анализу результирующего множества для выявления необходимых документов. При этом критерии качества, используемые в традиционных системах текстового поиска, становятся неадекватными, например, критерий полноты ^ поиска, т. Доступ. Не всегда возможен доступ к информационным ресурсам Интернета, т. Многоязычность. Интернет - это многоязычная информационная среда. Особенно актуальными становятся задачи мультиязыкового и кросс-языкового поиска. Решение этих задач предполагает реализацию алгоритмов поиска, независимых от языка представления анализируемых в процессе поиска т документов и языка представления информационных запросов пользователя.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.244, запросов: 244