Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов

Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов

Автор: Дружинин, Александр Вячеславович

Шифр специальности: 05.13.01

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Ханты-Мансийск

Количество страниц: 157 с. ил.

Артикул: 2772242

Автор: Дружинин, Александр Вячеславович

Стоимость: 250 руб.

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. ПРОБЛЕМЫ СОЗДАНИЯ БАЗ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ И ОРГАНИЗАЦИИ ПОИСКА ПО НИМ
1.1 Общие вопросы создания электронных каталогов
1.2 Модели хранения библиографической информации
1.3 Модели поиска в электронном каталоге
ГЛАВА 2. МОДЕЛИ ТЕХНОЛОГИЧЕСКОЙ СХЕМЫ СОЗДАНИЯ БАЗЫ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ И СМЕШАННОГО ПОИСКА ПО БАЗЕ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ
2.1 Форматы представления библиографической информации
2.2 Представление индексной информации при полнотекстовом поиске
2.3 Модель создания баз полнотекстовых документов
2.4 Технология смешанного поиска
ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА СМЕШАННОГО ПОИСКА В БАЗЕ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ
3.1 Описание модулей ПО
3.2 Описание ПО поддержки технологического процесса создания
баз ПД
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА


Традиционно пользователи привыкли к мысли, что в библиотеке можно получить любую информацию [5]. Улучшение основных показателей работы библиотеки достигается комплексным внедрением технических средств и заменой традиционных библиотечных процессов информационными технологиями на основе технического переоснащения с соблюдением всех особенностей, свойственных предметной области - библиотечному делу. Применение современного аппаратного и программного обеспечения позволяет повысить скорость создания, обработки и поиска информации. На практике это означает доступность всех документов в неограниченном количестве экземпляров; освобождение сотрудников от ряда рутинных работ по подготовке картотек, списков, заказов, писем, отчетной документации; осуществление операций по созданию и копированию тематических архивов литературы. Определение фондов для создания ЭК. Организация хранилища для созданных документов. Сканирование отобранных документов. Распознавание графических документов. Редактирование распознанных документов. Создание единого поискового интерфейса для электронного каталога и полнотекстовой БД. Наполнение полнотекстовой БД системы путем заимствования полнотекстовых документов. Создание мест свободного доступа к полнотекстовой БД системы. Создание единой базы данных читателей системы. Сбор и анализ статистической информации. Приоритеты и последовательность технологических этапов внедрения определяется уровнем финансирования. Как правило, библиотека останавливается, в первую очередь, на сканировании и распознавании документов, предоставляя к ним доступ. Затем решаются вопросы автоматизации пополнения полнотекстовой БД и редактирования имеющихся документов [, ]. Автоматизация процессов обслуживания читателей связана с рядом сложностей, которые заставляют многие библиотеки отложить создание этой подсистемы на «обеспеченное будущее» до решения вопросов с дистанционной идентификацией объекта, например технологии радиочастотных идентификаторов. Для автоматизации системы обслуживания необходимо иметь парк компьютеров, в достаточном количестве установленных для свободного доступа читателей и объединенных в локальную сеть библиотеки, принтеры в каждом помещении книгохранилища для печати заказов читателей []. ПД, изменение базы для удовлетворения запросов читателей. Отбор и сканирование документов достаточно полно разработаны в Российской государственной библиотеке (РГБ) [-] и медицинской библиотеке Сибирского государственного медицинского университета (СГМУ) [9,7]. Эти операции полностью зависят от конкретных задач создаваемой базы ПД и слабо поддаются автоматизации. После распознавания графических образов имеются два набора файлов - графическое представление и текстовое. Обычно текстовое представление может утратить некоторые особенности исходного документа, поэтому представляется целесообразным хранения двух параллельных электронных коллекций. Электронная коллекция графических представлений может быть использована позже для коррекции распознанных файлов и в исследовательских целях. Создание БД ПД предполагает занесение библиографической информации в используемую библиотекой АБИС. Особенности описания ПД рассмотрены в [, 9, 0]. После каждого этапа обработки документа в БЗ добавляются ссылки на файл или файлы ПД, созданные на данном этапе. Предоставление доступа к ПД различается для локальных читателей (ЛВС) и удаленных пользователей (сеть Интернет) [5, 9, 1]. С одной стороны, это обусловлено объемами ПД - предоставить доступ к графическим файлам можно только локальным читателям из-за их значительного объема. То же относиться к мультимедийным материалам. С другой стороны такое разделение обусловлено различными требованиями владельцев авторских прав документов - предоставление доступа читателям без возможности скопировать документ обычно удовлетворяет всех требованиям. Есть два подхода к созданию ПД: последовательная и распределенная модели создания ПД. Общая технологическая схема последовательного создания полнотекстовых БД в системе с одной рабочей группой (например, опыт оцифровки книг в РГБ) представлена на рисунке 1.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.212, запросов: 244