Построение систем поиска информации, основанных на семантике языка

Построение систем поиска информации, основанных на семантике языка

Автор: Теряев, Антон Александрович

Шифр специальности: 05.13.11

Научная степень: Кандидатская

Год защиты: 2002

Место защиты: Санкт-Петербург

Количество страниц: 138 с. ил

Артикул: 2317835

Автор: Теряев, Антон Александрович

Стоимость: 250 руб.

Построение систем поиска информации, основанных на семантике языка  Построение систем поиска информации, основанных на семантике языка 

содержание диссертации.
Глава I. Семантический анализ
1. Семантические отношения
2. Иерархия базисных понятий
3. Семантика предложения
4. Выводы по первой главе.
Глава II. Семантика языка и поисковые системы
1. Оптимизация текстов.
1. Разрешение неоднозначностей
2. Замена местоимений.
2. Поисковые системы и классы слов
1. Контекстный поиск
1.1.1 Остановка задачи
1.2. Решение
2. Классификация текстов
2.1. Постановка задачи
2.2. Решение первое основанное на ключевых словах.
2.3. Решение второе основанное на ключевых классах слов
2.4. Решение третье совместное
3. Поисковые системы, основанные на семантике русского языка.
1. Выделение словосочетаний из предложений
2. Построение семантической сети
4. Выводы по второй главе
Глава III. Практические исследования
1. Сравнение решений для задачи классификации текстов
1. Решения, основанные только на словах и только на классах
2. Сравнение решений, основанных только на словах и на словах и классах
2. Поисковые системы, основанные на семантике русского языка.
1. Описание работающей поисковой системы
2. Поисковый образ документа.
3. Выводы по третьей главе
Выводы по диссертации в целом
Литература


Собственно, еще в году в специальном выпуске журнала "Communication of the ACM" [] среди прочих проблем разработки гипертекстовых систем и их использования Франк Хал аз назвал в качестве первоочередной задачи для следующего поколения систем этого типа проблему организации поиска информации в больших гипертекстовых сетях. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средс тво. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным проіраммам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line. Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшее время были рассмотрена только небольшая часть возможных решений. Однако многие проблемы, которые ставит перед разработчиками информационно-поисковых систем, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital, главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web. Наиболее популярные в наше время являются средства web-поиска и каталоги. Большинство современных поисковых систем объединяют в себе оба этих средства. Каталоги (директории). Каталоги являются альтернативой системам контекстного поиска. Если пользователь затрудняется в выборе ключевых слов поиска, но имеет представление о теме поиска, то каталоги являются более предпочтительными для поиска. Каталоги представляют собой дерево с различными темами, в каждом узле которою содержатся ссылки на сайты, подпадающие под данную тему. Распределение ссылок по узлам тем обычно делается вручную разработчиками системы. Более подробно о характеристиках таких систем можно узнать по публикациям [, ]. При использовании такой системы приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. В этом случае пользователю придётся обращаться к услугам машин Web-поиска. Машины Web-поиска. Так принято называть системы поиска по ключевым словам среди текстовой информации в Интернет. Наиболее популярными в российском Интернет считаются системы Web-поиска: Yandex, Rambler, Google. Среди зарубежных стоит отметить: Yahoo, Alta Vista, Lycos. Основное преимущество этих систем - высокая скорость поиска, по сравнению с другими системами поиска. Пользователь лишь задает ключевые слова, а поисковая система в ответ выдает список ссылок на документы, в которых эти слова встречаются. В традиционных поисковых системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.360, запросов: 244