+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Метод математической формализации русского языка в задаче автоматического реферирования текстов

  • Автор:

    Корхова, Ольга Владимировна

  • Шифр специальности:

    01.01.09

  • Научная степень:

    Кандидатская

  • Год защиты:

    2001

  • Место защиты:

    Санкт-Петербург

  • Количество страниц:

    118 с. : ил

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

ГЛАВА I. ЗАДАЧА АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ
§1. Постановка задачи
§2. Различные подходы к решению задачи автоматического реферирования Л О
п.1 Метод составления выдержек
п.2 Метод формирования краткого изложения
п.З Выводы по §2
§3. Методы оценки рефератов
§4. Средства систем автореферирования, формирующих краткое изложение
ГЛАВА II. СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА РУССКОМ ЯЗЫКЕ
§1. Базисные функции и базисные понятия
§2. Семантика предложения
п.1 Морфологическая обработка предложения
п.2 Распространенные и нераспространенные предложения
п.З Семантика предложно-падежных форм
п.4 Объектный анализ предложения
п.5 Семантика однородных членов предложения
п.6 Склейка семантической формулы предложения с определенным центральным
словом
п. 7 Семантика причастных и деепричастных оборотов
п.8 Склейка семантической формулы предложения. Общий случай
§3. Семантика текста
ГЛАВА III. РЕШЕНИЕ ЗАДАЧИ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ
§1. Построение семантической сети
§2. Построение концептуального графа
§3. Генерация реферата. Дальнейшие перспективы систем автореферирования
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА

Быстро развивающиеся в последние годы глобальные сети (Internet) по своему информативному содержанию начинают постепенно вытеснять другие средства массовой информации, такие как радио, телевидение, прессу. Действительно, традиционным СМИ трудно что-то противопоставить информационным сайтам типа «Россия on-line», где информация о событиях со всего света поступает почти сразу после свершения события. Единственное, что сдерживает «паутину» от полного вытеснения традиционных СМИ с рынка подачи информации, это недоступность (для нашей страны, прежде всего, в материальном и техническом смысле) глобальных сетей для широких слоев населения. Однако, информативная сторона «паутины» - далеко не самая основная. Помимо пассивной информации о текущих событиях в сети находятся огромные образовательные, аналитические, научные, развлекательные и другие полезные (и малополезные) ресурсы. С каждым годом, месяцем, неделей количество этих ресурсов неуклонно растет, вместе с этим растет и потребность пользователя в эффективных автоматических средствах их обработки (см. [1, 2, 3,4]): поисковых системах, машинных переводчиках, средствах автоматического реферирования, тематических классификаторах и т.п. Нельзя не отметить, что средств таких на сегодняшний день немного, а эффективных (обеспечивающих скорость и качество одновременно) практически нет. Согласно [5] современные поисковые системы, вместе взятые, индексируют 1 сайт из 400-550, т.е. 0,15-0,25% от общего количества ресурсов! Таким образом, подавляющее большинство сайтов («глубинная» часть Web -[5]) в поисковых системах не представлено.
Тем не менее, даже те ресурсы, которые доступны поисковым системам (проиндексированы), достаточно велики. И, так как поисковых систем, организующих поиск информации по смыслу запроса, до сих пор не создано1, релевантных ответов на запрос встречается относительно немного. Зато выда1 Во всяком случае, таковых нет среди общеизвестных поисковых систем, имеющих дело с большим КОЛИ-чеством проиндексированных ресурсов.

ется много «мусора» - ответов, абсолютно не релевантных запросу [6, 7]. Во многих случаях эта нерелевантность не очевидна пользователю, и такие ответы приходится анализировать «вручную» - просматривать ресурс самому. Особенно тяжело дело состоит с публикациями научного характера. Такого рода публикации часто бывают слишком велики (более 20 страниц), вследствие чего тратится большое количество времени на просмотр ненужных тебе статей (хорошо, если у них указано хотя бы содержание!). Проще переложить эту работу на плечи автоматического помощника, который сможет уловить основную тему статьи, ход мысли автора и составить краткий реферат по публикации, взглянув на который, пользователю стало бы сразу ясно, то ли это, что он искал, или нет. Такими помощниками являются на сегодняшний день средства автоматического реферирования текстов. Очевидно, что область их применения не ограничивается приложением к системам автоматического поиска в глобальных сетях. Составление краткого реферата может оказаться необходимым при просмотре электронной почты, чтении информационных и аналитических статей и даже при подготовке собственной статьи к публикации (см. дополнительно о реферировании [8, 9]).
Можно с уверенностью сказать, что задача автоматического реферирования текстов на естественных языках появилась одновременно с возможностью представлять тексты в электронном виде. Настоящая работа предлагает систему автоматического реферирования текстов на русском языке, основанную на построении базы знаний в виде семантической сети. Полная постановка задачи автоматического реферирования, а также возможные методы решения этой задачи описаны в Главе I.
Выше уже отмечалось, что система автоматического реферирования, о которой идет речь в данной работе, опирается на знания в форме семантической сети. Принцип построения семантической сети на основе входного текста изложен в Главе III. Там же описан механизм концептуальных выжимок из входного текста при помощи построенной семантической сети.
Естественный язык - вещь достаточно сложно формализуемая и струкствия (2.2.7)
В случае 2.2.4 семантико-грамматическим типом предложно-падежной формы будет «откуда?», а в 2.2.5 - «почему?» (см. 2.2.6 и 2.2.7).
После морфологического анализа обеим рассматриваемым предложнопадежным формам присваивается первичный грамматический тип «из чего» (предлог «из» присоединяет к себе объекты только в родительном падеже). Для дальнейшего анализа первичного грамматического типа оказывается явно недостаточно. Так, в примерах 2.2.4 и 2.2.5 глагол «приехать» не имеет аргумента типа «из чего». Сказать, что рассматриваемые предложно-падежные формы эквивалентны наречиям, тоже однозначно нельзя. Даже если предположить это, то сразу возникает вопрос: наречиям каких классов? В итоге предложно-падежные формы «зависают» в воздухе: их никак «не привязать» к остальным словам предложения. В то же время, зная семантикограмматические типы указанных предложно-падежных форм {«откуда?» и «почему?»), сразу становится ясно, что «из города» - аргумент глагола «приехать», а «из удовольствия» - свободная форма, эквивалентная каузальному наречию. Следовательно, необходимо первичный грамматический тип предложно-падежной формы преобразовывать в семантико-грамматический тип ([12]). Для этого группой исследователей, в том числе и мною, был построен специальный алгоритм, названный «Семантический анализатор предложно-падежных форм» (1998 год). При его построении мы опирались прежде всего на иерархию базисных понятий. Алгоритм был разработан для 25 основных предлогов. Подавляющее большинство остальных предлогов являются однозначными (т.е. семантико-грамматический тип не зависит от присоединяемого слова), поэтому не нуждается в подобной детальной обработке. Фразеологизмы также не учитывались. Суть алгоритма состоит в следующем:
1) Каждому предлогу (или его отсутствию) русского языка присваивается свой номер-код (от 0 до 24).
2) Каждая предложно-падежная форма также получает свой код

Рекомендуемые диссертации данного раздела

Время генерации: 0.264, запросов: 967