+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Методы и программные средства извлечения терминологической информации из научно-технических текстов

  • Автор:

    Ефремова, Наталья Эрнестовна

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2013

  • Место защиты:

    Москва

  • Количество страниц:

    135 с.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы


СОДЕРЖАНИЕ
Введение
Глава Е Методы извлечения терминов из текстов
1.1 Статистические и лингвистические критерии извлечения
1.2 Способы повышения точности извлечения
1.3 Учет терминологических вариантов
1.4 Формальное описание извлекаемых конструкций
Глава 2. Лексико-синтаксические шаблоны употреблений терминов
2.1 Особенности научно-технических терминов
2.2 Конструкции и варианты употребления терминов
2.3 Состав лексико-синтаксических шаблонов
2.4 Шаблоны конструкций и вариантов терминов
Глава 3. Процедуры извлечения употреблений терминов
3.1 Схема работы процедур
3.2 Правила наложения шаблонов на текст
3.3 Извлечение словарных и несловарных терминов
3.4 Извлечение авторских терминов и терминов из соединений
3.5 Извлечение синонимов терминов
3.6 Распознавание текстовых вариантов терминов
3.7 Программная реализация процедур извлечения
Глава 4. Стратегия объединения процедур извлечения
4.1 Экспериментальное исследование работы процедур
4.2 Анализ результатов исследования
4.3 Стратегия объединения результатов процедур
4.4 Применение процедур извлечения в прикладных задачах
Заключение
Список литературы
Приложение А. Синтаксис языка лексико-синтаксических шаблонов
Приложение Б. Шаблоны определений терминов и введения их синонимов
Приложение В. Примеры словарных шаблонов
Приложение Г. Шаблоны вариантов употребления терминов
Приложение Д. Правила стратегии

ВВЕДЕНИЕ
Стремительное развитие науки и техники, широкое распространение вычислительных комплексов и компьютерных сетей, лавинообразное увеличение объемов различных данных - все это делает как никогда актуальным разработку и совершенствование методов сбора, хранения и обработки информации на базе вычислительных систем.
Значительная часть обрабатываемой вычислительными системами информации представлена в традиционном для человека виде - в виде текстов на естественном языке, чем объясняется существование целого ряда прикладных задач автоматической обработки текста (АОТ). К ним относятся:
- перевод текстов с одного естественного языка (ЕЯ) на другой [17, 22];
- индексирование документов и запросов пользователей для информационного поиска [19, 64];
- классификация и рубрицирование текстов [34, 36];
- реферирование и аннотирование текстов [24, 67];
- извлечение информации из коллекций текстов [8, 83];
- построение онтологий по текстам предметной области [33, 60];
- создание и обновление компьютерных словарей [3, 59].
Решение указанных прикладных задач АОТ требует поэтапной обработки текста на естественном языке (ЕЯ-текста), которая в общем случае включает графематический, морфологический, синтаксический и семантический анализ [39, 69, 71]. В ходе графематического анализа в тексте выделяются слова, происходит разбиение текста на предложения, абзацы. С помощью морфологического анализа устанавливается, к какой части речи относится каждое слово текста, и в какой грамматической форме оно употреблено. В свою очередь, синтаксический анализ выявляет синтаксическую структуру предложений, а семантический анализ определяет смысл отдельных фрагментов и текста в целом.

При решении многих прикладных задач некоторые из вышеперечисленных этапов могут упрощаться или даже опускаться. К примеру, при решении задач индексирования и реферирования документов часто не проводится развернутый синтаксический и семантический анализ обрабатываемых текстов [19, 24].
Основная причина попыток упрощения этапа синтаксического анализа связана со сложностью его проведения. В ходе выполнения этого этапа, как правило, даже для сравнительно небольшого предложения ЕЯ-текста строится довольно много вариантов его синтаксического разбора. С увеличением длины предложения количество вариантов возрастает экспоненциально, и тем самым для больших текстов время их полного синтаксического анализа и объем используемых при этом машинных ресурсов нередко оказываются просто неприемлемыми. Поэтому при решении ряда задач АОТ вместо полного синтаксического разбора каждого предложения текста проводится частичный синтаксический анализ, при котором распознаются лишь определенные синтаксические конструкции, в первую очередь, словосочетания [5, 19, 69].
Использование частичного синтаксического анализа оказалось оправданным при решении задач АОТ, в которых необходимо выявлять так называемые ключевые слова и словосочетания, отражающие содержание обрабатываемого текста, и связи между ними. Среди таких задач -индексирование, классификация и рубрицирование текстов [5, 19, 69]. Кроме того, частичный синтаксический анализ применяется при извлечении информации из ЕЯ-текстов (в частности, при извлечении именованных сущностей: персоналий, адресов, географических названий, наименований товаров) [27], а также при создании и обновлении машинных словарей по текстам определенной предметной области (ПО) [63, 66]. При этом для более полного и точного распознавания нужных текстовых единиц часто учитывается не только их структура, но и особенности их употребления в обрабатываемых ЕЯ-текстах [63, 66].

терминов колеблется в пределах от двух до пяти-семи слов; средняя длина составляет от одного до трех слов и зависит от рассматриваемой ПО.
Типичными видами синтаксических связей между словами в многословных терминах русского языка являются связи согласования и управления [39]. Наиболее характерной для терминов русского языка является связь согласования между существительным и определяющим его адъективом (устойчивое равновесие, интегрирующие устройства), причем адъектив, как правило, согласуется с существительным, к которому он относится, в роде, числе и падеже.
Связь управления между существительными встречается существенно реже [39]. В случае связи управления без предлога (обмен информацией) существительное, выступающее в роли определения к другому существительному, обычно располагается справа от последнего и чаще всего имеет форму родительного падежа {усталость материалов). В случае связи управления с предлогом {лазер на красителе) падеж существительного, стоящего справа от него, зависит от предлога: обращение к подпрограмме -дательный падеж, деление на нуль - винительный падеж. В ряде терминов присутствует и связь согласования, и связь управления {число с плавающей точкой).
В зависимости от того, представлен или нет конкретный термин в используемом при обработке НТ-текста компьютерном терминологическом словаре, будем называть его соответственно словарным или несловарным.
В любой ПО каждый словарный термин закреплен за конкретным понятием. Границы этого понятия чаще всего устанавливаются посредством определения, которое приводится в словаре. Словарные термины называют устоявшиеся в своем значении понятия и имеют для них устоявшуюся языковую форму выражения. Если словарный термин имеет дублет - синоним, являющийся тождественным по смыслу и сфере употребления, то обычно они оба (и термин, и его дублет) зафиксированы в терминологическом словаре [56].

Рекомендуемые диссертации данного раздела

Время генерации: 0.164, запросов: 967