+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов

  • Автор:

    Литвинов, Максим Игоревич

  • Шифр специальности:

    05.13.12

  • Научная степень:

    Кандидатская

  • Год защиты:

    2012

  • Место защиты:

    Москва

  • Количество страниц:

    120 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Оглавление
Введение
ГЛАВА 1. Основы обработки текстов на естественном языке и прикладные системы
1.1 Перспективные задачи в области обработки текстов проектной документации на
естественном языке
1.2 Методы автоматической обработки текста
1.3 Детерминированный и вероятностный подходы
1.4 Наивный классификатор Байеса
1.5 N-граммный тэггер
1.6 Способы сокращения вычислений при морфологической разметке предложений
1.8 Выбор тэггера на основе принципа максимальной энтропии (Maximum Entropy Principle) и методы оценки качества работы морфологических тэггеров
1.9 Сглаженные вероятностные N-граммные модели
1.10 Другие виды вероятностных моделей снятия морфологической неоднозначности
1.11 Деревья принятия решений и списки трансформаций
1.12 Обзор прикладных систем
1.12.1 Модель Зеленкова-Сегаловича-Титова
1.12.2 Тэггер Чешских исследователей
1.12.3 Trigram A.B. Сокирко
1.12.4 Анализатор компании «Гарант-Парк-Интернет»
Выводы к Главе
ГЛАВА 2. Теоретические основы методов устранения неоднозначности в тексте на естественном языке
2.1 Модель морфологического анализа программы «Кросслятор»
2.2 Методы определения синтаксических связей между словами в предложении для сбора статистики совместного употребления слов
2.3 Метод сбора статистики сочетаемости слов с использованием свойства синтаксического подчинения слов в предложении
2.4 Вероятностные правила снятия неоднозначности с использованием морфологических параметров
2.5 Декомпозиция предложения на сегменты при проведении предсинтаксического анализа
Выводы к Главе
ГЛАВА 3. Метод сбора статистики совместного употребления слов и комбинированный метод устранения морфологический неоднозначности в тексте проектной документации на естественном языке
3.1 Эксперимент по оценке уровня неоднозначности в текстах проектной документации и в текстах общей лексики
3.2 Метод выделения сочетаемости слов
3.3 Комбинированный метод снятия морфологической неоднозначности в тексте проектной документации на естественном языке

3.4 Использование статистики совместного употребления слов для снятия частеречной омонимии
3.5 Описание алгоритма устранения частеречной неоднозначности с использованием собранной статистики синтаксического подчинения слов
3.6 Алгоритм снятия морфологической неоднозначности с помощью вероятностных правил, содержащих морфологические параметры, при детерминированных соседях
3.7 Алгоритм итерационного применения вероятностных правил при недетерминированных соседях
Выводы к Главе
ГЛАВА 4. Состав базы синтаксического подчинения слов и техническая реализация комбинированного метода устранения морфологической неоднозначности
4.1 Состав базы синтаксического подчинения слов
4.2 Качественные оценки работы комбинированного метода устранения морфологической неоднозначности
4.3 Выводы к Главе
Список используемой литературы

Введение
В процессе своей деятельности предприятия накапливают большие объемы документации, которая может быть: техническим заданием, эскизом проекта, чертежами, протоколами информационного обмена, отчетами, приказами, служебными записками и даже электронной перепиской. Без внедрения современных систем автоматического контроля документооборота предприятиям сложно: сократить время, требующееся для создания продукта и его реализации конечному потребителю; снизить все виды издержек, связанных с разработкой и сопровождением продукта; повысить качество процессов проектирования и производства; обеспечить своевременное и качественное эксплуатационное обслуживание; поддерживать должный уровень конкурентоспособности.
Эффективным и действенным средством решения обозначенных проблем выступают следующие информационные технологии: ILM
(Information Lifecycle Management) и PLM (Product Lifecycle Management). Под этими технологиями понимается комплекс аппаратных и программных средств, обеспечивающих доступ к различным информационным ресурсам в процессе разработки продукта и выпуска сопутствующей документации по нему.
Технология ILM (см. Рисунок 1) представляет собой комплексный подход по управлению данными и служебной информацией от момента создания и до того момента, когда вся информация перестанет быть актуальной и будет удалена с носителей информации. ILM используют более комплексный критерий по хранению и управлением информацией, нежели чем просто время создания и частота обращения пользователей к какому-либо документу. ILM системы автоматизируют процесс доступа и обеспечивают хранение документов исходя из политики безопасности,
задаваемой пользователями. Решения на основе технологии ILM

0.5 — коэффициенты, равные половине интервала изменения С и Б (от 0 до 1) и введенные для учета случаев, когда С или Б равны 0;
Б = 1 - ъ(а,Ь), где $(а,Ь) - сумма минимальных значений общих элементов двух дистрибуций. Статистика расстояний между различными лингвистическими объектами была собрана по Национальному корпусу русского языка. Таблица 1.2 содержит расстояния между частями речи, в [41] приведены расстояния между падежами у существительных, расстояния между видом и залогом у глаголов.
Таблица 2.1 Расстояние между частями речи.
и. ?! . ' S ifit, -hr i A NUM V ADV PR CONJ PART INTJ
- 0 0.26 0.43 0.3 0.3 0.38 0.36 0
А 0 0.39 0.32 0.34 0.32 0.39 0
NUM 0 0.46 0.45 0.45 0.52 0
V 0 0.28 0.37 0.4 0
ADV 0 0.42 0.34 0
PR 0 0.44 0
CON.T 0 0
PART
INT.!
Изначальный набор омонимов был получен на основе словаря A.A. Зализняка, содержащим 178 295 омонимов; после эвристической фильтрации осталось 52 536 омонима; после частотной фильтрации осталось 22 678 омонима.
Таким образом, выбор значения для омонимичного слова происходит
следующим образом: после проведения морфологического анализа строятся
нормализующие подстановки для каждого слова (применяются списки
трансформаций); каждой лемме приписывается вероятность встречи в

Рекомендуемые диссертации данного раздела

Время генерации: 0.150, запросов: 967