Диссертация на тему "Метод автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик", скачать бесплатно автореферат по специальности 05.13.12 - Системы автоматизации проектирования (по отраслям)

Оглавление
Введение
Глава 1. Обзор методов синтаксического анализа
1.1. Автоматическая обработка проектной документации
1.2. Роль и задачи синтаксического анализа в полном анализе текста
1.3. Методы повышения производительности синтаксического анализа
1.4. Системы синтаксического анализа, использующие синтаксическую сегментацию
1.4.1. Поверхностный синтаксический анализатор STP
1.4.2. Поверхностный синтаксический анализатор группы "Диалинг"
1.4.3. Поверхностный синтаксический анализатор польского языка Spajd
1.5. Формализмы основанные на порождающей теории Н. Хомского
1.5.1. Расширенные сети переходов
1.5.2. Head Driven Phrase Structure
1.5.3. Расширенные формы Бэкуса-Наура
1.5.4 Affix Grammar over Finite Lattices (AGFL)
1.6. Формализмы использующие взаимоотношения слов
1.6.1 Treeton
1.6.2. Link Grammar
1.7. Выводы
Глава 2. Формальная основа предложенного метода автоматического предсинтаксического анализа
2.1. Спецификация грамматики расширенных БНФ
2.2. Спецификация грамматики ATN
2.3. Алгоритм преобразования грамматики расширенных БНФ в грамматику ATN
2.4. Выводы
Глава 3. Метод автоматического предсинтаксического анализа проектной документации61
3.1. Вычисление терминальных множеств, необходимых для проведения синтаксической сегментации
3.2. Метод автоматического предсинтаксического анализа проектной документации
3.3. Алгоритм интерпретации разметки текста, полученной на этапе предсинтаксического анализа
3.4. Выводы
Г лава 4. Практическая реализация и тестирование предложенного метода
4.1. Описание модуля морфологического анализатора системы "Crosslator"
4.2. Описание тестирующего комплекса
4.3. Описание эксперимента
4.4. Выводы
Заключение
Список используемой литературы

Введение
В ходе своего существования предприятия формируют огромные архивы документации. В этих архивах содержатся не только результаты официального документооборота (приказы, распоряжения и пр.), но и техническая документация по выполняемым и выполненным проектам: технические отчеты, проектная документация, планы и т.д. Значительная часть этих документов оформлена в формате текстового описания.
Одной из задач систем автоматизированного проектирования является систематизация хранения данных об изделии и приведение всей документации к единому стандарту. В этой области широко используются CALS-технологии. CALS (Continuous Acquisition and Life cycle Support) — "совокупность базовых принципов, управленческих и информационных технологий, обеспечивающая поддержку жизненного цикла изделий (преимущественно машиностроительных) на всех его стадиях" [45]. Использование данных технологий предполагает наличие некоторой интегрированной информационной среды (единого информационного пространства [45]), в которой, по средствам электронной передачи данных, происходит взаимодействие между всеми участниками жизненного цикла изделия: от разработчиков и поставщиков до заказчиков изделия.
Составными частями CALS являются широко распространенные технологии ILM (Information Lifecycle Management) [15, 48, 26] и PDM (Product Data Management) [14, 31]. Основной задачей ILM-систем является хранение документации на изделие. Кроме того, ILM-системы отвечают за процессы хранения, распределения, миграции, архивировании и удаления данных в инфраструктуре предприятия. PDM системы позволяют управлять данными об изделии и управлять информационными процессами жизненного цикла изделия, которые создают и используют эти данные. Для построения единого информационного пространства PDM используются в интеграции с Computer Aided Design / Manufacturing (CAD/CAM) системами, которые предназначены для проектирования, разработки технологий, расчета

материальных и трудовых нормативов и т.д., а также в интеграции с системами Enterprise Resource Planning System (ERP), которые обеспечивают функции управления продажами, снабжением, производством и т.д. На рис. 1 представлена общая схема интеграции CAD/CAM, PDM и ERP систем.
Модель продукта
,, > , , Г» _ _ . ГеЭЙВ| >*"! '
ц.> лі - я и -Гг: л’ы 4 гіОі-СТруКЦЙЯі Г ©ХНО Л Of Ш ШЩ& І фЛЩ - v4J
lÖp.Mb* epSsf.«H«
Управление документооборотом
'L'U 4Ч‘-т
тмвнтщры документация документация
щт расхода «атфиалоэ
,ОСТ38 изделия і#«** — " і
лл ' маршруту :

НймвнхлМуйз СЯИЙЖ отступлений ОТ НОРМ; щ Маршрут m
Рис. 1. общая схема интеграции CAD/CAM, PDM и ERP систем
Использование единого информационного пространства предприятия позволяет перейти к безбумажной обработке проектной документации. Однако подобные технологии не производят интеллектуальную обработку данных, которая могла бы еще больше ускорить процесс разработки. Современное развитие науки и компьютерных технологий позволяют перейти на качественно иной уровень работы с документацией. На данный момент ведется переход от электронного хранилища к автоматической обработке документации. Автоматическая обработка документации позволяет выполнять такие задачи, как, например, поддержка документации на нескольких языках и автоматическое исправление ошибок в тексте, информационный поиск и составление баз знаний о проектах. Для выполнения этих и многих других задач автоматической обработки документации требуется использование методов компьютерной лингвистики, которые занимаются непосредственно обработкой текстов на естественном языке.
Исследования в области компьютерной лингвистики были начаты еще в 40-х годах. Впервые задача обработки текстов (точнее, задача машинного

RULE sentence: subject(NUMBER), verb(NUMBER).
RULE subject(singular): “I”.
RULE subject(plural): “We”.
RULE subject(NUMBER): “You”.
RULE verb(NUMBER): “walk”.
где правило NUMBER выглядит следующим образом:
NUMBER :: plural j singular.
Поскольку рекурсия в аффиксах запрещена, множество терминальных цепочек, выводимых из правил аффиксов, конечно. Это означает, что все правила первого уровня можно записать таким образом, чтобы все аффиксы являлись терминальными, то есть правило вида:
RULE verb(NUMBER): “walk”
можно переписать в виде двух правил:
RULE verb(singular): “walk”.
RULE verb(plural): “walk”.
где singular и plural терминальные символы правил второго уровня.
Применяя подобную операцию ко всем правилам грамматики можно получить грамматику, удобную для машинной обработки.
Грамматика AGFL имеет схожие достоинства и недостатки, что и КС-грамматики, однако применения аффиксов, как морфологических параметров, делает возможным реализовать минимальную проверку согласования слов в предложении с одной стороны, а с другой стороны делает грамматику более компактной, чем аналогичную КС- грамматику.
1.6. Формализмы использующие взаимоотношения слов
Помимо методов классической школы существуют другие методы, позволяющие проводить полный синтаксический анализ. Далее представлены некоторые методы полного синтаксического анализа, использующие взаимоотношения слов.

Название работы	Автор	Дата защиты
Модель и методы поддержки ограничений целостности в документо-ориентированных базах данных	Лучинин, Захар Сергеевич	2014
Исследование и разработка WEB-ориентированной базы данных сеанса проектирования для схемотехнических САПР	Мохаммед Хуссейн Ахмед Аль-Шами	2014
Последовательно-параллельный анализ вариантов повышения качества модульного проектирования декомпозируемых технических систем	Ревякин, Сергей Васильевич	2003

Электронная библиотека диссертаций

Метод автоматического предсинтаксического анализа проектной документации с использованием КС-грамматик

Рекомендуемые диссертации данного раздела