Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв.

Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв.

Автор: Дубашов, Алексей Евгеньевич

Шифр специальности: 05.13.06

Научная степень: Кандидатская

Год защиты: 2006

Место защиты: Москва

Количество страниц: 186 с. ил.

Артикул: 3012579

Автор: Дубашов, Алексей Евгеньевич

Стоимость: 250 руб.

Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв.  Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. 

Оглавление
Введение.
Глава 1. Анализ методов и систем лексикографической
обработки текста.
1.1 Создание словаря
1.2 Анализ методов лексикографической обработки текстов
1.3 Анализ существующих систем лексикографической
обработки текста
1.4 Постановка задачи
Выводы по первой главе.
Глава 2. Исследование частотных и динамических
характеристик словарных текстов
2.1 Анализ использования источников
2.2 Частотный анализ текста Словаря РЯ Х1ХУП вв.
2.3 Получение статистического закона распределения слов
в законе Ципфа и предсказание объема словаря
2.4 Исследование динамики появления новых слов в тексте
Словаря русского языка Х1ХУП вв
Выводы по второй главе.
Глава 3. Технология получения словарных материалов
недостающих томов словаря
3.1 Магазинный автомат, распознающий структуру
словарной статьи класса исторических словарей.
3.2 Разметка словарных текстов.
3.3 Формирование словарных статей.
Выводы по третьей главе.
Глава 4. Использование разработанного средства для
получения электронной версии недостающих томов словаря
4.1 Система разметки словарных текстов и занесения их в структуры БД
4.2 Система создания и ведения лексикографических картотек Viix.
4.3 Формирование словарных статей. Флотация.
4.4 Лексикографическая библиотека.
Выводы по четвертой главе.
Выводы и заключение.
Литература


Так как качество получаемого результата является первоочередным критерием, то словарный материал требуется преобразовать в структурированный формат на машинном носителе: работа напрямую с неструктурированным текстом словаря увеличит количество ошибок. Для получения рабочего материала для недостающих томов словаря предлагается следующий процесс обработки СлРЯ Х1-ХУИ вв. Рис. Схема процесса обработки СлРЯ Х1-ХУН вв. Рис. Технология обработки СлРЯ XI-XV1I вв. Первый и второй этапы обработки словаря осуществляются автоматизированно с помощью стандартных средств (сканера, программы распознавания текста - Abby Fine Reader и текстового редактора Microsoft Word) [], Для осуществления третьего этапа требуется разработать технологию извлечения структурированных словарных статей из словарных текстов. На пятом этапе лексикограф выверяет словарный материал и проводит отсев лишнего цитатного материала. Для того чтобы лексикограф мог осуществлять пятый этап необходимо, чтобы словарный материал был представлен машинным словарем, удобным для лексикографической деятельности. Машинной версией словаря будем называть «словарно-ориентированную автоматизированную лексикографическую систему, состоящую из массива статей и комплекса обслуживающих программ, ориентированных на структурные особенности обрабатываемого текста» [, стр. Для разработки технологии извлечения структурированных словарных статей из словарных текстов следует провести анализ методов и систем лексикографической обработки текстов. Задача семантико-синтаксического анализа произвольного текста «весьма сложна; ее решение невозможно без привлечения глубоких результатов лингвистики текста. Словарная статья является более простым объектом анализа, так как ее текст имеет регулярную структуру»[, стр. В традиционной лексикографии вопрос построения словарной статьи является одним из основных. Тем не менее, преимущественное внимание в ней уделяется проблемам, связанным с методикой отбора информации, способам представления дефиниции, способам перечисления значений. Между тем, проблема, которую можно было бы назвать проблемой формального синтаксиса словарной статьи, как бы остается в тени» [, стр. Несмотря на это, повышенный спрос на электронные словари инициирует появление новых исследований, посвященных подобной или смежной тематике [, 1, 0. О лексикографическом и лексикологическом методах анализа см. Пример словарной статьи СлРЯ представлен на рис. Он иллюстрирует различные варианты структур словарных статей. Словарная статья (см. Вокабула - это заглавное слово (или словосочетание), термин естественно языкового описания предметной области []. Некоторые части словарной статьи отличаются друг от друга шрифтовой разметкой. Например, в СлРЯ XI-XV. II вв. ВОПРЕКИ (ВПРЕКИ, ВПРЕКЬІ), парен. I. Нареч. В ширину, поперек. Едина бо осмина, аще мірою четверо-гранна — единака и в долготу и впреки — имат двадесят пят сяжений равно обоє. Ерм. Землемерие, 5. XVI в. Возложиша на осля вопреки, я коже М'Ьхъ плевы. Кас. Авн. XVII в. XVI в. Созда Ной ковчегъ, въ долготу 0 лакотъ, а въ прекы лакотъ. Сказ, о Ное) Лож. Навстречу (о ветре). И въ 3 депь тяжекъ вЬтръ въпреки бя-ше и приахомь истому велику потоплениа ради корабленаго. X. Игн. См. XVI в. Наперекор. ЛЮ. У СП. XII—XIII вв. Аще кто въпреки начнет глати игумену и въздвизати свары, за-пертъ таковыи да будеть в темници. Евфр. Устав, 2. XVI в. XV в. Отъя богъ у жены самовластие, да не вопреки глаголютъ мужу своему. Беседа отца с сыном, 1. XVII в. II. Предлог с дат. Поперек. И ту абие повілі [Владимир] копати въпр'Ьки трубамъ и цреяша воду. Переясл. Ять впрікьі стегна ег<о> и утрапи жилы ег<о>. Палея Толк. XIII в. Вопреки, наперекор че~ му-л. И иное слово о крест-номъ знамении нанечаталъ. И въ томъ, государь, слове крестный образъ испові-даетъ впреки християнскому закону. В. чел. Ник. Пустосв. Рис. Пример словарной статьи СлРЯ ХІ-ХУІІ вв. Структура словарной статьи СлРЯ ХІ-ХУІІ вв. Рассмотрим графическую схему одной из следующих структур (см. Ее особенностью является вложенность семантик (вложенность толкований). Обычно словарные статьи СлРЯ ХІ-ХУІІ вв.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.214, запросов: 244