+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Математические модели, методы и алгоритмы построения размеченных корпусов текстов

Математические модели, методы и алгоритмы построения размеченных корпусов текстов
  • Автор:

    Седов, Алексей Владимирович

  • Шифр специальности:

    05.13.18

  • Научная степень:

    Кандидатская

  • Год защиты:

    2013

  • Место защиты:

    Петрозаводск

  • Количество страниц:

    113 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"
ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ СЛОВАРЕЙ И ТЕКСТОВЫХ КОРПУСОВ 
1.3 Конструирование и применение корпусов



Оглавление
ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ СЛОВАРЕЙ И ТЕКСТОВЫХ КОРПУСОВ

1.1 Понятие корпуса

1.2 Типы корпусов

1.3 Конструирование и применение корпусов

1.3.1. Национальный корпус русского языка

1.3.2 Корпус ХАНКО

1.3.3. Корпус русского литературного языка

1.3.4. Открытый корпус ОрепСогрога


1.4 Краткое сравнение корпусов
1.5 Область применения лингвистических корпусов
1.6 Построение корпуса СМАЛТ
1.6 1 Морфологическая разметка
1.6.2 Синтаксическая разметка
1.7 Лингвистический корпус финноязычных текстов газеты «Каюаьаы Бахомат»
1.8 Модель построения корпуса с грамматической разметкой
1.9 Модель построения корпуса с синтаксической разметкой
ГЛАВА 2 АВТОМАТИЗАЦИЯ ГРАММАТИЧЕСКОГО И СИНТАКСИЧЕСКОГО РАЗБОРА
2.1 Программа грамматической разметки
2 1.1 Этап преформатирования
2.1.2 Этап разметки
2.2 Программа синтаксической разметки
2 2 1 Этап преформатирования
2.2 2 Этап разметки
2.3 Автоматическая грамматическая разметка
2.4 Автоматизированная синтаксическая разметка
ГЛАВА 3 СТРУКТУРЫ ДАННЫХ ДЛЯ ХРАНЕНИЯ И ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ
3.1 Использование сети Интернет
3.2 Создание Уев-интерфейса
3.3 Отличие локального доступа от доступа через Интернет
3 4 Оптимизация структур данных под поиск
3.5 Критерий оптимальности по скорости поиска
3.6 Оптимизация по объёму хранимой информации
3.7 Оптимизация количества информации предоставляемой пользователю
3.8 Результаты оптимизации по скорости поиска
3.9 Результаты оптимизации по объёму хранимой информации
3.10 Количество информации предоставляемой пользователю
3.11 Доступ к системе и основные характеристики

ГЛАВА 4. ПРИМЕНЕНИЕ РАЗМЕЧЕННОГО КОРПУСА ДЛЯ АНАЛИЗА ОДНОРОДНОСТЕЙ
4.1 ПОИСК НЕОДНОРОДНЫХ ФРАГМЕНТОВ НА ОСНОВЕ МЕТОДОВ АТРИБУЦИИ ТЕКСТОВ
4.2 Метод сильного графа связности для поиска неоднородных фрагментов
4.3 Использование наивного байесовского классификатора
4.4 Поиск неоднородных фрагментов на основании последовательностей частей речи
4.4.1 Алгоритм поиска неоднородности фрагмента текста
4.4.2 Пример выявления наиболее информативных признаков
4.4.3 Примеры неоднородных фрагментов текстов
4.4.4 Применение алгоритма к атрибуции текстов
4.5 Использование компонентного анализа для поиска неоднородных фрагментов
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ:
ПРИЛОЖЕНИЯ
Приложение №1 Список структурных схем синтаксического разбора
Приложение N92 Поиск информации через ууев-ресурс

Введение
Актуальность темы.
Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает потребность в обработке огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.
Развитие компьютерных технологий, их повсеместное внедрение в разные области науки и знаний, в частности в гуманитарные исследования, обеспечило массовый рост корпусных исследований в период с конца 1980-х и до середины 1990-х годов [1]. Следствием стало увеличение числа создаваемых корпусов. В это время появились крупные национальные корпуса в Англии, Чехии, Финляндии и других странах (преимущественно европейских).
Самые распространенные и популярные корпуса текстов [2] приведены в таблице 1.
В настоящее время созданием корпусов занимается большое количество исследователей. Примечательно то, что при создании данных корпусов задачи разбора и снятия омонимии зачастую решаются вручную.
Изначально лингвистические корпуса создавались и использовались для подсчёта встречаемости различных языковых элементов, таких как графемы, морфемы, словосочетания.
С течением времени корпус перестал восприниматься как средство поиска слов в текстах. Корпус превратился в инструмент для исследования языка [3].
Современные создаваемые корпуса текстов в основном используются для решения сложных лингвистических задач, таких как машинный перевод [4], проверка орфографии и грамматики (внедрены почти во все современные текстовые редакторы) и др.

должен получаться строго упорядоченный и конечный список структурных схем простого предложения, что имеет очевидные преимущества.
Эта теория до сих пор не применялась для анализа крупного массива текстов, и в процессе работы возникла необходимость более тщательного ее изучения. В научном обороте существуют как минимум три списка структурных схем - различающиеся как количественно, так и качественно:
1. список схем "Русской грамматики";
2. список «минимальных схем» В. А. Белошапковой;
3. список схем О. А. Крыловой и Е. Н. Ширяева [44].
О. А. Крылова и Е. Н. Ширяев значительно переработали и дополнили исходный список свободных структурных схем "Русской грамматики", и именно их классификация, наиболее полная и точная на сегодняшний день, с некоторыми изменениями и дополнениями была взята за основу разметки корпуса.
Выбор объясняется двумя причинами: во-первых, использование
структурных схем для синтаксической разметки в корпусе имеет свою специфику; во-вторых, ни один из существующих списков структурных схем нельзя признать достаточно полным. Таким образом, на выходе в синтаксической разметке используется наиболее полный и сбалансированный список структурных схем простого предложения.
На рисунке 5 представлен один из способов выбора синтаксических схем для клаузы. Полный список использованных структурных схем для синтаксической разметки приведён в Приложении
Классификация фразеологизированных схем в разметке не используется, все единицы такого рода единообразно получают статус фразеологизированных без дальнейшей детализации. Это связано с тем, что более или менее подробной и полной компромиссной классификации структур этого типа не существует: в "Русской грамматике" их всего 14, а в сводном списке синтаксических фразем М. В. Копотева таких единиц уже 79 [45].

Рекомендуемые диссертации данного раздела

Время генерации: 0.105, запросов: 967