Модели и методы извлечения знаний из текстов на естественном языке

Модели и методы извлечения знаний из текстов на естественном языке

Автор: Симаков, Константин Васильевич

Шифр специальности: 05.13.17

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Москва

Количество страниц: 267 с. ил.

Артикул: 3417118

Автор: Симаков, Константин Васильевич

Стоимость: 250 руб.

Модели и методы извлечения знаний из текстов на естественном языке  Модели и методы извлечения знаний из текстов на естественном языке 

Особенностью получаемого в результате обучения морфологического анализатора является высокая Бмера качества его работы в сравнении с качеством анализатораучителя. Если учитель обладает только высокой точностью, то обученный анализатор имеет как высокую точность, близкую к точности учителя, так и высокую полноту. Алгоритм обучения реализует стратегию сжатия с использованием как парного, так и унарного обобщения. Унарное обобщение выполняется для тех обучающих примеров, для которых не обнаружены парные подобные слова, на основе которых можно было бы создать образец. ГЛАВА 7. В главе представлены результаты экспериментов, нацеленных на проверку состоятельности разработанных моделей и методов. Оценивается качество морфологического анализа и объем его словаря в зависимости от свойств исходной выборки наблюдаемых текстов. Выполняется оценка точности и полноты извлечения для нескольких предметных областей. В предыдущей главе были сделаны выводы об свойствах морфологического анализатора, действующего согласно предложенному модифицированному принципу аналогии.


Характер изменения для всех одинаковый. Средняя разница между полнотой и точностью составляет 0,. В отличие от предыдущего теста, значение Рмеры, равное 0,, достигается уже на примеров точка находится на горизонтальной оси в диапазоне , что обусловлено менее свободным жанром данных текстов. Рис. Показатели качества извлечения для текстов новостей Эксперимент еще раз подчеркивает особенность предложенного подхода в отсугствии дисбаланса между точностью и полнотой извлечения. Экспериментальная выборка текстов третьей предметной области содержит почтовые адреса России. Каждый адрес представлен строкой символов, в которой перечислены наименования адресных объектов регион, район, город, населенный пункт и улица, типы адресных объектов улица, переулок, бульвар и т. Многие из указанных элементов, как правило, пропущены. Однако при оформлении адресов имеются определенные правила. Например, обычно номер дома следует после наименования улицы, а номер квартиры после номера дома. Наличие таких правил, а также отсутствие независимой контекстной информации обычно строка адреса ничего кроме адреса не содержит позволяют отнести такие тексты к жанру телеграммы, которому свойственно максимальное ограничение на форму записи текстов. Название улицы. Тестовая выборка содержит 9 адресов. В обучении использовалось от 5 до обучающих примеров с шагом 5 табл. Назначение столбцов в таблице тоже, что и в предыдущих экспериментах см. Таблица . Выборка Ошибки аТщЕМ ЬСГЕМ . Отличительной чертой данных результатов является стремительный рост всех показателей качества так, что достигаются значения близкие 1 уже на выборке в обучающих примеров. Характер этих зависимостей отражен на рисунке 7 График демонстрирует достижение предела всеми тремя показателями. Рис. Показатели качества извлечения для почтовых адресов Как и в предыдущих примерах, кривые для полноты и точности имеют одинаковый характер, а разница между ними, начиная с точки , не превышает 0,. Среднее значение этой разницы по всем экспериментам составляет 0,. Особенностью данного теста является то, что на от общего числа обучающих примеров примеров из 9, модель достигает значения Рмсры, близкое к 1. Длина контекста слева и справа относительно выделенных в качестве значений слотов текстовых сегментов в обучающих примерах является важным параметром алгоритма обучения. Данная длина измеряется словами и определяет границы текстовых сегментов, до которых распространяется длина обучающего примера. Таким образом, в сумме и в содержали бы все слова текста кроме слов из л. Для больших текстов отсутствие ограничений на длину и привело бы к чрезмерно большим матрицам соответствий А см. Увеличение размерности матрицы негативно влияет на производительность алгоритма обучения и способствует выявлению ложных зависимостей между значением слота и контекстами, находящимися на большом расстоянии от них. В связи с этим необходимо вводить ограничения на длину контекстов и га обучающих примеров. Для этого в алгоритм обучения введен параметр, определяющий предельно допустимые длины и а. Оценке влияния этого параметра на свойства полученной в результате обучения модели извлечения и посвящена следующая группа экспериментов. Эксперименты проводились для текстов жанра информационной заметки и для текстов жанра телеграммы. В таблице приведены результаты экспериментов на текстах первого жанра. В качестве Т, использовалась отличная от предыдущих экспериментов выборка. В ней было задействовано примеров число примеров уменьшено, чтобы снизить влияние коротких обучающих примеров, длина которых не может варьироваться в больших диапазонах, при этом допустимая длина контекста менялась в диапазоне от 4 до 8 слов. Таблица . Длина контекста Ошибки аТрЕМ ЪТЕМ . Обучение всегда выполнялось на выборке в 0 примеров. На рисунке 7. Рмеры, построенные по данным таблицы . Как видно из рисунка для данного типа текстов имеет место небольшая зависимость качества извлечения от длины контекста. Однако, налицо рост в указанном диапазоне всех трех показателей.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.180, запросов: 244