Извлечение информации из кратких текстовых спецификаций с заданным списком атрибутов

Извлечение информации из кратких текстовых спецификаций с заданным списком атрибутов

Автор: Ашихмин, Андрей Михайлович

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2008

Место защиты: Москва

Количество страниц: 137 с. ил.

Артикул: 4111842

Автор: Ашихмин, Андрей Михайлович

Стоимость: 250 руб.

Извлечение информации из кратких текстовых спецификаций с заданным списком атрибутов  Извлечение информации из кратких текстовых спецификаций с заданным списком атрибутов 

Содержание
Введение.
Глава 1. Математическая модель проблемы
Основные определения.
Предлагаемая схема извлечения значений атрибутов.
Релевантность фразы синсету и атрибуту.
Глава 2. Алгоритмы нахождения соответствия фраз атрибутам
Число разбиений последовательности слов на фразы.
Поиск известных системе фраз.
Оптимальное паросочетанис в двудольном графе. Венгерский алгоритм
Генерация разбиений на фразы из ограниченного числа слов.
Соответствие атрибутам для неизвестных фраз
Сведение к поиску паросочетания в произвольном графе.
Глава 3. Строковые метрики.
Основные определения. Расстояние Левенштейна.
Аффинные метрики.
Метрика, использующая специфику рассматриваемой предметной области
Обучение параметров метрики
Глава 4. Программная реализация и экспериментальные результаты.
Краткое описание программной реализации. Методика тестирования.
Виды ошибок. Результаты тестирования.
Глава 5. Унификация спецификаций при отсутствии списка атрибутов.
Постановка задачи
Нахождение соответствующей типовой спецификации.
Обучение
Заключение.
Список источников


В процессе научных исследований в работе использовались методы дискретной математики, теории алгоритмов, комбинаторной оптимизации, теории сопоставления записей (record linkage), а так же методы нечёткого текстового поиска. В работе широко использовались реальные товарные предложения, доступные в российском сегменте интернета. Предложенная модель реализована как часть программного комплекса. Проведён ряд экспериментов с использованием программной реализации. Тематика семантического поиска товарных предложений в интернете затрагивалась в проекте автоматизированного извлечения семантической информации для нужд электронной коммерции CROSSMARC []. Отличительная черта настоящего исследования состоит в том, что в проекте CROSSMARC информация извлекается из полнотекстовых HTML-документов, в то время как в настоящей работе внимание концентрируется на как можно более полном извлечении атрибутов из относительно небольших частично структурированных описаний. Ключевое отличие состоит в аннотировании фраз (состоящих из одного или нескольких соседних слов) значениями атрибутов. Разрабатываемая на основе предложенной математической модели интеллектуальная система занимает промежуточное положение между следующими двумя большими классами систем. Системами сопоставления записей (обнаружения дубликатов, []), в большинстве работ использующих некоторую строковую метрику с настраиваемыми (обучаемыми) параметрами [4], [5]. Системами извлечения информации [], [7], обычно требующими большого объёма составляемых человеком правил и привязанными к конкретной узкой предметной области. Замечание. Термин «сопоставление записей» (record linkage) используется статистиками, эпидемиологами, историками и другими. Коммерческие базы данных и системы обработки электронной почты ссылаются на него как «обработка с целыо слияния/очистки» (merge/purge processing) или «очищение списков» (list washing). Специалисты в области информатики часто используют термины «согласование данных» (data matching) или «задача идентификации объекта» (object identity problem). Другие наименования, описывающие то же понятие, включают «разрешение сущностей» (entity resolution), «устранение неоднозначности сущностей» (entity disambiguation), «обнаружение дубликатов» (duplicate detection), «согласование записей» (record matching), «идентификация экземпляров» (instance identification), «исключение дубликатов» (deduplication) и «закалка базы данных» (database hardening). Эта путаница в терминологии привела к малому числу связей между разными сообществами исследователей (см. Настоящее исследование можно считать связанным с рекурсивным алгоритмом соответствия полей []. Однако, в отличие от [], в данной работе предлагаются более сложные алгоритмы, использующие венгерский алгоритм [], [], [] решения задачи о назначениях, и позволяющие установить взаимно-однозначное соответствие между фразами и атрибутами. Разработанная математическая модель извлечения значений атрибутов из кратких текстовых спецификаций является новым вкладом в развитие теории сопоставления записей и систем извлечения информации. Математическая модель процесса извлечения ' значений атрибутов из кратких текстовых спецификаций. Алгоритм поиска известных системе фраз в текстовой спецификации. А также полиномиальный алгоритм для решения этой задачи, использующий поиск оптимального паросочетания в произвольном графе. Строковая метрика, учитывающая особенности предметной области, такие как возможная транслитерация русских букв латинскими. Рис. По выполненным диссертационным исследованиям опубликовано 6 работ [], [], [], [], [], [], в том числе три [], [], [] - в ведущих научных журналах, рекомендованных ВАК РФ. Результаты диссертационного исследования докладывались, обсуждались и получили одобрение специалистов на научных конференциях и семинарах: XLVII научной конференции МФТИ, Москва-Долгопрудный, г. III Международном научно-практическом семинаре «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна, г. Всероссийской научно-технической конференции «Информационные технологии», Воронеж, г. Вычислительного центра им. A.A. Дородницына РАН, - гг.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.283, запросов: 244