Анализ слабо структурированных текстовых данных

Анализ слабо структурированных текстовых данных

Автор: Уразлин, Юрий Климентович

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2005

Место защиты: Долгопрудный

Количество страниц: 144 с. ил.

Артикул: 3299751

Автор: Уразлин, Юрий Климентович

Стоимость: 250 руб.

Анализ слабо структурированных текстовых данных  Анализ слабо структурированных текстовых данных 

СОДЕРЖАНИЕ
Введение.
Решаемая проблема
Пример.
Описание решения
Сравнение с другими подходами.
Содержание
Глава 1. Постановка задачи
Вопросы
Оглавления.
Требования к программному обеспечению
Информация о продаже товаров.
Преобразование
Полуавтоматический анализ
Процедура анализа текста.
Выход.
Модели представления структурированной информации
Формат выхода
Глава 2. Общий способ анализа.
в Связь с анализом текстов на естественном языке
Анализ текстов на естественном языке
Г раф с магический анализ
Синтаксический анализ
Применимые к рассматриваемой задаче методы.
Предлагаемое решение.
Выделение этапов анализа.
Графематический этап анализа.
Синтаксический анализ
Автоматическое выявление ошибок
Глава 3. Анализ текстов с вопросами.
Г рафематический анализ
Синтаксический анализ
Выделение объектов первого уровня вопросов.
Определение частей вопросов.
Автоматическое определение ошибок.
Глава 4. Инструмент анализа.
Выделение вопросов
Определение атрибутов вопросов
Автоматическое определение ошибок анализа
Сохранение результатов анализа
Глава 5. Экспериментальные результаты.
Формат 1
Формат 2
Формат 3
Формат 4
Формат 5.
Заключение.
Список использованных источников


Инструменты автоматически подстраиваются под произвольный формат и для анализа документов нового, неизвестного заранее формата не требуют ни программирования, ни специальных действий пользователей. Таким образом, работа посвящена задаче анализа документов содержащих слабо структурированные текстовые данные, а предложенные в ней методы и технологии позволяют облегчить её решение, расширяя множество потенциально решаемых прикладных задач. Для того чтобы разобраться в проблеме, рассмотрим пример того, как можно получить доступ к информации, которая присутствует в слабо структурированных текстовых данных. Рассмотрим работу с документами, содержащими вопросы. Из вопросов необходимо составлять контрольные работы и проверять правильность их выполнения. В большинстве случаев авторы сохраняют документы с вопросами в виде файлов привычного для них и удобног о для редактирования формата. Например, в виде документов Microsoft Word. При этом, как правило, для каждого набора вопросов авторы предпочитают использовать новый, наиболее удобный с их точки зрения, способ форматирования. Современные системы автоматического тестирования работают с сотнями тысяч вопросов, которые изначально содержатся в тысячах подобных документов. А КЗ • (Vota? I Л. ШУ. С MM* . T>a Ин *br¦. Ьм* t«« v. HiU¦> 2U IttAf J* ИГ Ml Ml йы ^ С. Л. ennMWi#» htf. Wim**o о. Arwxla »raar «c ^ ? Mnicr’c«i|»v оді 3f. А ож а Л* т>ои, '• М laogr «V м. I гагу Cl Гг т*т»? UK C. A Mnrrnn*T»/ii». Ktn*Yi» fccu are: m >х. И«С une -»> а iOS Bet («Я. Ы ffit sa 4 гг*тс » e tare и van С A. I нив» irivuru. С rv f. Г*«ivnirvy-iwwir*птсч-каivfto»*? I volitions determine aclioni. A the will «‘. First Ctuse egueiert for Gods existence & the Design ugimentfoj Gods ensteace. S the «СШЩШЙ version of Dualisn. Which is no I a part of descriptive statislics? SmnatiMtJtti. Incorrect Descriptive statistics deals with susunanrmg data feSUWfi&dltt. Statistics can be used to do all of the following except Guarantee a correct answer. SBFSi. Slititlics car. Drermir. Рисунок 3. Определим логическую структуру информации, которая содержится в этих примерах. Документы содержат информацию об отдельных информационных объекгтлх - вопросах. Выделенные в одном из примеров вопросы представлены на следующем рисунке. Рисунок 4. Во всех, кроме последнего документах, для каждого вопроса содержится информация об уникальном в пределах документа идентификаторе вопроса. Во всех, кроме одного, приведённых примерах - это число, с которого начинаются вопросы. Во втором примере идентификатор указан также в начале вопроса, но после текста «Ю:». В последнем примере этого атрибута у вопросов нет. I 1 ТЬ* гону'Сї*! У ІМ Г7бт«? ЛМ! Е-Мм . ТІ» ом і їм '» Ю» и. II 4«пл>» »огг ДіиІПкМю атак 1 Щ ои* САС«гаїи«>? СІ ТИ» '"'«««<». Ют ТИ» аото «*п<о» нот »отмчп» Аг'гу* «гем пс**<т АіЧІОЙ г«п«Ф( іо <А6 її ««огч іВ> »«О (її іпоп» Ы і»г* »по1 СОІ І. ЩЛАО ««очм у**г»ві о сггсо>»»'і і «По* тг ! Ог г Е. ТЬ* г. Ь mtslor. Ьи оріч зі ішіі иі »і» кповг. ИЯИП Ь ? МЛисЬ оі’іл» ? Ь«с мжігм«? Рисунок 5. Для всех вопросов из примеров присутствует текст задания. Как показано на следующих рисунках, задание может быть расположено в различных частях вопросов в зависимости от выбранного автором формата. I In U fituct. HtiTStcl й«»е of nq«nfo:t btflwtn fire ptople $ u frt іще м есчкчсші caTtmgittnai 5. I typo of tartmncaom і л»сл“і • «toiti. J пшаашшиш І pjblc nanntka ; й*и&8и1с«ттяіі:*юп і rltrjoucaj [Off. A . Cml: т. MtofTArtitoftf'rtcaftltrMlKteajtc. C. 9»W Ист MlttlSI VMV« « M CBCMD» Ol pocd (Митя o. Ти* I art n |Щ«Т< • (Cl Thi »селкімрікм длине m м ома v) T* tan TW imawiwiliniH'atv. A1 ita. UlfUMU:» It« Mutl a! Wi tli f t Wfl! Oat* Da ач» Mt 'w. A rw( cr’fy ma»»Ai« Г+ letrjti tf ctcfi toc< t>»t af ac t** л*. Рисунок 6. За текстом задания следуют варианты ответов. При этом иногда непосредственно при перечислении возможных вариантов ответов указан правильный вариант, для этого в примерах используется символ «*», или текст «Correct». In the future, “t. Ipeopte who worK Qn heme computer? I V and computer.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.377, запросов: 244