Диссертация на тему "Формально-семантический анализ многозначной лексики как средство оптимизации систем автоматизированной обработки текстов", скачать бесплатно автореферат по специальности 10.02.19

Содержание
Введение
Глава I. Теоретические основания формально-семантического анализа многозначной лексики как средства оптимизации автоматизированных

систем обработки текстов (АСОТ)

§ 1. Структурно-семантические аспекты лексического значения слова

§2. Лексическая полисемия и ее разновидности

§3. Формально-семантический анализ в АСОТ

§4. Лингвистическое обеспечение АСОТ

Выводы к первой главе

Глава II. Возможности оптимизации АСОТ посредством функциональностилистической классификации русскоязычных текстов

§ 1. Функциональный стиль как фактор оптимизации автоматизированного

анализа текста
§2. Формальные маркеры функционально-стилевой принадлежности
(МФСП) текста
§3. Исследование потенциальной полисемантичности слов, принадлежащих
к различным словарным группам
Выводы ко второй главе
Глава III. Реализация оптимизационного потенциала функциональностилистической классификации русскоязычных текстов
§ 1. Алгоритм детектирования функционального стиля при помощи
МФСП
§2. Программное обеспечение, реализующее МФСП-алгоритм
§3. Результаты опытного использования программного обеспечения,
реализующего МФСП-алгоритм
Выводы к третьей главе
Заключение
Библиографический список
Приложение

Введение
В конце XX века многие исследователи проявляли существенный интерес к разработкам в области искусственного интеллекта вообще и к вопросам автоматизированной обработки естественных языков в частности. Этот интерес сохраняется и поныне, регулярно находя выражение в инновационных алгоритмах, программных продуктах и программно-аппаратных решениях, призванных обеспечить машинное «понимание» тех или иных текстов.
Интенсивное развитие информационных технологий позволяет накапливать значительные объемы разнообразных данных, что автоматически ставит вопросы о надлежащей обработке упомянутых сведений, оперативном поиске требуемой информации, а также предельном упрощении человеку машинной коммуникации вкупе с автоматизацией действий, на выполнение которых затрачиваются существенные временные ресурсы. Все это формирует предпосылки для развития и совершенствования автоматизированных систем обработки текстов (АСОТ).
Хотя первичные исследования, послужившие базой для дальнейших разработок, датируются концом XIX - началом XX века (в связи с этим могут быть упомянуты, к примеру, концепции Дж. Милля (1914), представляющие собой образцы раннего приближения к теории фреймов), период активного изучения подобных вопросов приходится главным образом на 80-е годы минувшего века. В это время наблюдается рост интереса советских и зарубежных ученых к лингвистическим возможностям вычислительных машин. Теоретические основания данных исследований закладывались Р. Шенком (1977), М. Минским (1978), Ч. Филлмором (1985), Т. Виноградом (1985), В.А. Звегинцевым (1985) и другими известными специалистами. В СССР регулярно публиковались аналитические обзоры и сборники статей по компьютерной лингвистике, подготовленные С.М. Шевенко (1985), А.Н. Барановым (1987), Б.Ю. Городецким (1989), что свидетельствовало об актуальности рассматриваемой проблемы с точки зрения советских ученых. При этом вопросы машинного «понимания» естественных языков неразрывно

увязывались с разработками в области лексической семантики и семантических языков (Б.Н. Плотников (1981), А.Ф. Лосев (1982), Д.Н. Шмелев (1973), Ю.Д. Апресян (1974), Н.Д. Арутюнова (1988), Е.С. Кубрякова (1992)). Велись исследования и в сфере формализации языковых образцов (А.М. Шахмайкш; (1986)).
После того, как Советский Союз прекратил свое существование, объективные обстоятельства, связанные с политической обстановкой в государстве, оказали негативное воздействие на развитие отечественной компьютерной лингвистики, в результате чего активные разработки в области автоматизированных систем обработки текстов были практически полностью прекращены. Те из них, которые нашли применение в коммерческом сектор,, как и более актуальные разработки зарубежных ученых, легли в основу разнообразных продуктов и решений, обеспечивающих их производителям конкурентное преимущество перед прочими игроками рынка; таким образом, упомянутые научные достижения обрели статус информации, охраняемой коммерческой тайной, что автоматически обусловило низкую степень их доступности для рядового исследователя.
Тем не менее, российские и зарубежные специалисты активно рассматривают вопросы формально-семантического анализа текстов (Леонтьева
H.H. (2002); P. Cimiano, S. Staab, J. Tane (2003); D. Ferrucci (2004); И.В. Азарова, E.A. Овчинникова (2005) и др.), автоматической классификации данных для нужд информационно-поисковых систем (Панков И.П., Захаров В.П (1996); П.И. Браславский (1999)), формализации языковых сообщений (В .А. Фомичев (2002); A. Mehler, U. Waltinger, A. Wegner (2007)). Кроме того, разработки зарубежных ученых манифестируются в создаваемых ими аналитических системах (например, о текущем состоянии ведомых американскими лингвистами и инженерами работ в данной области можно судить по особенностям вычислительного кластера IBM Watson (2010)). Из наиболее содержательно близких к нашей работе диссертаций следует упомянуть работу
О.Г. Шевелева «Разработка и исследование алгоритмов сравнения стилей текстовых произведений» (2006).

семантическом уровне, выявление и сопоставление иерархии их концептов. Семантическое сопоставление, в частности, требует от авторов введения понятия semantic cotopy, понимаемого как множество всех субконцептов и суперконцептов и описываемого формулой
SC(ci,>C) := {Cj | Ci > Ccj v cy > Cc,.}
, где Cj и Cj принадлежат множеству концептов С. ч
Реализация описанных представлений позволяет исследователям
произвести формальную кластеризацию слов в тексте по признаку их контекстуальной сочетаемости, выстраивая таким образом искомую ими иерархию концептов.
Понятие иерархии становится ключевым также в иных подобных исследованиях, в частности - в работе «А Formal Text Representation Model Based on Lexical Chaining» (Mehler, Waltinger, Wegner группы ученых университета Билефельда, Германия. Авторы рассматривают вопросы, связанные с разработкой формальной модели представления текста, привлекая два различных подхода - изучение лексических последовательностей (lexical chaining) и квантитативный структурный анализ. Формальная модель лексических последовательностей выстраивается в настоящем исследовании на основании т.н. логической
структуры документа и иерархии элементов содержимого (hierarchy of content objects).
Следует констатировать, что в работе А.Н. Баранова «Введение в прикладную лингвистику» (Баранов 2001) представлен комментарий,
достоверно описывающий современные системы машинного понимания текстов: «Понимание высказываний (системой автоматизированного анализа
Н.Г.) предполагает два основных этапа — анализ и интерпретация.;.
Особенности построения систем поддержки диалога с ЭВМ таковы, что часто граница между синтаксическим и семантическим анализом почти отсутствует». Действительно, описанные выше исследования немецких авторов позволяют сделать вывод о том, что современные исследования в области формализации

Название работы	Автор	Дата защиты
Лингвопрагматические особенности слогана как репрезентация рекламы в русском и английском языках: гендерный аспект	Неговорова, Ирина Васильевна	2012
Языковые средства репрезентации субъективной модальности в романе Эрнеста Хемингуэя "По ком звонит колокол"	Думанишева, Жанна Бекмурзовна	2011
Интонационный курсив в письменном художественном тексте	Яковенко, Анна Александровна	2007

Электронная библиотека диссертаций

Формально-семантический анализ многозначной лексики как средство оптимизации систем автоматизированной обработки текстов