+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Система лингвистического анализа и обработки текста в локальных почтовых системах

Система лингвистического анализа и обработки текста в локальных почтовых системах
  • Автор:

    Семененко, Анатолий Викторович

  • Шифр специальности:

    05.13.11

  • Научная степень:

    Кандидатская

  • Год защиты:

    2001

  • Место защиты:

    Москва

  • Количество страниц:

    100 с.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы
"
1. СОВРЕМЕННЫЕ ПОЧТОВЫЕ СИСТЕМЫ И ИХ «ИНТЕЛЛЕКТУАЛЬНЫЕ» ВОЗМОЖНОСТИ 
1.1. Современные почтовые клиенты


Содержание

ВВЕДЕНИЕ

1. СОВРЕМЕННЫЕ ПОЧТОВЫЕ СИСТЕМЫ И ИХ «ИНТЕЛЛЕКТУАЛЬНЫЕ» ВОЗМОЖНОСТИ

1.1. Современные почтовые клиенты

1.2. Microsoft Outlook

1.3. Outlook Express

1.4. The Bat!


1.5. Eudora

1.6. Calypso E-mail

1.7. Pegasus Mail


1.8. Netscape Messenger
1.9. Opera Mail
1.10. Matl Control
1.11. IncrediMail
1.12. Выводы
2. МЕТОДЫ И ПОДХОДЫ В СИСТЕМАХ ИНТЕЛЛЕКТУАЛЬНОГО РАСПОЗНАВАНИЯ ТЕКСТА
2.1. Классификация задач добычи данных
2.2. Прогноз и анализ
2.3. Эффективная работа с текстами
2.4. Вариант решения: склады данных и Text Mining
2.5. Статистический/эвристический подход
2.5.1. Средства идентификации языка
2.5.2. Средства извлечения ключевых термов
2.5.3. Инструментарий суммаризации
2.5.4. Тематическое разбиение текста
2.5.5. Кластеризация
2.6. Интеллектуальный подход
2.6.1. Загрузка документов в БД
2.6.2. Индексирование
2.6.3. Фильтры
2.6.4. Лексический анализатор
2.6.5. Список термов

2.6.6. Группы секций
2.6.7. Тематическое индексы
2.6.8. Поиск в Oracle Text
2.7. ПОДХОД С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ
2.7.1. Процесс обработки в TextAnalyst
2.7.2. Построение тематической структуры
2.7.3. Реферирование
2.7.4. Гипертекстовая разметка
2.7.5. Смысловой поиск
2.8. ВЫВОДЫ
3. ОБЩИЕ ПРИНЦИПЫ ПРОЕКТИРОВАНИЯ СИСТЕМЫ
3.1. Кластеризация
3.1.1. Иерархическая кластеризация
2.1.2. Реализация механизма дендограмм
3.2. СУММАРИЗАЦИЯ
3.3. Объектно-ориентированная модель текстовой коллекции
3.4. Система представления знаний
3.4.1. Строение модели
3.5. Выводы
4. ОПИСАНИЕ РЕАЛИЗАЦИИ РАЗРАБОТАННОГО ПОДХОДА
4.1. Реализация модуля информационного обеспечения системы
4.1.1. Microsoft Outlook Express
4.1.2. Netscape Messenger
4.1.3. Eudora Mail
4.2. Общие принципы представления загруженной информации
4.3. Визуализация функциональной структуры ПО
4.3.1. Модуль управления и представления результатов
4.3.2. Модуль кластеризации
4.3.3. Модуль суммаризации
4.3.4. Модуль системы представления знаний
4.4. ВЫВОДЫ
ЗАКЛЮЧЕНИЕ
ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ СОКРАЩЕНИЙ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ 1: АКТЫ О ПРАКТИЧЕСКОМ ВНЕДРЕНИИ МАТЕРИАЛОВ ДИССЕРТАЦИИ И РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЙ

Введение
Крупные компании в течение десятков лет накапливали сведения о своих клиентах, поставщиках, продуктах и услугах. Благодаря высоким темпам развития электронной коммерции, начинающие фирмы могут превратиться в огромные предприятия буквально в течение нескольких месяцев. И, как следствие, будут стремительно расти и их информационные базы. Технология добычи текстовых данных (text mining), предоставляет пользователям инструментарий, позволяющий анализировать большие собрания информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений [10, 23, 24]. Электронные текстовые документы составляют сегодня подавляющую часть информации, необходимой для продуктивной и бесперебойной работы практически в любой организации. И какие бы возможности ни предлагали разработчики программного обеспечения, большинство пользователей по-прежнему в замешательстве стоят на «берегу океана» электронных документов [29]. Известно, что большие объемы текстовой информации самого различного характера передаются посредством систем электронной почты. В конечном итоге зачастую актуальная информация для принятия стратегически важных решений теряется среди прочих сообщений в базе данных почтового клиента. Потери времени, которыми сопровождается поиск искомых данных среди множества подобных, нередко бывают существенными. Как следствие, нужная информация теоретически получена, но не найдена и не использована [10, 31, 39].
Целью работы являлась разработка методологии создания систем, позволяющих на основе баз стандартных почтовых клиентов производить лингвистический анализ текстовой информации,

тренировочной подготовки. Для проведения данного этапа выполняется обработка контрольных наборов документов по интересующим темам или логически образованным группам. Как и большинство программ из данного пакета, утилита тематического разбиения текста использует статистические механизмы обработки, совмещая их с механизмами морфологического анализа. Результатом работы является разработка профилей или схем категорий, описывающих предметную область. Далее подобные схемы используются для суммаризации и более глубокого текстового анализа [60, 63].
Преимущество данного подхода заключается в простоте построения исходного репозитария для интересующей тематики. Он не требует представления в семантическом виде, например, таксономии, для реализации возложенных целей. Построение репозитария требует достаточно объемного набора контрольных документов, точно отражающих тематику исследуемых документов. Контрольные документы также должны содержать достаточный уровень детализации для построения отдельного репозитария для каждого тематического направления. Несоблюдение данных условий может привести к созданию недостаточно полного репозитария и, как следствие, слишком широкого набора тем для категоризации [24, 41].
2.5.5. Кластеризация
Механизм кластеризации, как и категоризация, разбивает набор документов на группы, но, в отличие от второй, не требует предварительного использования контрольных данных для построения репозитария. Напротив, документы группируются по принципу схожести. В данной части будут рассмотрены два механизма кластеризации: иерархический и бинарный [52].

Рекомендуемые диссертации данного раздела

Время генерации: 0.112, запросов: 967