+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Методы и алгоритмы обработки текстового контента с использованием высокопроизводительных вычислительных кластеров

  • Автор:

    Кошкин, Дмитрий Евгеньевич

  • Шифр специальности:

    05.13.15

  • Научная степень:

    Кандидатская

  • Год защиты:

    2014

  • Место защиты:

    Москва

  • Количество страниц:

    145 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

Оглавление
ГЛОССАРИЙ.

ВВЕДЕНИЕ
Глава 1 Анализ существующих методов и алгоритмов разделения текстового контента и извлечения знаний. Типовые архитектуры вычислительных комплексов
1.1 Теории, используемые при анализе текстового контента
1.2 Методы классификации и алгоритмы кластерного анализа текстового контента
1.3 Оценка алгоритмов кластеризации по критериям вычислительной сложности
1.4 Аппаратные и программные платформы развертывания вычислительных кластеров
1.4.1 Технологии сетевого объединения вычислительных узлов
1.4.2 Программные платформы развертывания вычислительных кластеров
1.4.3 Гибридные кластеры с графическими процессорами (СРЦ)
1.5 Заключение. Постановка задачи
Глава 2 Развитие существующих методов и алгоритмов специальной обработки текстового
контента. Придание вычислительным кластерам свойств расширяемости, масштабируемости и интероперабельности
2.1 Развитие многопоточности для алгоритмов кластеризации на примере алгоритма Нечетких С-средних
2.1.1 Метод использования энтропийной меры оценки алгоритма Нечетких С-средних для контроля процесса кластеризации и повышения ее качества
2.2 Метод параллельной обработки минимальных синтаксических структур с использованием базовых характеристик объектно-ориентированных языков высокого уровня
2.3 Разработка вычислительного кластера со свойствами расширяемости, масштабируемости и интероперабельности
2.3.1 Допущения и ограничения в выборе аппаратной платформы для реализации вычислительного кластера
2.3.2 Допущения и ограничения программной платформы для реализации вычислительного кластера
2.3.3 Методика использования особенностей стандартов для повышения производительности сетевых соединений вычислительных кластеров на основе протокола ЕЛеше!
2.4 Заключение
Глава 3 Развертывание вычислительного кластера на примере кластера в МГТУ МИРЭА.
Практическая реализация методов и алгоритмов многопоточной обработки текстового контента на высокопроизводительных вычислительных кластерах
3.1 Программная платформа для развертывания кластера MuninnHPC на основе доработанной кластерной платформы PelicanHPC
3.2 Реализация алгоритма кластеризации с использованием многопоточности и графических процессоров (GPU Fuzzy C-Means) на языке Python
3.2.1 Описание дополнительных модулей и способов их использования. Экспериментальная верификация
3.3 Апробация созданных кластеров в условиях конкуренции в проекте [email protected] Глава 4 Практические исследования многопоточной кластеризации текстового контента на
естественном языке
4.1 Сравнение вычислительной скорости центрального и графического процессоров
4.2 Кластеризация тестовой подборки художественных текстов
4.2.1 Результаты экспериментов предобработки текстов с модулем mystem
4.2.2 Предобработка текстов с модулем PyMorphy
Заключение
Библиография
Приложения
Приложение 1. Результаты экспериментов на синтетической подборке текстов с 4, 5 и 6 кластерами
Приложение 2. Свидетельство о регистрации программы для ЭВМ 2012660
Приложение 3. Свидетельство о регистрации программы для ЭВМ 2013660
Приложение 4. Акты внедрения кластеров MuninnHPC и HuginnHPC

ГЛОССАРИЙ
АРХИТЕКТУРА ИНФОРМАЦИОННОЙ СИСТЕМЫ - концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы. [
БАЗА ЗНАНИЙ - организованная совокупность знаний, представленная в форме, которая допускает автоматическое или автоматизированное использование этих знаний на основе реализации возможностей средств информационных технологий. [2]
БРАУЗЕР (англ. web browser) - программное обеспечение для поиска и просмотра веб-сайтов, для запроса веб-страниц (преимущественно из Интернет). Служит для их обработки, вывода и перехода от одной страницы к другой [3].
ВАЛИДНОСТЬ (англ. validity) - мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам [3].
ВЕБ-ОБОЗРЕВАТЕЛЬ см. браузер.
ВЕБ-ПОРТАЛ см. портал.
ВЕБ-САЙТ (англ. website, от web - паутина и site — «место») - одна или совокупность веб-страниц, доступных в Интернет через протоколы HTTP/HTTPS. Страницы веб-сайта объединены общим корневым адресом, а также обычно темой, логической структурой, оформлением и/или авторством [3].
ВЕБ-СЕРВЕР - сервер, принимающий HTTP-запросы от клиентов, обычно браузеров, и выдающий им HTTP-ответы, обычно вместе с HTML-страницей, изображением, файлом, медиа-потоком или другими данными. Веб-серверы - основа Всемирной паутины. Вебсервером называют как программное обеспечение, выполняющее функции веб-сервера, так и компьютер, на котором это программное обеспечение работает. Клиенты получают доступ к веб-серверу по URL адресу нужной им веб-страницы или другого ресурса [4].
ВТОРИЧНЫЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ - описания (например уровень образования, тип материала, предмет, аннотация или ключевые слова) и адреса ресурсов, не расположенных на текущем портале, а доступных через Интернет на других порталах, сайтах по гиперссылкам [4].
ВЫЧИСЛИТЕЛЬНЫЙ КЛАСТЕР - группа компьютеров, объединенных каналами связи и представляющая с точки зрения пользователя единый аппаратный ресурс.
ГАРМОНИЗАЦИЯ КОНТЕНТА - систематизация и унификация в результате изменения состава, свойств и признаков составляющих контента [4,5].
ДАННЫЕ - качественные или количественные переменные, принадлежащие к набору элементов. Необработанные данные не были подвергнуты обработке или другим

1. Выбор группы признаков для проверки и формирования из неё авторского инварианта.
2. Выбор метрик и их параметров.
3. Формирование вектора авторского стиля, позволяющей разделять тексты, на основе предполагаемых авторов.
4. Непосредственно применить наиболее подходящий из доступных алгоритмов кластеризации.
Согласно [77], анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов и делается вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста, и, следовательно кластеризации групп текстов по предполагаемому автору, используя в качестве вектора характеристик текста вектор характеристик стиля текста
При анализе частот употребления частей речи и речевых оборотов, подаваемый входной вектор определяет «отпечаток» не, сколько текста, сколько его автора, так как особенность изложения материала человеком достаточно сложно скопировать со 100% точностью. Так же, как показали исследования [78-83], существует разница в стиле изложения в зависимости от гендерной принадлежности автора. При таком подходе, у алгоритмов кластеризации есть потенциал в определении не только авторства текстов, но и, вероятно, пола автора.
1.4 Аппаратные н программные платформы развертывания вычислительных кластеров.
Поставщики традиционных коммерческих суперкомпьютеров (SMP, МРР, параллельных векторных) достаточно быстро улучшают производительность, надежность и простоту использования своих продуктов. Однако, высокая цена делает эти комплексы недоступными для многих образовательных и научно-исследовательских организаций. В то же время, потребность в вычислительных ресурсах у этих организаций весьма велика.
Следует иметь в виду, что производительность персональных компьютеров на базе процессоров Intel в последние годы также значительно выросла. Такие компьютеры стали создавать серьезную конкуренцию рабочим станциям на базе RISC, особенно по показателю цена/производительность. Одновременно стала приобретать все большую популярность ОС

Рекомендуемые диссертации данного раздела

Время генерации: 0.198, запросов: 967