+
Действующая цена700 499 руб.
Товаров:
На сумму:

Электронная библиотека диссертаций

Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО

Расширенный поиск

Автоматический анализ научных текстов для создания семантических сетей белков

  • Автор:

    Пономаренко, Елена Александровна

  • Шифр специальности:

    03.00.28

  • Научная степень:

    Кандидатская

  • Год защиты:

    2009

  • Место защиты:

    Москва

  • Количество страниц:

    109 с. : ил.

  • Стоимость:

    700 р.

    499 руб.

до окончания действия скидки
00
00
00
00
+
Наш сайт выгодно отличается тем что при покупке, кроме PDF версии Вы в подарок получаете работу преобразованную в WORD - документ и это предоставляет качественно другие возможности при работе с документом
Страницы оглавления работы

СПИСОК СОКРАЩЕНИЙ
• ИАТ - интеллектуальный анализ текстов
• ССИ - скрытое семантическое индексирование
• CYP - cytochrome Р450, цитохром Р450
• GO — Gene Ontology
• KEGG — Киотская энциклопедия генов и геномов (Kyoto Encyclopedia of Genes and Genomes)
• MeSH - Medical Subject Heading
• NCBI - National Center for Biotechnology Information
• UMLS - Унифицированная система медицинского языка

СОДЕРЖАНИЕ
1. ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ
2. ОБЗОР ЛИТЕРАТУРЫ
2.1. Интеллектуальный анализ биомедицинских текстов
2.1.1. Распознавание названий белков (генов) в публикациях
2.1.2. База данных белков UniProt
2.1.3. Применение ИАТ для выявления белковых взаимосвязей
2.1.4. Оценка релевантности документов
2.1.5. База данных MEDLINE и поисковая система PubMed
2.2. Семантические модели молекулярной биологии
2.2.1. Онтология генов Gene Ontology
2.2.2. Энциклопедия метаболических путей KEGG
2.2.3. UMLS - унифицированная система медицинского языка
2.3. Семантические сети генов и белков
3. МАТЕРИАЛЫ И МЕТОДЫ
3.1. Алгоритм построения и анализа семантических сетей
3.2. Выборки белков
3.3. Методика работы с реферативной базой данных
3.4. Идентификация названий белков
3.5. Мера семантического сходства между белками
4. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
4.1. Контекстный поиск названий белков в текстах рефератов
4.2. Матрица семантического сходства
4.3. Семантические сети белков
4.4. Сопоставление сетевых подграфов с разделами KEGG и с аннотациями GO
4.5. Сопоставление сетевых подграфов с видовой принадлежностью белков
5. ЗАКЛЮЧЕНИЕ
6. ВЫВОДЫ
7. СПИСОК ЛИТЕРАТУРЫ
БЛАГОДАРНОСТИ
1. ВВЕДЕНИЕ, ЦЕЛЬ И ЗАДАЧИ
Постоянное увеличение количества научных статей в области биомедицины все больше усложняет поиск необходимой исследователю информации [Stapley
В., Benoit G., 2000]. Сложности особенно очевидны в случае, если речь идет об анализе информации о функциях белков и генов, поскольку эти данные изложены в свободной форме на естественном языке и плохо поддаются структурированию. Необходимость выполнения широкомасштабного анализа опубликованных сведений о белковых функциях становится особенно актуальной при исследовании молекулярных взаимодействий в клетке.
Функционирование клетки обеспечивается за счет взаимодействия белков, примерами которого являются метаболические и регуляторные пути. Полагают, что взаимодействие белков в биологических процессах можно определить экспериментально с использованием высокоэффективных экспериментов в области транскриптомики [AI-Shahrour F. el al., 2006]. Кластеризация профилей ко-экспрессии генов позволяет сделать только предварительные предположения о молекулярных взаимосвязях, лежащих в основе исследуемого биологического процесса. Проверка предположений проводится в ходе изучения ассоциированной с названиями белков (или кодирующих их генов) научной литературы или с использованием аннотаций в белковых базах данных типа UniProt [Boutet Е. et al., 2007]. Ознакомление с соответствующими литературными источниками занимает длительное время и не всегда обеспечивает полноту анализа. Это обуславливает необходимость создания средств семантического анализа, предназначенных для повышения эффективности обработки результатов высокопроизводительных транскриптомных [Beissbarth Т., 2006] и протеомных экспериментов [UniProt Consortium, 2009].
Результаты транскриптомных и протеомных экспериментов в общем случае представляют собой соответственно либо выборки генов с измененным уровнем экспрессии или списки идентифицированных белков. Обработка экспериментально полученных выборок должна проводиться с учетом современного уровня знаний в области молекулярной биологии. Автоматизация процесса сопоставления экспериментальных данных с уровнем знаний в
анализируемой группе должны присутствовать названия генов с измененным уровнем экспрессии, а в другой группе — произвольно выбранные гены того же организма. Для генов каждой группы загружаются аннотации согласно онтологии GO. Учитывая иерархический принцип организации системы GO, сравнение групп между собой проводят на одном уровне онтологии (уровне абстракции). Для оценки достоверности различий в аннотациях используют тест Фишера. Результаты работы программы выводятся в виде списка генов, отсортированного по уменьшению значимости различий между группами.
Особенности реализации существующих программ заключаются, во-первых, в объеме используемых аннотаций GO. Часть программ использует аннотации во всех категориях, часть — аннотации только выбранной категории. Во-вторых, полученные результаты зависят от уровня абстракции: большинство программ используют только самые детализированные аннотации.
В биологических процессах задействованы продукты большого числа генов [Quentin Y. et al., 2002], поэтому использование стандартного подхода для аннотации результатов эксперимента должно включать в себя оценку функциональной взаимосвязи не только внугри, но и между выявленными группами ко-экспрессирующихся генов. В работе [Chabalier J. et al, 2007] предложено решение этой проблемы в рамках трансверсного («поперечного») подхода. С использованием векторной модели вычисляли семантическое сходство между генами, охарактеризованными в терминах GO. На основе матрицы сходства между генами конструировали биологическую сеть, узлами которой являлись гены, а ребрами - семантические взаимосвязи. Группы ко-экспрессирующихся генов на схеме кодировали цветом, что позволяло визуально сопоставлять экспериментальные результаты и данные о функциональной сопряженности генов. Предложенный подход применили к 186 генам, относящимся к различным этапам дифференцировки энтероцитов. Было показано, что среди этих генов можно выделить 18 функционально-связанных групп генов, среди которых наиболее обширные относятся к биосинтезу и метаболизму гликанов, метаболизму липидов и участвуют в трансляции.
Онтология GO нашла свое применение для решения широкого круга задач. Например, в работе [Wu X. et ai, 2006] на основе сходства аннотаций GO была

Рекомендуемые диссертации данного раздела

Время генерации: 0.208, запросов: 966