Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей

Разработка алгоритмов и программного обеспечения для исследования информационного содержания генетических последовательностей

Автор: Назипова, Нафиса Наиловна

Шифр специальности: 05.13.18

Научная степень: Кандидатская

Год защиты: 2001

Место защиты: Пущино

Количество страниц: 102 с.

Артикул: 2283254

Автор: Назипова, Нафиса Наиловна

Стоимость: 250 руб.

СОДЕРЖАНИЕ
Введение
Глава 1. Анализ современного состояния математического и программного
обеспечения информационного анализа биологических последовательностей
1.1. Статистический анализ и предсказание сайтов связывания рибосом.
1.2. Исследование сложности генетических текстов
1.3. Нахождение повторяющихся участков в последовательностях
1.3.1. Статистическая значимость повторов.
Глава 2. Реализация пакета прикладных программ для исследования структурной
организации последовательностей.
2.1. Интерфейс пользователя и типы входных данных.
2.2. Сервисные программы
2.2.1. Программа формирование по базе данных выборки участков
2.2.2. Программа 2 формирование по базе данных выборок участков
2.2.3. Программа генерирование псевдослучайной
последовательности
2.2.4. Программа подготовка заданного фрагмента
последовательности
2.3. Специальные программы для исследования серий последовательностей.
2.3.1. Программа 2 вычисление информационного содержания выборки
2.3.2. Программа выравнивание выборки участков
2.3.3. Программы I, I2 расчет статистик.
2.3.4. Программы X. X2, X3 расчет данных для электронных таблиц
2.3.5. Программы , 2, 3 расчет активности участков выборки.
2.3.6. Программы I, I расчет характеристик распределения значений функции, полученных на выборке.
2.3.7. Программа оценка качества расчета активностей выборок.
2.4. Программы обработки
2.4.1. Высоко и низкочастотная компоненты графа граммного
разложения
2.4.2. Программа расчет информационной избыточности текста
2.4.3. Программа алгоритмическая сложность текста
2.4.4. Программа I поиск неточных повторов.
2.4.5. Программа построение словаря последовательности.
Глава 3. Методика распознавания функциональных блоков на полных геномах.
3.1. Поиск общего сигнала в сериях участков биологических последовательностей
3.2. Равновесное состояние графа граммного разложения.
3.3. Выбор параметров скользящего окна и длины грамм
3.4. Какие особенности генетических последовательностей определяет новая информационная мера
Заключение
Библиография


Впервые предложено по профилям разности избыточностей генетических последовательностей, померянных разными способами, находить функциональные участки. Разработан и реализован алгоритм нахождения статистически значимых повторов в протяженных участках символьных последовательностей, который, в отличие от существующих программных продуктов, освобождает пользователя от задания параметров сходства и оценки достоверности получаемых результатов, а также не имеет ограничений на длину анализируемых последовательностей. Разработаны и реализованы алгоритмы для изучения структурной организации функционально-значимых областей геномов. В результате работы по распознаванию участков связывания генетической последовательности с рибосомой получены частотные матрицы, они разные для каждой разновидности биологических объектов, нами получены матрицы для -го бактериального организма, которые в году были помещены на сайт 1тепге1 по адресу http://www. Эти средства позволяют получать распознающие матрицы для любых организмов по мере появления новых расшифрованных генов. Кроме того, созданы программные средства для исследования правильности локализации начала трансляции генов, с помощью которых можно корректировать базы данных. Другим практическим результатом является создание программ для исследования неоднородностей геномных последовательностей. Он состоит из программ подсчета избыточности текста тремя различными способами (в смысле алгоритма сжатия/декодирования, по Шеннону и по низкочастотной компоненте графа /-граммного разложения)[3-6], программы нахождения статистически значимых повторов [7-9], программы генерирования псевдослучайной последовательности с заданным частотным составом взаимно перекрывающихся слов любой длины. На основе модифицированного алгоритма построения дот-матриц [9] реализован новый метод, который отличен тем, что не требует от пользователя никаких специальных знаний об уровне сходства текстов. Программа, используя статистические параметры данной последовательности, сама вычисляет все пороги достоверного сходства. Единственным параметром, который может при желании задать пользователь - это минимальное число допустимых несовпадений на длину окна последовательности. Этот параметр позволяет ослабить требования на точность совпадения участков, увеличив количество находимых повторов. Кроме того, описанная реализация алгоритма может применяться для поиска повторов не только в генетических текстах. Возможность задания любой матрицы разрешенных замен (не только специализированных матриц аминокислотных замен) сильно расширяет применимость данного программного обеспечения, позволяя искать несовершенные повторы в любых символьных текстах, например, лингвистических. Предложенные алгоритмы и программы могут использоваться для компьютерного аннотирования биологических последовательностей, т. Они могут использоваться при разработке интегрированных систем математического обеспечения биологических экспериментов. Результаты, положенные в основу диссертационной работы, опубликованы в [1-9] и докладывались на Московском семинаре по компьютерной генетике (ИМБ РАН) в октябре года; на международной конференции "Mathematics and Molecular Biology VIм (Санта-Фе, США, 9- января ), а также на межлабораторном семинаре в ИМПБ РАН в феврале года. Диссертация состоит из введения, трех глав, заключения, 5 приложений и списка литературы из 5 наименований. Общий объем диссертации - 4 страницы, из них страница - основной текст, который содержит . В первой главе анализируется современное состояние математического обеспечения анализа генетических последовательностей. Основное внимание сосредоточено на обзоре существующих методов решения трех задач. Первая, самая актуальная задача - распознавание мест связывания рибосомы в процессе считывания белковой последовательности с матричной РНК. Здесь упоминаются алгоритмы, использующие метод перцептрона, аппарат нейронных сетей, линейную регрессию, а также чисто статистические подходы, основанные на подсчете частот в выборках реальных областей, предшествующих началам генов самого изученного в свое время организма -кишечной палочки.

Рекомендуемые диссертации данного раздела

28.06.2016

+ 100 бесплатных диссертаций

Дорогие друзья, в раздел "Бесплатные диссертации" добавлено 100 новых диссертаций. Желаем новых научных ...

15.02.2015

Добавлено 41611 диссертаций РГБ

В каталог сайта http://new-disser.ru добавлено новые диссертации РГБ 2013-2014 года. Желаем новых научных ...


Все новости

Время генерации: 0.245, запросов: 244