Доставка любой диссертации в формате PDF и WORD за 499 руб. на e-mail - 20 мин. 800 000 наименований диссертаций и авторефератов. Все авторефераты диссертаций - БЕСПЛАТНО
Пятков, Максим Иванович
03.01.02
Кандидатская
2013
Пущино
94 с. : ил.
Стоимость:
499 руб.
Содержание
Введение 1 Повторяющиеся структуры в геномах
1.1 Классификация структур
1.1.1 Диспергированные повторы
1.1.2 Тандемные повторы
1.2 Биологическое значение
1.3 Основные задачи и подходы
2 Спектральный метод распознавания повторов
2.1 Структурная схема метода
2.2 Применение к геномам
2.2.1 Преобразование нуклеотидной последовательности в функцию-аналог
2.2.2 Восстановление нуклеотидной последовательности из функции-аналога
2.2.3 Получение спектров разложения
2.2.4 Сравнение спектров разложения
2.2.5 Точечная матрица для отображения результатов сравнения
2.3 Преобразования в пространстве коэффициентов
3 Алгоритмы
3.1 Вычисление коэффициентов разложения
3.1.1 Выбор метода разложения
3.1.2 Разложение функции по коэффициентам
3.2 Маски и отображение на матрице
3.3 Координаты повторов
3.4 Поиск периода протяженных тандемных повторов
3.5 Программная реализация
4 Тестирование и применение спектрального метода
4.1 Сравнение с аналогами
4.2 Тандемные повторы
4.3 Инвертированные повторы
4.4 Регионы синтении
Заключение
Литература
А Алгоритмы вычисления коэффициентов разложения
А.1 Рекуррентный алгоритм
А.2 Векторно-рекуррентный алгоритм
А.З Матричный алгоритм
А.4 Векторно-рекуррентный алгоритм с фиксированной глубиной векторизации
Введение
Актуальность диссертационного исследования
Первые годы двадцать первого столетия ознаменовали начало новой эры в понимании живых систем - были ссквенированы геномы человека и основных модельных эукариотических организмов. Накопленный к настоящему времени и постоянно увеличивающийся объем генетической информации открывает возможности для проведения полномасштабных исследований на уровне целых геномов, однако при этом возникает необходимость разработки новых алгоритмов, способных эффективно и быстро обрабатывать большие объемы генетической информации. Одной из частных задач геномики является поиск повторяющихся элементов, изучение их структуры и распределения в геномах. Важность поиска повторяющихся элементов обусловлена биологической ролью данных структур в функционировании организма. Повторы могут быть мобильными элементами, способными вырезаться или копироваться в одном участке ДНК и встраиваться в другом, что в случаях попадания в регуляторные или кодирующие области может приводить к потере функции генов. Взаимодействие между повторяющимися элементами может вызывать различные хромосомные перестройки, такие как дупликации, инверсии, транслокации и т. д. Подобные хромосомные аберрации в кодирующих областях генома могут приводить к развитию генетических заболеваний. Изучение повторяющихся структур также важно с точки зрения их возможной роли в укладке и реорганизации ДНК. Стоит отметить тот факт, что повторы являются удобными генетическими маркерами, которые широко используются в прикладных и фундаментальных исследованиях. Например, короткие тандемные повторы применяются для определения родства и идентификации индивидуальных генотипов в криминалистике. Приме-
если известен начальный фрагмент последовательности длиной Ид — 1. Считаются известными символы ,зг при ?' = 1.Ц' — 1, тогда вщ символ определяется как:
Vi-l
■зщ = Л - ^2 (2-13)
Каждый последующий символ последовательности определяется следующим образом:
А = /г—ИУ+1 — /г-Щ + г = И7! + 1. • • • , N. (2.14)
Для последовательности в произвольном алфавите рассмотрим минимальный двоичный код, в качестве длины кодового слова для которого будет двоичный вектор длины |"1о§2 п], где п - длина алфавита. Тогда построение функции-аналога и восстановление можно проводить отдельно для каждого бита этого кода по процедуре, описанной выше. Таким образом, мы получаем [к^2п"| линейно независимых функций-аналогов для произвольной символьной последовательности, по которым можно восстановить всю последовательность, зная начальный сегмент последовательности длиной Ид — 1. В случае четырехбуквенного алфавита, соответствующего нуклеотидным последовательностям, для обеспечения однозначного декодирования последовательности потребуются |"к^24] = 2 функции-аналога. Рассмотрим двоичное кодирование символов нуклеотидной последовательности:
Таблица 2.2: Пример кодирования четырехбуквенного алфавита.
Символ Старший бит Младший бит
Тогда вычисление функции-аналога для младшего бита соответству-
Название работы | Автор | Дата защиты |
---|---|---|
Теоретическое исследование начальной стадии белок-индуцированного слияния мембран | Молотковский, Родион Юлианович | 2013 |
Исследование механических свойств клеток и структуры цитоскелета методами атомно-силовой микроскопии | Ефремов, Юрий Михайлович | 2014 |
Моделирование пространственно-временной динамики древесных сообществ | Колобов, Алексей Николаевич | 2013 |