| Хаубольд Б. Введение в вычислительную биологию: эволюционный подход: пер. с англ. / Б.Хаубольд, Т.Вие. - М.: Регуляр. и хаотич. динамика; Ижевск: Ин-т компьютер. исслед., 2011. - 455 с. + 1 эл. опт. диск (CD-ROM). - (Биоинформатика и молекулярная биология).
ШИФР ОТДЕЛЕНИЯ ГПНТБ СО РАН Е-Х26
| |
Предисловие .................................................... 15
Глава 1. ВВЕДЕНИЕ .............................................. 17
1.1 Чтение и запись ........................................... 19
1.2 Структура и предмет этой книги ............................ 20
1.2.1 Последовательности в пространстве .................. 21
1.2.2 Последовательности во времени ...................... 24
ЧАСТЬ I. ПОСЛЕДОВАТЕЛЬНОСТИ В ПРОСТРАНСТВЕ ..................... 27
Глава 2. ОПТИМАЛЬНОЕ ПАРНОЕ ВЫРАВНИВАНИЕ ...................... 29
2.1 Что такое выравнивание? ................................... 33
2.2 Биологическая интерпретация проблемы выравнивания ......... 34
2.3 Выравнивания с оценкой качества ........................... 34
2.4 Матрицы замен аминокислот ................................. 36
2.4.1 Матрицы РАМ ........................................ 38
2.4.2 Матрицы BLOSUM ..................................... 43
2.4.3 Сравнение РАМ и BLOSUM ............................. 47
2.4.4 Применение матриц замен ............................ 49
2.5 Число возможных выравниваний .............................. 51
2.6 Глобальное выравнивание ................................... 53
2.7 Секвенирование методом «дробовика» и выравнивание
перекрывающихся последовательностей ....................... 58
2.8 Локальное выравнивание .................................... 61
2.9 Адаптация алгоритма для аффинной модели пробелов .......... 63
2.10 Максимизирующие и минимизирующие схемы оценивания ......... 65
2.11 Пример применения глобального, локального и
перекрывающегося выравниваний ............................. 65
2.12 Резюме .................................................... 65
2.13 Дополнительная литература ................................. 67
2.14 Упражнения и демонстрация работы программ ................. 67
Глава 3. БИОЛОГИЧЕСКИЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ЗАДАЧА ПОИСКА
ТОЧНЫХ ВХОЖДЕНИЙ СТРОК ......................................... 71
3.1 Точные и неточные совпадения строк ........................ 72
3.2 Наивное сравнение строк ................................... 73
3.3 Поиск строки за линейное время ............................ 74
3.4 Деревья ................................................... 75
3.5 Сравнение множества образцов с текстом с помощью
деревьев ключевых слов .................................... 79
3.6 Суффиксные деревья ........................................ 81
3.7 Построение суффиксных деревьев ............................ 85
3.8 Суффиксные массивы ........................................ 86
3.9 Повторяющиеся последовательности в геномике - парадокс
С-значений ................................................ 88
3.10 Выявление повторяющихся и уникальных подстрок ............. 90
3.11 Максимальные повторы ...................................... 92
3.12 Обобщенное суффиксное дерево .............................. 92
3.13 Задача поиска наибольшей общей подстроки .................. 93
3.14 fe-несовпадения ........................................... 95
3.15 Резюме .................................................... 96
3.16 Дополнительная литература ................................. 97
3.17 Упражнения и демонстрация работы программ ................. 97
Глава 4. БЫСТРОЕ ВЫРАВНИВАНИЕ: СРАВНЕНИЕ ГЕНОМОВ И ПОИСК
В БАЗАХ ДАННЫХ ................................................. 99
4.1 Глобальное выравнивание .................................. 102
4.2 Локальное выравнивание ................................... 105
4.2.1 Глобальное/локальное выравнивание: совпадения с
к ошибками ........................................ 107
4.2.2 Примеры программ поиска в базах данных ............ 109
4.3 Состав базы данных ....................................... 117
4.4 Эвристические и оптимальные методы построения
выравнивания ............................................. 117
4.5 Приложение: выявление генных семейств .................... 118
4.6 Статистика локальных выравниваний ........................ 120
4.6.1 Наибольший вес локальных выравниваний ............. 120
4.6.2 Выбор матрицы аминокислотных замен ................ 124
4.7 Битовый вес .............................................. 125
4.8 Резюме ................................................... 126
4.9 Дополнительная литература ................................ 126
4.10 Упражнения и демонстрации работы программ ................ 127
ГЛАВА 5. МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ....... 131
5.1 Оценивание множественных выравниваний .................... 135
5.2 Построение множественного выравнивания методом
динамического программирования ........................... 135
5.3 Эвристическое множественное выравнивание ................. 138
5.4 Резюме ................................................... 141
5.5 Дополнительная литература ................................ 142
5.6 Упражнения и вопросы ..................................... 142
Глава 6. ПРОФИЛИ ПОСЛЕДОВАТЕЛЬНОСТЕЙ И СКРЫТЫЕ МАРКОВСКИЕ
МОДЕЛИ ........................................................ 145
6.1 Анализ с использованием профилей ......................... 145
6.2 Скрытые марковские модели ................................ 153
6.3 Профильные скрытые марковские модели ..................... 159
6.4 Резюме ................................................... 163
6.5 Дополнительная литература ................................ 164
6.6 Упражнения и демонстрация работы программ ................ 164
Глава 7. ПРЕДСКАЗАНИЕ ГЕНОВ ................................... 167
7.1 Что такое ген? ........................................... 167
7.2 Поиск генов вычислительными методами ..................... 168
7.3 Меры точности предсказания генов ......................... 173
7.4 Методы предсказаний ab initio: поиск сигналов и анализ ... 176
7.4.1 Использование кодонов ............................. 180
7.4.2 Поиск сайтов сплайсинга с помощью профиля
последовательностей ............................... 182
7.4.3 Сцепление экзонов ................................. 187
7.5 Сравнительные методы ..................................... 191
7.5.1 Общие замечания ................................... 191
7.5.2 Предсказание генов в локусе Adh сравнительными
методами .......................................... 193
7.6 Проблемы и перспективы ................................... 197
7.7 Резюме ................................................... 198
7.8 Дополнительная литература ................................ 199
7.9 Упражнения ............................................... 199
ЧАСТЬ II. ПОСЛЕДОВАТЕЛЬНОСТИ ВО ВРЕМЕНИ ....................... 201
Глава 8. ФИЛОГЕНИЯ ............................................ 203
8.1 А было ли дерево? - Статистическая геометрия ............. 207
8.2 Теория отображений правдоподобия ......................... 208
8.3 Число возможных филогении ................................ 211
8.4 Методы, основанные на расстояниях ........................ 213
8.4.1 Кластеризация методом средней связи ............... 216
8.4.2 Метод объединения соседей ......................... 218
8.5 Метод максимальной экономии .............................. 220
8.6 Метод максимального правдоподобия ........................ 224
8.7 Поиск в пространстве деревьев ............................ 227
8.7.1 Обмен ближайшими соседями ......................... 228
8.7.2 Подрезка и прививка поддеревьев ................... 229
8.7.3 Метод ветвей и границ ............................. 229
8.8 Оценка значимости филогении с помощью бутстрепа .......... 231
8.9 Резюме ................................................... 233
8.10 Дополнительная литература ................................ 235
8.11 Упражнения и вопросы ..................................... 235
Глава 9. ИЗМЕНЧИВОСТЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ И МОЛЕКУЛЯРНАЯ
ЭВОЛЮЦИЯ ...................................................... 237
9.1 Летопись прошлых событий ................................. 238
9.2 Мутации и замены ......................................... 240
9.3 Молекулярные часы ........................................ 241
9.4 Явные модели молекулярной эволюции ....................... 243
9.5 Оценка скорости эволюции ................................. 245
9.6 Кодирующие последовательности: синонимичные и
несинонимичные замены .................................... 249
9.7 Замены в глобиновых последовательностях .................. 252
9.8 Применение Кα/Кs-теста ................................... 254
9.8.1 Ген речи? ......................................... 255
9.8.2 Отбор в геноме человека ........................... 258
9.9 Резюме ................................................... 258
9.10 Дополнительная литература ................................ 259
9.11 Упражнения ............................................... 260
Глава 10. ГЕНЫ В ПОПУЛЯЦИЯХ: ПРОСПЕКТИВНЫЙ АНАЛИЗ ............. 261
10.1 Полиморфизм и генетическое разнообразие .................. 262
10.2 Теория нейтральной эволюции .............................. 265
10.3 Проспективное моделирование эволюции ..................... 269
10.4 Нейтральная модель Райта-Фишера .......................... 271
10.4.1 Фиксация и утрата аллелей ......................... 271
10.4.2 Закон Харди-Вайнберга ............................. 274
10.4.3 Вероятность фиксации и время фиксации ............. 274
10.4.4 Утрата генетического разнообразия ................. 278
10.5 Добавление в модель мутаций .............................. 280
10.5.1 Модель конечного числа аллелей .................... 280
10.5.2 Модель бесконечного числа аллелей ................. 282
10.5.3 Модель бесконечного числа сайтов .................. 283
10.6 Равновесие между дрейфом и мутациями .................... 283
10.6.1 Скорость фиксации ................................. 283
10.6.2 Число аллелей ..................................... 285
10.6.3 Генетическое разнообразие ......................... 287
10.7 Выборки аллелей из популяций ............................. 290
10.7.1 Формула Эвенса для выборок ........................ 290
10.7.2 Применение ........................................ 293
10.8 Отбор .................................................... 295
10.9 Резюме ................................................... 297
10.10 Дополнительная литература ............................... 298
10.11 Упражнения и демонстрация работы программ ............... 299
Глава 11. ГЕНЫ В ПОПУЛЯЦИЯХ: РЕТРОСПЕКТИВНЫЙ АНАЛИЗ ........... 301
11.1 Генеалогии особей и генеалогии генов ..................... 302
11.2 Проспективный и ретроспективный подходы .................. 303
11.3 Коалесцент ............................................... 304
11.4 Коалесцентные и филогенетические деревья ................. 308
11.5 Модель бесконечного числа сайтов и число SNP ............. 310
11.6 Математические свойства нейтрального коалесцента ......... 310
11.6.1 Глубина дерева, размер дерева и число
сегрегирующих сайтов .............................. 310
11.6.2 Гетерозиготность .................................. 318
11.6.3 Распределение сегрегирующих сайтов ................ 321
11.7 Пример моделирования ..................................... 321
11.8 Рекомбинация ............................................. 323
11.9 Отбор .................................................... 326
11.10 Сочетание рекомбинации и отбора ......................... 329
11.11 Резюме .................................................. 331
11.12 Дополнительная литература ............................... 331
11.13 Упражнения и демонстрация работы программ ............... 332
Глава 12. ПРОВЕРКА ЭВОЛЮЦИОННЫХ ГИПОТЕЗ ....................... 335
12.1 Тест Хадсона-Крейтмана-Агуаде (НКА) ...................... 336
12.2 Тест Тадзимы ............................................. 339
12.3 Тест Фу и Ли ............................................. 342
12.4 Тест Макдональда-Крейтмана ............................... 345
12.5 Минимальное число рекомбинационных событий ............... 346
12.6 Выявление неравновесия по сцеплению ...................... 348
12.7 Программная реализация ................................... 351
12.8 Резюме ................................................... 351
12.9 Упражнения и демонстрация работы программ ................ 352
Приложение А. Пакет программ bioinformer ...................... 355
Приложение В. Теория вероятностей ............................. 379
Приложение С. Молекулярная биология. Рисунки и таблицы ........ 385
Приложение D. Ресурсы ......................................... 391
Ответы к упражнениям .......................................... 393
Литература .................................................... 409
Глоссарий ..................................................... 433
Именной указатель ............................................. 445
Предметный указатель .......................................... 447
|
Предлагаемое введение в вычислительную эволюционную биологию сочетает два основных подхода в анализе данных о молекулярных последовательностях: изучение взаимного расположения биологических последовательностей в пространстве всех последовательностей и их движения в этом пространстве в процессе эволюции. Соответственно, в первой части книги рассматриваются классические методы анализа последовательностей: парное выравнивание, поиск точного совпадения строк, множественное выравнивание и скрытые марковские модели. В центре внимания второй части находятся задачи молекулярной эволюции: подробно рассматриваются филогенетические деревья, анализ изменчивости последовательностей и динамика генов в популяциях.
Кроме того, к учебнику прилагаются компьютерные программы с графическим интерфейсом, что позволяет читателю самому экспериментировать с рядом ключевых описываемых понятий.
Книга предназначена для студентов и аспирантов биологических и других специальностей, изучающих вычислительную биологию и биоинформатику, а также для исследователей в области как молекулярной биологии, генетики, теории эволюции, так и теории вероятностей, алгоритмов и других разделов математики и информатики. |
|