Главная
>
Статьи
>
Вихри враждебные ©

Вихри враждебные ©

04.04.2012
61

ГИДРОДИНАМИКА, -и, ж. раздел гидравлики, в
котором изучаются законы движения
жидкости и её взаимодействие с
неподвижными и подвижными
поверхностями.


© Кононов Артем Анатольевич, доцент кафедры «Подъемно-
транспортные, строительные, дорожные машины и
оборудование» (сокращенно СДМ)



Раздел, хе-хе, гидравлики... Ландау с Лившицем наверное тому сильно изумились бы. Гидродинамика — она местами подобна химии; вечно руки свои суёт в дела человеческие. Одна история с Саянской ГЭС чего стоила!

А недавно выяснилось, что она (гидродинамика, то бишь) сумела свои рученьки засунуть и в такую, казалось бы, глубоко изолированную от всех течений и взаимодействий с твёрдыми поверхностями вещь, как геном приматов. Да и не только приматов; просто у приматов она, гидродинамика та, уж больно сильно порезвилась. А дело было так: как обычно, подзатянул я с подачей материалов на некую конференцию (одиннадцатую Европейскую по вычислительной биологии, чтобы быть точным); но успел. А поскольку делал всё второпях, то и не совсем до конца дело довёл. Вот и спросил у почтенной публики помощи. В роли почтенной публики выступили коллеги из Института математики СФУ, на семинаре у которых я выступил. Во вторник. А сегодня у вас спрошу.

Все хорошо теперь уже знают, что наследственная информация у всех без исключения организмов хранится в специальной молекуле, в просторечии именуемой ДНК. Куча народу во всём мире топчутся и рвут её на части, пописывая статьи и чего-нибудь там изучая; и я — не исключение. С математической точки зрения, эту молекулу можно (и нужно!) представлять как очень длинную (но конечную!) символьную последовательность из четырёхбуквенного алфавита {A, C, G, T}. Совершенно неважно, что эти буковки обозначают, к ним надо относиться как к символам.

Разные комбинации этих буковок чего-нибудь да значат. В школе даже изучают, что три буковки образуют триплет, и что каждый триплет соответствует своей аминокислоте; ну, и ещё сигналу стоп-машина. Это всё так. Теперь зададимся таким вопросом: вот есть у нас реальная последовательность. Выберем какой-нибудь триплет, ну, например, ATG и найдём его в последовательности. Затем выберем ещё какой-нибудь триплет (для определённости — CGA) найдём то место, где он первый раз справа от исходного (который ATG) встречается. Посчитаем между ними расстояние; понятно, что оно может меняться от нуля (они вплотную друг к другу стоят) до какого-нибудь достаточно большого.

Запишем в тетрадочку это найденное расстояние. Затем найдём следующее вхождение — при движении вправо — триплета ATG и всю процедуру по поиску расстояния до ближайшего появления второго триплета — в нашем примере это CGA — повторим снова. И опять запишем в тетрадочку полученное расстояние. И так до тех пор, пока не дойдём до последнего включения исходного триплета в последовательность. Спрашивается: как будет выглядеть функция распределения вот таких расстояний до ближайшего соседа? Иными словами, с какой вероятностью (ну, или частотой, в случае экспериментального изучения) она встретятся на расстоянии 0, на расстоянии 1, на расстоянии 2, 3, 4 и так далее до какого-нибудь очень большого. При том, естественно, условии, что для каждого из расстояний внутри этот второй триплет не встречается.

Из общих соображений понятно, что чем больше расстояние, тем реже должны встречаться такие пары. Это действительно так и происходит. Но вопрос не в этом, а в том, каков характер этого «затухания» частоты? И какие могут быть нарушения? Выяснилось, что для реальных последовательностей эта функция ведёт себя самым зверским образом: она не поддаётся никакому разумному описанию и выглядит так, что, собственно, и заставляет вспомнить про гидродинамику.

Вот как (смотри рисунок 1) выглядит эта самая функция для 11-ой хромосомы быка. В этой хромосоме 110 171 769 букв. И вот как там себя ведут триплеты AAT ↔ CGC и AGC ↔ CCT; первая пара показана красной линией, вторая — синей. А вот так (смотри рисунок 2) — искомая функция для пары CCC ↔ GGG.

На этом втором рисунке показано поведение реальной функции (чёрным цветом) и нескольких модельных. Модельные построены с помощью Марковских процессов. Это умное слово означает, что модельные последовательности были построены таким образом, что в каждой из них появление следующего символа (буковки) предсказывалось по тому набору, который стоит перед этой буквой. Число тех букв, которые взяты в расчёт, называется порядком Марковского процесса. Видно, что использовались процессы порядка 2, 3 и 6. То есть, предсказывалась структура тройки по двойкам, четвёрки — по пятёркам и семёрки — по шестёркам. Понятно, что это предсказание носит вероятностный характер; на то он и случайный процесс.

Так вот, хорошо видно, что даже учёт корреляций длины 6 (то есть, предсказание появления седьмого символа по имеющимся шестёркам) совершенно не помогает описать такое регулярное появление пиков. Иными словами, в реальной последовательности порядок имеет характерный размер в десятки и сотни символов.

Пока же вопросов существенно больше, чем даже смутных представлений об ответах. В общем, самое время поднять тост за нарождение свежей науки на просторах Красноярья — гидродинамики геномов. Желающие выпивают стоя и предлагают любые объяснения наблюдаемых структур. Награда, не говоря о славе, гарантирована!

Михаил Садовский

Рекомендуем почитать