Человеческому геному добавляют подробностей
Новая порция здоровых геномов из разных частей света помогает представить геном человека во всём многообразии его вариантов.
Геном человека прочитали к 2004 году. Но и после 2004 года время от времени появлялись сообщения, что геном прочитали «ещё лучше». Мы знаем, что в 2004 остались непрочитанными около 200 млн нуклеотидов — вот их-то и старались дочитать. В 2020 году мы рассказывали о дочитанной X-хромосоме, а в прошлом году были закрыты уже все белые пятна человеческого генома — его прочитали до конца.
Но вот сейчас сразу в нескольких журналах — Nature, Genome Research, Nature Biotechnology и Nature Methods — выходят статьи, сообщающие о свежих подробностях, которые удалось извлечь из генома человека. О каких подробностях речь, геном ведь дочитали? Тут нужно представить себе, что называют прочитанным геномом. Например, мы взяли ДНК у какого-то организма и прочли его. Организм был здоров, то есть в его ДНК мы не найдём никаких аномалий, которые делали бы его предрасположенным к хроническим болезням. Но даже у здоровых организмов — мух, мышей, людей, кого угодно — в ДНК есть индивидуальные отличия. У нас они составляют около 0,4%. То есть если взять двух любых людей и сравнить их геномы, то примерно 0,4% всей ДНК-последовательности у них будут отличаться. Поэтому когда говорят о прочитанном геноме, имеют в виду референсный геном. Он не соответствует никакой индивидуальной ДНК — это массив данных, в котором записаны варианты последовательностей в том или ином фрагменте генома многих людей.
Поскольку все люди разные, можно подумать, что для референсного генома нужно прочесть ДНК всех людей на земле. Но так думать не нужно. Наши индивидуальные отличия — видны хотя бы по внешности — действительно бесконечно разнообразны, но они складываются из вариантов, которые встречаются в конкретных генах (точнее, конкретных участках генома). А когда речь идёт о конкретных последовательностях, то вариантов у них уже может быть немного. Например, возьмём какой-нибудь ген, который, как и любые другие гены, составлен последовательностью четырёх генетических букв — азотистых оснований ДНК. Буквы могут меняться одна на другую, но, во-первых, букв всего четыре, а во-вторых, если мы говорим о здоровых вариантах гена, то далеко не во всей последовательности они могут варьировать. Кое-где замены приведут к такому варианту гена, с которым человек просто не выживет. То же самое касается других мутаций, когда в гене появляются вставки небольших последовательностей, выпадения, обращения и т. д.
Но, так или иначе, чтобы поймать здоровые вариации человеческого генома, нужна ДНК не от одного человека, а от нескольких. На самом деле, эту работу ведут давно, и референсный геном человека у нас есть. Но возникает другой вопрос — насколько полон наш референсный геном? Для его создания использовали ДНК более шестидесяти человек, но их ДНК брали для того, чтобы увидеть вариации в конкретных зонах генома. То есть, можно сказать, что в каких-то местах референсный геном был очень референсным, а в каких-то не очень. Такая частичная референсность генома связана во многом с тем, у кого брали ДНК, а брали её у людей преимущественно европейского происхождения. И если мы хотим увидеть здоровый геном во всём его разнообразии, нужна ДНК разных этнических групп. Дело не в разнообразии как таковом, а в том, что народы перемешиваются, и чем дальше, тем активнее, и у конкретного человека в геноме могут оказаться варианты с противоположных концов мира. Теперь представим, что такой человек захочет оценить генетическую вероятность заболеть чем-то хроническим. У него в соответствующем гене видят некие вариации, но как их оценить? Как нечто, имеющее отношение к болезни, или это просто этнические варианты, вполне здоровые?
Другая причина неполной референсности заключалась в технических ограничениях. ДНК от начала до конца за один раз никто не читает (секвенирует). Её дробят на много коротких отрезков, читают их, а потом с помощью сложных алгоритмов определяют, где какой отрезок стоит в хромосоме. Понятно, что отрезки получаются отчасти перекрывающиеся друг с другом, либо вообще неперекрывающиеся, и все перекрытия видны в последовательности самих отрезков. Однако в геноме есть длинные повторяющиеся куски. Как получаются такие дупликации, мы обсуждать сейчас не будем, нам важно то, что их довольно трудно правильно прочесть. Например, где-то в геноме какая-то область удвоилась (дуплицировалась), и с тех пор в одной копии появились небольшие отличий от другой. Но чтобы отличить обе копии друг от друга, каждую из них нужно прочесть за раз без разрывов, без разрезания на маленькие фрагменты. Если мы их разрежем, то у нас на руках будут последовательности с вариациями, но все вариации мы припишем одной и той же геномной области. Обе копии в момент сборки генома сольются в одну, а так быть не должно.
Но читать непрерывно длинные куски генома до поры до времени было просто технически невозможно. Сейчас такие возможности появились, и как раз благодаря «длинному чтению» удалось дочитать геном до конца, о чём мы писали в прошлом году. Соответственно, удалось увидеть вариации в повторах, добавив человеческому геному референсности. Генетический материал дали сорок семь человек с разных континентов и частей света. Точность референсного генома стала выше — стали видны вариации, относящиеся к разным удвоенным участкам ДНК. Попутно в хромосомах обнаружились признаки эволюционных процессов, которые идут прямо сейчас.
Во-первых, это касается так называемых акроцентричных хромосом — тринадцатой, четырнадцатой, пятнадцатой, двадцать первой и двадцать второй. Акроцентричные они потому, что центромера сильно смещена к одному концу. Хромосомы обычно рисуют как палочку из двух частей, соединённых кружочком. Кружочек — это центромера, за которую хромосому оттаскивают в дочернюю клетку при клеточном делении, а две её части — это хромосомные плечи. У акроцентричных хромосом одно плечо очень длинное, а другое очень короткое. Про короткие плечи было известно, что в них записано множество копий генов, кодирующих рибосомные РНК. (Рибосомами называют большие молекулярные машины для синтеза белка, они состоят из рибосомных белков и рибосомных РНК.) Причём разные, то есть негомологичные, акроцентричные хромосомы могут обмениваться кусками коротких плечей: например, пятнадцатая может обменяться куском плеча с двадцать первой. Это не совсем обычный обмен, потому что обычно обмениваются кусками ДНК между собой гомологичные хромосомы, у которых совпадает номер. То есть материнский вариант тринадцатой хромосомы обменивается материалом с отцовским вариантом той же тринадцатой хромосомы.
В «разнономерных», то есть негомологичных, акроцентричных хромосомах видны последовательности, по которым они временно рвутся, чтобы обменяться друг с другом фрагментом короткого плеча. И последовательности для разрыва оказались на удивление одинаковыми у разных людей. Авторы работы полагают, что такие обмены нужны, чтобы поддерживать работу белок-синтезирующего аппарата в клетке (напомним, что многие его гены сидят именно в коротких плечах), чтобы он продолжал нормально работать из поколения в поколение. Однако у такого обмена есть побочный эффект — две «разнономерные», то есть негомологичные, хромосомы могут случайно слиться в одну. А это уже хромосомная аномалия, которая нередко приводит к аномалиям развития. Однако преимущества от нестандартного хромосомного обмена информацией, вероятно, перевешивают минусы от возможных хромосомных аномалий.
Если взять несколько нормальных, здоровых геномов (соответствующих линиям разного цвета), то мы увидим, что они могут отличаться в одних и тех же участках по одной, двум, а то целой группе букв, которые могли быть заменены на другие, удвоиться несколько раз или вообще выпасть из ДНК. (Иллюстрация: National Human Genome Research Institute)
Другой важный результат, касающийся эволюции человека, связан с удвоенными генами. Исследователи выяснили, что несколько десятков таких генов мало менялись после удвоения — хотя обычно вторая копия становится эволюционным испытательным полигоном, накапливая мутации и меняя функции. Тем не менее у человека нашлись гены, мутации в которых даже после их удвоения были нежелательны, и гены эти оказались связаны с увеличением мозга. Можно представить, что когда естественный отбор начал благоприятствовать разрастанию мозга у наших предков, то от их генома потребовалось усилить работу некоторых генов, но не менять их сущность — то есть генов должно было стать больше, но выполнять они должны были ту же самую работу, что и прежде.
Впрочем, со смелыми выводами всё-таки лучше подождать, потому что проект «референсизации» человеческого генома ещё не закончен. Международный исследовательский консорциум, который этим занимается, собирается к середине следующего года довести число прочитанных геномов до 350. Вероятно, тогда и можно будет говорить о том, что мы поймали все возможные варианты здорового человеческого генома и теперь вольны рассуждать о самых разных пертурбациях, которые происходили с ним на протяжении эволюции человека как биологического вида.