Нобелевскую премию по химии дали за предсказание белковых структур
Алгоритмы искусственного интеллекта позволяют как расшифровать трёхмерные структуры всех известных белков, так и создавать новые белки, не существующие в природе.
Белки состоят из аминокислот, последовательно соединённых друг с другом в полипептидную цепь. Для простоты её в самом деле рисуют как ровную цепь, но на самом деле ни одна полипептидная цепь не существует в виде ровной нити. Как минимум, она вся будет зигзагообразной, а вообще, если говорить о белках, которые плавают в клеточной цитоплазме, или торчат рецепторами на клеточной мембране, или выходят из клетки наружу и там с наружи связывают и расщепляют какие-то вещества – если говорить о таких белках, то все они выглядят как клубки неправильной формы, с выпуклостями, вогнутостями, округлыми отростками и пр. Выглядят они так потому, что их аминокислоты мало того, что соединены в цепь, они ещё дополнительно взаимодействуют друг с другом и окружающей средой. Они притягиваются, отталкиваются, сшиваются дополнительными ковалентными связями. Всё это происходит не только между более-менее соседними аминокислотами, но и между теми, которые по положению в полипептидной цепи отстоят друг от друга довольно далеко.
Белоксинтезирующий аппарат создаёт полипептидную цепь постепенно, аминокислота за аминокислотой. Но ещё до того, как белок будет полностью синтезирован, он уже начинает складываться в пространственные структуры. Работать белок начинает, когда он уже полностью и правильным образом свёрнут; если его пространственную конфигурацию нарушить, белок станет нефункциональным. Иными словами, если мы хотим узнать, как функционирует белок, мы должны знать его трёхмерный портрет. Тут можно воспользоваться рентгеноструктурными методами, которые определяют трёхмерную структуру из взаимодействия рентгеновских лучей с кристаллом белка. Первую белковую (гемоглобиновую) структуру таким способом получили Джон Кендрю и Макс Перуц, удостоенные за свои исследования Нобелевской премии по химии в 1962 году. Другие методы, позволяющие экспериментально изучать структуру белков, используют ядерно-магнитный резонанс. Однако такие исследования весьма хлопотны, не говоря уже о том, что далеко не все белки им поддаются.
Другой способ – попробовать предсказать структуру белка по последовательности аминокислот. То, что трёхмерную структуру белка определяет его последовательность аминокислот (естественно, с учётом раствора, в котором белок плавает) показал Кристиан Бемер Анфинсен, получивший за это Нобелевскую премию по химии в 1972 г. Дальнейшие исследования показали, как белку удаётся очень, очень быстро свернуться в одну-единственную правильную форму, не тратя время на всевозможные другие конфигурации. Аминокислотная последовательность каждого белка зашифрована в ДНК, и со временем, когда методы чтения ДНК стали достаточно дёшевы и быстры, в молекулярной биологии появилось огромное количество аминокислотных последовательностей, про которые не было известно, какова их пространственная форма. Стали появляться и алгоритмы, которые пытались по взаимодействию аминокислот определить трёхмерную структуру белка. Специалисты по фолдингу (сворачиванию) белка начали проводить ежегодные соревнования между такими алгоритмами. Среди них были более успешные, были менее успешные; точность предсказаний постепенно росла, но абсолютного чемпиона, который мог бы достоверно определить пространственную структуру по любой последовательности аминокислот, всё никак не появлялось.
И тут в 2018 г. на сцену вышла программа AlphaFold, разработанная в компании Google DeepMind. На самом деле, всё, о чём мы сейчас говорим, рассказывалось в статье «Искусственный интеллект для физики белка» в январском номере журнала. В ней история AlphaFold’а, принципе его работы, его плюсы и минусы разобраны достаточно подробно, так что сейчас мы просто напомним основные моменты. В числе основателей компании DeepMind был Демис Хассабис (Demis Hassabis) специалист в области вычислительной нейробиологии и один из трёх нынешних лауреатов Нобелевской премии по химии. В 2018 г. DeepMind уже был в составе Google, и первый вариант программы AlphaFold предсказывал структуры белков в среднем на 20% точнее, чем другие алгоритмы, но пока ещё недостаточно точно, чтобы на его результаты можно было смело опираться в других исследованиях. Программу удалось значительно улучшить благодаря Джону Джамперу (John Jumper), специалисту в физике белка и второму лауреату. Новый вариант, AlphaFold2, продемонстрировавший свои умения в 2020 г., предсказывал пространственные структуры в большинстве случаев почти с той же точностью, как они получались в рентгеноструктурном анализе.
AlphaFold – это нейросеть, прошедшая глубокое обучение на известных пространственных структурах белков. Если говорить совсем в двух словах, то AlphaFold (а также AlphaFold2 и его новейшая версия AlphaFold3) сопоставляет аминокислотные последовательности и пространственные структуры, оценивая, в каких элементах структуры с наибольшей вероятностью оказывается та или иная аминокислота, или две аминокислоты, или три, или четыре, и т. д. Физическими взаимодействиями между атомами AlphaFold не интересуется, ему нужно только множество контекстов разного масштаба. Отчасти это схоже с тем, как языковой бот на основании огромного числа текстов подбирает для слова «окно» слово «стеклянное» – такое прилагательное с больше вероятностью встречается вместе с «окном», нежели, к примеру, прилагательное «шерстяное». Точностью предсказаний AlphaFold обязан тому, что на сегодняшний день накопилось уже достаточно много белковых структур, описанных экспериментально, вместе с их аминокислотными последовательностями. Возникни AlphaFold в 70-е – 80-е, когда трёхмерных структур было мало, его результаты были бы весьма невыразительными. Но, как бы то ни было, сейчас благодаря AlphaFold’у у молекулярных биологов есть трёхмерные портреты почти всех двухсот миллионов известных белков, что открывает новые возможности как для фундаментальных, так и для практических исследований.
Один из белков Бейкера создан так, чтобы его молекулы (числом до 120) слипались друг с другом в новую пространственную структуру со свойствами наночастицы. (Иллюстрация: Terezia Kovalova/The Royal Swedish Academy of Sciences)
Третий лауреат, Дэвид Бейкер (David Baker), тоже какое-то время занимался предсказанием белковых структур, но премию ему дали за другое – за создание новых белков. Если функция определяется пространственной структурой, а структура – последовательностью аминокислот, то можно подогнать последовательность под новую функцию. Эту задачу можно решать разными способами: можно использовать эволюционный подход (Нобелевская премия по химии 2018 года), а можно использовать предсказательные алгоритмы, только в другую сторону. Бейкер взял программу Rosetta, которую сам создал для предсказаний белковых структур, и с её помощью начал собирать новый белок под сочинённую структуру. Программа подбирала куски последовательностей из других белков и согласовывала их так, чтобы молекула могла физически существовать. (В данном случае алгоритм работал как раз с физическими взаимодействиями между аминокислотами.)
В итоге получился белок Top7. Его последовательность зашифровали в ДНК, ДНК ввели бактерии, которая его синтезировала. Потом Top7 очистили из бактериальных клеток и сделали рентгеноструктурный анализ – структура белка оказалась ровно такой, какой её сделали теоретически. Стоит добавить, что структур, подобной Top7, в природе нет; кроме того, с его 93 аминокислотами Top7 стал самым большим белком из всех, которые пытались создавать с нуля к тому времени. «То время» – это 2003 год, когда Бейкер опубликовал свой Top7; с тех пор появился ещё целый ряд белков, созданных таким же образом, то есть подбором аминокислотной последовательности под желаемую структуру. Поскольку большое число лекарств нацелены на белки, или сами являются белками, то вполне понятно, какие возможные перспективы открываются для такого метода.
Слева направо: Джон Бейкер, Демис Хассабис, Джон Джампер. (Фото: BBVA Foundation)