Обучение без награды
Постоянные колебания нейромедиаторов помогают мозгу учиться даже тогда, когда его за это никто не поощряет.
Для обучения нужна мотивация, а что может мотивировать лучше, чем немедленная награда? Когда крыса находит выход из лабиринта, её ждёт сироп, или сладкая вода, или ещё что-нибудь вкусное; точно так же ставят эксперименты с птицами и обезьянами, когда их учат, например, искать сходства и различия в геометрических фигурах. Да что там обезьяны — детям вон тоже предлагают конфеты и прочее, когда хотят, чтобы они что-нибудь выучили.
Но ведь нельзя сказать, что наша память всегда работает с внешними наградами. Мы запоминаем массу всего без постоянного угощения и даже без постоянной словесной похвалы. Конечно, мы осознаём, что когда-нибудь потом выученное нам пригодится, но это совсем не немедленная награда, которая стимулирует мотивацию здесь и сейчас. И вот сотрудники Нью-Йоркского университета и Пекинского университета решили выяснить, как мозг может учиться без немедленной награды. Тут нужно вспомнить, что награда даёт нам удовольствие, и это ощущение удовольствия обслуживает знаменитая система подкрепления, или система вознаграждения, — комплекс мозговых центров, использующих для общения друг с другом нейромедиатор дофамин. Собственно, система подкрепления сопровождает не столько само удовольствие, сколько предвкушение того, что мы получим нечто приятное за выполнение определённых действий — поэтому и говорят, что система подкрепления управляет мотивацией и что она необходима для обучения.
Но в этой схеме не хватает ещё одного нейромедиатора, ацетилхолина. Давно известно, что дофамин с ацетилхолином меняются в противофазе: удовольствие от награды сопровождается всплеском дофамина и падением ацетилхолина. Эксперименты ставили с мышами, которые бегали в беличьем колесе и время от времени получали награду в виде воды. С наградой у мышей случался всплеск дофамина и падение ацетилхолина. Однако исследователи наблюдали за нейромедиаторами не только во время получения награды. В статье в Nature говорится, что оба нейромедиатора вообще всё время колеблются. И дофамина, и ацетилхолина всё время становится то больше, то меньше, независимо от того, была ли награда или нет, бежала мышь в колесе или отдыхала, и такие колебания происходят с частотой два раза в секунду. Награда делает увеличение одного из них и уменьшение другого более явным. Однако ввиду постоянных противофазных колебаний обоих нейромедиаторов в мозге всё время сохраняется возможность что-нибудь выучить — по крайней мере, если смотреть на процесс обучения с точки зрения системы мотивации и подкрепления. Вероятно, это можно сравнить с тем, как если бы мозг сам себе два раза в секунду выдавал небольшую награду (хотя за корректность сравнения мы не ручаемся).
Исследователи анализировали колебания нейромедиаторов в полосатом теле, или стриатуме, — одном из центров системы подкрепления. Возможно, было бы интересно посмотреть, есть ли где ещё такие же колебания «мотивационных» нейромедиаторов, и как зависит работа памяти от их частоты и амплитуды: то есть если их ускорить, или замедлить, или изменить амплитуду (но чтобы без внешней награды) — повлияет ли это на эффективность запоминания? Вполне вероятно, что проблемы с обучением и запоминанием, которые возникают как у здоровых людей, так и у тех, кто страдает от психоневрологических расстройств, происходят от аномалий в колебаниях дофамина и ацетилхолина.
В конце января мы писали, что дофаминовые всплески делают поведение одновременно более разнообразным и более привычным; или, иными словами, дофамин побуждает к случайным действиям, одновременно закрепляя их в поведении. Тогда речь шла о нерегулярных всплесках, и уровень дофамина анализировали без других нейромедиаторов-«напарников». Но, вообще говоря, подобные исследования заставляют лишний раз задуматься о том, что роль дофамина, да и вообще любого нейромедиатора намного разнообразнее, чем может показаться, и что вряд ли стоит сводить мало-мальски сложные когнитивные функции к какой-нибудь одной нейромолекуле.