№01 январь 2025

Портал функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций.

Лингвистика и математика

Н. Рычкова

Академик Андрей Николаевич Колмогоров рассказывает о применении математических методов для изучения письменных текстов.
Текст для угадывания. Он взят из «Литературного вечера» А. И. Гончарова. Закрыв таблицу с продолжением фразы, вы можете предложить кому-либо познакомиться с началом текста, а затем буква за буквой угадать его продолжение. В случае отказа от угадывания очередной буквы ее следует сообщить. В таблице тире означает пробел между словами, который также считается за букву, а знак вопроса - отказ от угадывания.

     Возможно ли изучать литературные произведения с помощью математических методов? Если да, то как проводятся такого рода исследования? Академик А. Н. Колмогоров и младший научный сотрудник кафедры теории вероятностей МГУ Н. Г. Рычкова, выступая перед писателями в Центральном доме литераторов, дали интересные и неожиданные ответы на эти вопросы.

     В любом языке буквы слов не идут в произвольном порядке, а чередуются с последовательностью, подчиняющейся определенным закономерностям. Так, после согласной нередко идет гласная, после двух-трех гласных почти наверняка можно встретить согласную и т. д.

     Если взять 25 русских букв и, переставляя их в различном порядке, составлять из них всевозможные строчки текста длиною в 25 букв (примерная длина строки в «Евгении Онегине» Пушкина), то таких строчек можно будет получить колоссально много - около 1037,5. Но далеко не все они будут иметь смысл, то есть выражать понятия, встречающиеся в русском языке. Математики подсчитали, что только 1010 строчек из 25 букв будут осмысленными. Но и это очень большое число. Однако если наложить какие-либо дополнительные ограничения, например, потребовать, чтобы строчки были написаны четырехстопным ямбом, как в «Евгении Онегине», то возможных вариантов будет еще меньше. Меньше, но опять таки настолько много, что автор «Евгения Онегина» в своем романе в стихах далеко не использовал всех имеющихся возможностей.

     Работы математиков по изучению письменных текстов показали, что в каждом языке существует определенная мера разнообразия возможных осмысленных выражений. Она получила название энтропии.

     Эта характеристика языка имеет важное значение при расчете различных каналов связи, по которым передаются устные или письменные сообщения. Один из методов вычисления энтропии предложил американский ученый К. Шеннон. Недавно известный советский математик академик А. Н. Колмогоров разработал более простой и точный метод ее нахождения. Этот метод очень интересен и носит характер увлекательной игры.

     Представьте себе, что перед вами лежит незнакомая или очень давно прочитанная книга. Вы внимательно читаете ее от начала до какой-нибудь наугад выбранной страницы, стараясь не только запомнить имена городов и ход событий, но и вникнуть в особенности стиля автора, обратить внимание на слова и обороты, которые у него часто встречаются, и т.д. Затем текст закрывается, и вам предлагают попытаться угадать букву за буквой следующий дальше кусочек текста длиной в 50 - 100 букв, то есть примерно одно предложение. Дальше вы снова читаете текст до какого-нибудь места и снова угадываете небольшой его отрывок. И так до тех пор, пока не наберется 500 угаданных вами букв. Было проверено, что по 500 буквам уже можно судить, о результатах опыта и, конечно, о ваших способностях к угадыванию. Каждый раз, когда предстоит угадывать неизвестную букву текста, вы можете назвать ее «не очень уверенно». Так следует поступить, когда у вас возникает какое-то продолжение текста, кажущееся осмысленным, но вы не можете быть слишком уверены, что и автор текста написал то же самое. Обычно так бывает, если известны одна-две буквы слова и вы догадываетесь, о чем должна идти речь. Если, например, проводится опыт с текстом Аксакова «Детские годы Багрова-внука» и вы, прочтя описание отношений в семье, захотите, очевидно, в предложении Я НИЧЕГО НЕ СКРЫВАЛ ОТ М... поставить дальше букву А, имея при этом в виду ОТ МАТЕРИ, или, может быть, ОТ МАТУШКИ, ОТ МАМЫ. Но ведь в самом деле в тексте могло еще стоять и ОТ МОЕЙ МАТЕРИ или даже от МОЕГО ОТЦА, и тогда правильным ответом было бы О, а не А.

     Другая возможность - назвать букву «вполне уверенно». Так вы можете поступить, когда слово известно вам уже почти целиком, осталось только угадать его окончание, что легко сделать, учитывая согласование слов. Например, в сочетании КОТОРОГ вряд ли вы можете предложить после буквы Г что-нибудь иное, кроме О.

    Вот тогда вы и предлагаете «вполне уверенно». Но не нужно думать, что в подобном случае вы никогда не промахнетесь.

     Нередко угадывающие, входя в азарт, бывают «вполне уверены» гораздо чаще, чем это на самом деле необходимо, и не всегда могут правильно оценить возможности появления той или иной буквы и потому ошибаются. Например, в опытах, которые мы проводили, большинство угадывающих в предложении ДОРОГОЙ, ПОЧУВСТВОВАЛ Я СЕБЯ ТАК ДУРНО... дальше с уверенностью предлагали букву Ч, имея в виду ЧТО, и ошибались, потому что на самом деле у Аксакова далее идет ТАК Я ОСЛАБЕЛ, и уже только потом - ЧТО ПРИШЛОСЬ ОСТАНОВИТЬ ЛОШАДЕЙ.

     Угадывающий имеет еще третью возможность назвать несколько букв на выбор.

     Так следует поступить, когда у вас возникает несколько разных продолжений текста.

     Это можно сделать как «не очень уверенно», так и «вполне уверенно». «Вполне уверенно» мы советуем называть несколько букв, если вы перечисляете окончания слова и уверены, что сумели перечислить все.

     Например, в сочетании ГРИГОРИ следует предложить с большой уверенностью пять букв И, Й, Я, Ю, Е. Других окончаний в этом случае быть не может. На самом деле так много букв обычно перечислять не приходится, так как из текста бывает ясно, что некоторые из них заведомо не могут стоять в предложении.

     Последняя возможность - отказаться от угадывания какой-нибудь буквы. Так чаще всего приходится поступать, когда одно слово угадано до конца, а следующее еще не начато и у вас нет никаких соображений в пользу какой-нибудь, определенной буквы.

     Что вы можете предложить, например, после точки, в начале новой фразы? Не забывайте, что автор текста не вы, и в этом случае лучше отказаться от угадывания первой буквы. Ведущий опыт сообщит ее вам, и дальше вы будете продолжать угадывать текст букву за буквой.

     Результаты опыта по угадыванию записываются в таблички, где для каждой буквы отведено три клетки. Ведущий опыт пишет букву в верхней строке, если вы назвали ее «вполне уверенно», в средней строке, если - «не очень уверенно», а в нижней строке записывает истинный текст.

     При угадывании можно пользоваться любыми словарями, как орфографическими - для того, чтобы избежать ошибок из-за неправильного написания правильно отгаданного слова, так и энциклопедическими, если они вам потребуются. Представьте, что вы встретили в тексте слова МНЕ ДАЛИ ВЫПИТЬ РИМ... Вам предстоит угадывать, какая буква идет дальше, и у вас нет никакого разумного продолжения сочетания РИМ, кроме РИМСКИЙ, но вы не можете себе представить, чтобы его можно было выпить.

     Тогда можно взять словарь и посмотреть, нет ли еще каких-нибудь слов с таким началом. Оказывается, нет. Приходится называть букву С, да еще «вполне уверенно».

     И действительно, Аксаков пишет РИМСКОЙ РОМАШКИ, имея в виду лекарственный настой, об употреблении которого мы, привыкнув к современным лекарствам, давно забыли.

     Весь опыт устроен так, что угадывающему не приходится задумываться над тем, как сумеют математики из такой увлекательной игры получить цифры, характеризующие энтропию текста. Но об этом помнит математик, ведущий опыт. Он занят не только тем, что записывает ответы и сообщает вам об их правильности или ошибочности, но и по разработанной заранее схеме начисляет вам «штраф» за каждый промах. И чем увереннее вы были в том, что не можете ошибиться, тем больше вам придется «заплатить» за такую уверенность.

     Поставив опыты с разными текстами и в достаточном количестве, чтобы добиться повторяемости результатов, можно сделать выводы об энтропии текстов разных авторов, художественных и научных текстов, описаний и диалогов, стихов и других форм языка.

Читайте в любое время

Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее