Как победить корчеватель
Анти-спам для научного мира: создана программа, которая противостоит известной программе, генерирующей псевдо-научные тексты. Кто победит в этой «гонке вооружений»?
Все началось десять лет назад, когда три аспиранта из Массачусетского технологического института создали программу SCIGen, которая умела генерировать произвольные наукообразные статьи по компьютерной тематике. Как говорится, сбылась мечта всех ленивых студентов и научных работников – по одному клику мышки компьютер выдавал текст с графиками, схемами и даже списком литературы, который можно было сразу брать и отправлять в научный журнал или на конференцию. Стоит ли говорить, что смысла в таких статьях не было никакого, зато написано все это было вполне научным языком, который с первого взгляда можно вполне принять за серьезное исследование.
Авторы компьютерного кода вовсе не были ленивыми бездельниками, которые решили одним кликом увеличить число своих публикаций. Целью их программы было показать, что редакторы некоторых журналов, как и организаторы ряда конференций, сквозь пальцы смотрят на качество принимаемого материала. Для того, чтобы это продемонстрировать, наша троица выбрала один из понравившихся сгенерированных «текстов» и отправила его в качестве темы своего доклада на конференцию по информатике WMSCI в 2005 году.
Название этого шедевра в прямом смысле компьютерной мысли в русском переводе звучит примерно так: «корчеватель: алгоритм типичной унификации точек доступа и избыточности». Текст благополучно приняли, а авторов пригласили выступить на конференции с докладом про корчеватель. Таким образом, авторы SCIGen на наглядном примере показали, что если даже такой откровенный бред, как статью про корчеватель, можно при желании опубликовать, то чего уж говорить про качество ряда других научных статей. Свою программу аспиранты MIT снабдили инструкцией и выложили в сеть, после чего ей мог воспользоваться каждый желающий, каких, впрочем, нашлось немало. Корчеватель дотянулся и до отечественной научной публицистики. В сентябре 2008 года эта статья была опубликована в издании, которое входит в список научных журналов Министерства образования. В результате разразившегося скандала журнал лишился своего научного статуса.
Естественно, что ни одно уважающее себя издание не допустит появления у себя таких «статей». Для этого редакция тщательно проверяет всю информации в статье, вплоть до ссылок на используемые источники. Это большая и трудоемкая работа рецензентов, но именно она обеспечивает высокий рейтинг журнала и доверие читателей. Вот почему в научном мире столь ценится публикация статьи в таких журналах как Science или Nature, которые служат своеобразным эталоном качества научного исследования. Однако даже серьезные и авторитетные издательства, бывает, допускают ошибки. Например, такая известная издательская компания как Springer, выпускающая более 2000 научных журналов, в 2014 году нашла у себя 18 статей, которые были сгенерированы с помощью SCIgen. Этих троянских коней мира научной периодики немедленно удалили, но сама уязвимость никуда не делась. Вероятность, что по какой-нибудь причине «корчеватель» сможет проникнуть на страницы журналов, все равно осталось.
Проблемой занялся Кирилл Лаббэ из университета Джозефа Фурье в Гренобле. В течение нескольких лет он изучал то, как подобные псевдостатьи попадают на страницы изданий и как этому можно противостоять. Результатом его исследования стала программа SCIDetect – своеобразный спам-фильтр для научного мира. Разработанный им алгоритм позволяет по целому ряду признаков определить статью, написанную компьютером, а не человеком. И все-таки, почему приходится создавать одну компьютерную программу для борьбы с другой программой? Как вирусы и спам добрались до святая святых – науки?
Количество научных знаний о мире растет все быстрее и быстрее, а ученые становятся все более узкоспециализированными. Сейчас все меньше ученых может похвастаться энциклопедическими знаниями всего на свете, скорее это уже просто физически невозможно. Проблема уже не в том, что гуманитарии не понимают технарей. Даже химику уже все труднее понимать, чем же занимается его коллега из соседней лаборатории, если его исследования лежат в другой области. А у рецензентов в издательствах порой просто не хватает времени на то, чтобы досконально вникнуть в тему статьи. И вот тут и возрастает вероятность фатальной ошибки, когда такой научный с виду корчеватель выходит в печать, что приносит очень серьезный ущерб репутации издания. SCIDetect и похожие программы помогут снизить вероятность таких ошибок – подобно спам-фильтрам в почтовых клиентах. Правда возникает вполне закономерный вопрос – а как вычислить научную глупость, написанную человеком? Но это уже совсем другая история.
Фото: Richard Bott/Flickr, Nic McPhee/Flickr
По материалам Nature, Science и Springer.