Яндекс будет помогать ЦЕРН искать новую физику
2 июля 2014 года в московском офисе Яндекса прошел семинар, посвящённый новому эксперименту ЦЕРН, для которого Яндекс планирует предоставить свои технологии обработки данных.
На семинаре выступил Андрей Голутвин, профессор Имперского колледжа Лондона, научный консультант директора ЦЕРН и один из инициаторов нового проекта SHiP (Search for Hidden Particles – «поиск скрытых частиц»). Он рассказал о подготовке технического предложения по данному проекту и о его задачах.
Открытие бозона Хиггса, за который была вручена Нобелевская премия 2013 года, подтвердило успешность Стандартной Модели (СМ) как основной теории физики микромира и завершило ее построение. Тем не менее, существует несколько проблем, которые эта теория объяснить не может. Это наличие масс у нейтрино и их взаимные превращения (осцилляции), существование темной материи (в СМ нет кандидата на роль частицы темной материи) и отсутствие антиматерии во Вселенной. Решение этих задач принято называть поиском новой физики.
Один из вариантов решения этих проблем, не нарушающий подхода СМ, – введение еще трех фундаментальных элементарных частиц, так называемых майорановских нейтрино (майорановских фермионов, тяжелых лептонов). Именно на поиск этих еще не открытых частиц и нацелен новый эксперимент, предложенный коллективом физиков в 2013 году. Решение о его реализации должно быть принято в 2015 году.
Ожидается, что события, связанные с этими частицами в эксперименте, будут крайне редкими. Как отметил Голутвин, если повезет, то из 1020 событий будет 5-10 искомых. Такое малое количество полезных событий предъявляет очень большие требования к организации их поиска, который невозможен без компьютерной обработки данных. Компьютерная обработка данных играет в подобном эксперименте не менее важную роль, чем используемая техника и приборы. Она экономит время, ресурсы и позволяют сделать результаты более точными и надежными.
Яндекс, уже имеющий опыт работы с ЦЕРН, предложил для этой цели свои технологии обработки данных, о которых рассказал руководитель группы академических проектов Яндекса Андрей Устюжанин.
Создание эффективной и масштабируемой модели хранения, обработки и анализа данных для нужд такого эксперимента — очень сложная задача, требующая уникального сочетания навыков и знаний из разных областей: фундаментальной науки, инженерии данных, распределённых систем и программирования. Ведь необходимо обрабатывать огромные объемы данных, в том числе и в реальном времени, получать воспроизводимые результаты, причем должна быть возможность легко менять набор параметров и критериев по которым производится анализ, а также критериев качества. Кроме того, все это должно быть доступно всем исследователям. Андрей Устюжанин назвал это «Экосистемой для экспериментов». Очень важной является и задача сохранения данных эксперимента и анализа в репозитории для возможности повторения обработки, возможно впоследствии на новом уровне. О том, что часто существует проблема повторения обработки для проверки, подчеркнули оба докладчика. Для решения поставленных задач возможно использование GRID и облачных технологий.
Традиционно для поиска нужных событий используется наложение ограничений на характеристики событий, например, на импульс, поперечный импульс, углы и т.п. Таких характеристик довольно много, поэтому для очень редких событий, когда просматривается очень большой объем данных, эта методика не совсем хорошо работает, поскольку все равно в заданную область попадает слишком много лишних событий. Поэтому Яндекс предлагает использовать для поиска этих событий свою технологию машинного обучения «Матрикснет», способную научить машину распознавать нужные события. Для этого с помощью группы физиков необходимо разработать специальные симуляторы, которые будут генерировать достаточное для обучения количество событий нужного вида.
Новый метод машинного обучения «Матрикснет» Яндекс внедрил в свою поисковую систему еще в 2009 году. Важная особенность этого метода в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования и их комбинаций и при этом не опасаться, что машина найдет несуществующие закономерности. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать очень точный поиск.
Сотрудничество Яндекса и ЦЕРН началось в 2011 году, когда Яндекс предоставил ЦЕРН свои сервера. В первом квартале 2012 года вычислительные ресурсы Яндекса составили 13% от объема вычислительных мощностей, используемых в рамках одного из четырех основных экспериментов ЦЕРН – Large Hadron Collider beauty experiment (LHCb). Это эксперимент по изучению частиц, содержащих b-кварк (так называемый «прелестный» кварк, от англ. «beauty»). С апреля 2012 года Яндекс подключился к работе над этим проектом. В эксперименте порождается 107 событий в секунду, что даже после отбрасывания большинства из них дает до 1010 событий в год, которые записываются для дальнейших исследований. Объем накопленной только за один год информации может составлять тысячи терабайт, и ориентироваться в таком массиве данных довольно сложно. Для удобной работы с ними Яндекс создал поисковый индекс и запустил поиск по событиям. В ЦЕРН по достоинству оценили предложенный Яндексом сервис.
С января 2013 Яндекс стал ассоциированным членом европейского Центра ядерных исследований в рамках проекта «CERN openlab», а у учёных из ЦЕРНа появился доступ к технологии машинного обучения «Матрикснет» и новым вычислительным мощностям.
Стоит отметить, что Яндекс собирается использовать разработанные совместно с физиками технологии и в других сферах.
По материалам yandex.ru и видеоконференции научно-технического семинара.