Российское «озеро данных» на пути к эксабайтам информации

Понедельник, 22 ноября 2021

НИЦ «Курчатовский институт» совместно с коллегами из Объединенного института ядерных исследований и Национальный исследовательский ядерный университет «МИФИ» ведет плотную работу по созданию российского «озера научных данных», которое востребовано в ряде исследовательских проектов, например, в физике высоких энергий, астрофизике и вычислительной биологии.

Работа (тогда это называлось «федеративные хранилища», а термин «озёра данных» появился позже) началась ещё в 2015 году. НИЦ «Курчатовский институт» проводил работы в сотрудничестве с CERN и DESY, поскольку оба этих научных центра активно занимались и продолжают заниматься развитием систем хранения для больших объемов научных данных.

Отличие российского проекта озера данных от аналогов и прототипов (INDIGO, DataCloud, GoogleDataOcean) состоит в использовании высокопроизводительных ресурсов хранения данных крупнейших российских научных центров, имеющих первый уровень в иерархии WLCG (Worldwide LHC Computing Grid - крупнейшая в мире географически распределенная инфраструктура, спроектированная в CERN и предназначенная для обработки больших объёмов данных, поступающих с LHC (Большой адронный коллайдер). К ним относятся ОИЯИ и НИЦ «Курчатовский институт», ориентированные на мультидисциплинарные научные исследования, что позволит продемонстрировать востребованность созданной инфраструктуры для работ не только в области физики, но и в биоинформатике, материаловедении и прочих наукоёмких областях.

Озеро может применяться и в коммерческих приложениях — например, для работы с данными географически распределенных корпораций, медицинских учреждений и пр. Для приложений физики высоких энергий узлы распределенного федеративного хранилища могут быть ассоциированы с российскими исследовательскими центрами и университетами, а само хранилище может выступать как часть глобальной федерации с CERN, DESY и GSI. Ключевое требование к узлам федеративного хранилища — наличие высокоскоростного сетевого соединения с глобальными научными сетями. Для научных приложений и ученых, участвующих в исследовательских проектах, данная инфраструктура выглядит как высокопроизводительная отказоустойчивая система хранения с единой точкой входа.

«Создание такого хранилища позволит отечественным научным центрам полноценно участвовать в общей распределенной обработке данных, избавив их от необходимости разворачивать и поддерживать собственное полнофункциональное хранилище, требующее регистрации в информационных системах научных коллабораций, - говорит руководитель Отдела информационно-вычислительных ресурсов и технологий НИЦ «Курчатовский институт» - ПИЯФ Андрей Кирьянов. - Сейчас необходимо регистрировать каждый отдельный сайт в международную инфраструктуру, независимо от его размера, а в новой модели предлагается регистрировать все озеро. Кроме того, каждому сайту необходим штат высококвалифицированных специалистов, разбирающихся в тонкостях организации программного стека различных научных коллабораций. Наличие отказоустойчивого федеративного хранилища упростит как предоставление, так и потребление ресурсов его участниками, позволит динамически перераспределять копии данных между всеми участниками федеративной системы хранения, минимизируя время доступа к данным без нарушения надежности».

Сейчас НИЦ «Курчатовский институт» - ПИЯФ, ОИЯИ и МИФИ предоставляют ресурсы для прототипа российского озера научных данных. Для работы озера данных необходима современная, очень высокоскоростная сетевая инфраструктура (скорости от 100 Гбит/с и выше). В НИЦ «Курчатовский институт» - ПИЯФ установлена одна из современнейших вычислительных установок – суперкомпьютер «Константинов», позволяющий развернуть среду, в которой для конечного пользователя распределённая вычислительная инфраструктура выглядит логически единой. На момент запуска в 2018 году суперкомпьютер в НИЦ «Курчатовский институт» - ПИЯФ входил в десятку лучших подобных систем в Российской Федерации. Вычислительные мощности Центра обработки данных нашего Института составляют более 270 Терафлопс, а совокупная ёмкость для хранения данных составляет 5 ПБ.

На ресурсах НИЦ «Курчатовский институт» - ПИЯФ развёрнуты такие элементы озера данных, как дисковые хранилища, система обработки данных, инструментарий для разностороннего тестирования, а также вся система мониторинга российского озера.

«Данная работа всё ещё находится в стадии «R&D», то есть находится на стадии прототипирования, а не внедрения готовой системы, однако направление очень перспективное, и Россия является одним из его пионеров, - подчеркивает А. Кирьянов. - В рамках именно НИЦ «Курчатовский институт» также планируется иметь своё «озеро данных» для объединения ресурсов хранения всех организаций Центра и обеспечения высокой доступности научных данных. Пилотные работы здесь проводятся между площадками Москвы и Гатчины».

Для справки.

В ближайшее время в научных исследованиях, в молекулярной биологии и биоинформатике (геномное секвенирование), в вычислительной нейробиологии и других будут накоплены экзабайты данных. При разработке модели управления, обработки и хранения таких объемов научных данных необходимо учитывать множество факторов — в частности, наличие и возможности высокоскоростных сетей, развитие микропроцессорных технологий и высокоплотных систем хранения. Фундаментальной проблемой является создание географически распределенной инфраструктуры — озера научных данных (Data Lake) на основе суперкомпьютерных центров, ресурсных центров высокопроизводительных вычислений и облачных ресурсов, — позволяющей развернуть среду, в которой для конечного пользователя вычислительная инфраструктура выглядит логически единой. До недавнего времени в качестве такой инфраструктуры использовалась иерархическая система на основе концепции Грид, которая неплохо подходила для работы с данными, имеющими объемы до десятков петабайт, однако для обработки, анализа и хранения экзабайтов результатов научных экспериментов требуются новые алгоритмы и приложения (возможно, на основе методов машинного обучения — например, для автоматического распределения данных между носителями), а также нереляционные базы данных для хранения метаинформации.

Чтобы нивелировать различия в архитектурных решениях вычислительных центров, нужна система управления потоками заданий на обработку и анализ данных. Кроме того, для инфраструктуры озера необходима система мониторинга и контроля, а также отслеживания функционирования распределенной вычислительной инфраструктуры с использованием классических методов визуальной аналитики. Глубокий анализ процессов функционирования распределенных вычислительных инфраструктур позволит осуществлять поиск возможных причин нестабильной работы различных вычислительных задач и принимать соответствующие оптимизационные решения. Для этого потребуется совместное применение методов статистического анализа, машинного обучения и интерактивной визуальной аналитики. В отслеживании возможных отказов и принятии превентивных мер по перераспределению ресурсов поможет моделирование процессов анализа и обработки.

Работы по созданию озер научных данных ведутся сегодня как в рамках международных (WLCG, Worldwide LHC ComputingGrid) и национальных проектов (IRIS-HEP, США; INDIGO, Италия/Германия), так и силами отдельных компаний (Google, Amazon, «Яндекс»).

Теги
фгбу пияф им. Б. П. Константинова Национальный исследовательский центр Курчатовский институт