Российское «озеро данных» на пути к эксабайтам информации

Об институте
Сегодня НИЦ «Курчатовский Институт» - ПИЯФ - это современный исследовательский центр на Северо-Западе России, реализующий целый кластер инновационных проектов в области ядерной физики и энергетики.
50 лет
В 1971 году филиал Физико-технического института им. А.Ф. Иоффе РАН в Гатчине получил статус самостоятельного научного учреждения - Ленинградского института ядерной физики им. Б.П. Константинова, ныне НИЦ "Курчатовский институт" - ПИЯФ.
Структура
НИЦ КИ
НИЦ “Курчатовский институт” создан как один из базовых элементов научной инфраструктуры для модернизации экономики страны и достижения научных прорывов в приоритетных областях науки и технологий.

С 25 апреля 2017 года в состав Центра входят 7 ведущих научно-исследовательских Институтов. В том числе ФГБУ "Петербургский институт ядерной физики им. Б.П. Константинова"
Установки
НИЦ «Курчатовский институт» - ПИЯФ обладает широкой ресурсной базой для проведения фундаментальных и прикладных исследований в области ядерной физики, физики конденсированного состояния.

В настоящий момент в институте действуют 4 базовых установки: реактор ВВР-М, реактор ПИК, Синхроциклотрон СЦ-1000 и Циклотрон Ц 80.
Наука и образование
В сотрудничестве с нашим научно-исследовательским институтом реализуется множество учебных программ для высших учебных заведений
- Препринты
- Конкурс научных работ
Пресс-центр
Уважаемые представители новостных СМИ и Блогов, пресс-центр НИЦ «Курчатовский Институт» - ПИЯФ заинтересован во всестороннем и объективном освещении результатов деятельности Института и готов оказать содействие.
- 80 лет снятия блокады Ленинграда
Контакты
Федеральное государственное бюджетное учреждение «Петербургский институт ядерной физики им. Б.П. Константинова Национального исследовательского центра «Курчатовский институт»

Адрес:
Россия, 188300, Ленинградская обл.,
г.Гатчина, мкр. Орлова роща, д. 1, НИЦ «Курчатовский Институт» - ПИЯФ
Тел.: +7 (81371) 4-60-25, +7 (81371) 4-60-47 Факс: +7 (81371) 3-60-25 E-mail: dir@pnpi.nrcki.ru

Российское «озеро данных» на пути к эксабайтам информации

Понедельник, 22 ноября 2021

НИЦ «Курчатовский институт» совместно с коллегами из Объединенного института ядерных исследований и Национальный исследовательский ядерный университет «МИФИ» ведет плотную работу по созданию российского «озера научных данных», которое востребовано в ряде исследовательских проектов, например, в физике высоких энергий, астрофизике и вычислительной биологии.

Работа (тогда это называлось «федеративные хранилища», а термин «озёра данных» появился позже) началась ещё в 2015 году. НИЦ «Курчатовский институт» проводил работы в сотрудничестве с CERN и DESY, поскольку оба этих научных центра активно занимались и продолжают заниматься развитием систем хранения для больших объемов научных данных.

Отличие российского проекта озера данных от аналогов и прототипов (INDIGO, DataCloud, GoogleDataOcean) состоит в использовании высокопроизводительных ресурсов хранения данных крупнейших российских научных центров, имеющих первый уровень в иерархии WLCG (Worldwide LHC Computing Grid - крупнейшая в мире географически распределенная инфраструктура, спроектированная в CERN и предназначенная для обработки больших объёмов данных, поступающих с LHC (Большой адронный коллайдер). К ним относятся ОИЯИ и НИЦ «Курчатовский институт», ориентированные на мультидисциплинарные научные исследования, что позволит продемонстрировать востребованность созданной инфраструктуры для работ не только в области физики, но и в биоинформатике, материаловедении и прочих наукоёмких областях.

Озеро может применяться и в коммерческих приложениях — например, для работы с данными географически распределенных корпораций, медицинских учреждений и пр. Для приложений физики высоких энергий узлы распределенного федеративного хранилища могут быть ассоциированы с российскими исследовательскими центрами и университетами, а само хранилище может выступать как часть глобальной федерации с CERN, DESY и GSI. Ключевое требование к узлам федеративного хранилища — наличие высокоскоростного сетевого соединения с глобальными научными сетями. Для научных приложений и ученых, участвующих в исследовательских проектах, данная инфраструктура выглядит как высокопроизводительная отказоустойчивая система хранения с единой точкой входа.

«Создание такого хранилища позволит отечественным научным центрам полноценно участвовать в общей распределенной обработке данных, избавив их от необходимости разворачивать и поддерживать собственное полнофункциональное хранилище, требующее регистрации в информационных системах научных коллабораций, - говорит руководитель Отдела информационно-вычислительных ресурсов и технологий НИЦ «Курчатовский институт» - ПИЯФ Андрей Кирьянов. - Сейчас необходимо регистрировать каждый отдельный сайт в международную инфраструктуру, независимо от его размера, а в новой модели предлагается регистрировать все озеро. Кроме того, каждому сайту необходим штат высококвалифицированных специалистов, разбирающихся в тонкостях организации программного стека различных научных коллабораций. Наличие отказоустойчивого федеративного хранилища упростит как предоставление, так и потребление ресурсов его участниками, позволит динамически перераспределять копии данных между всеми участниками федеративной системы хранения, минимизируя время доступа к данным без нарушения надежности».

Сейчас НИЦ «Курчатовский институт» - ПИЯФ, ОИЯИ и МИФИ предоставляют ресурсы для прототипа российского озера научных данных. Для работы озера данных необходима современная, очень высокоскоростная сетевая инфраструктура (скорости от 100 Гбит/с и выше). В НИЦ «Курчатовский институт» - ПИЯФ установлена одна из современнейших вычислительных установок – суперкомпьютер «Константинов», позволяющий развернуть среду, в которой для конечного пользователя распределённая вычислительная инфраструктура выглядит логически единой. На момент запуска в 2018 году суперкомпьютер в НИЦ «Курчатовский институт» - ПИЯФ входил в десятку лучших подобных систем в Российской Федерации. Вычислительные мощности Центра обработки данных нашего Института составляют более 270 Терафлопс, а совокупная ёмкость для хранения данных составляет 5 ПБ.

На ресурсах НИЦ «Курчатовский институт» - ПИЯФ развёрнуты такие элементы озера данных, как дисковые хранилища, система обработки данных, инструментарий для разностороннего тестирования, а также вся система мониторинга российского озера.

«Данная работа всё ещё находится в стадии «R&D», то есть находится на стадии прототипирования, а не внедрения готовой системы, однако направление очень перспективное, и Россия является одним из его пионеров, - подчеркивает А. Кирьянов. - В рамках именно НИЦ «Курчатовский институт» также планируется иметь своё «озеро данных» для объединения ресурсов хранения всех организаций Центра и обеспечения высокой доступности научных данных. Пилотные работы здесь проводятся между площадками Москвы и Гатчины».

Для справки.

В ближайшее время в научных исследованиях, в молекулярной биологии и биоинформатике (геномное секвенирование), в вычислительной нейробиологии и других будут накоплены экзабайты данных. При разработке модели управления, обработки и хранения таких объемов научных данных необходимо учитывать множество факторов — в частности, наличие и возможности высокоскоростных сетей, развитие микропроцессорных технологий и высокоплотных систем хранения. Фундаментальной проблемой является создание географически распределенной инфраструктуры — озера научных данных (Data Lake) на основе суперкомпьютерных центров, ресурсных центров высокопроизводительных вычислений и облачных ресурсов, — позволяющей развернуть среду, в которой для конечного пользователя вычислительная инфраструктура выглядит логически единой. До недавнего времени в качестве такой инфраструктуры использовалась иерархическая система на основе концепции Грид, которая неплохо подходила для работы с данными, имеющими объемы до десятков петабайт, однако для обработки, анализа и хранения экзабайтов результатов научных экспериментов требуются новые алгоритмы и приложения (возможно, на основе методов машинного обучения — например, для автоматического распределения данных между носителями), а также нереляционные базы данных для хранения метаинформации.

Чтобы нивелировать различия в архитектурных решениях вычислительных центров, нужна система управления потоками заданий на обработку и анализ данных. Кроме того, для инфраструктуры озера необходима система мониторинга и контроля, а также отслеживания функционирования распределенной вычислительной инфраструктуры с использованием классических методов визуальной аналитики. Глубокий анализ процессов функционирования распределенных вычислительных инфраструктур позволит осуществлять поиск возможных причин нестабильной работы различных вычислительных задач и принимать соответствующие оптимизационные решения. Для этого потребуется совместное применение методов статистического анализа, машинного обучения и интерактивной визуальной аналитики. В отслеживании возможных отказов и принятии превентивных мер по перераспределению ресурсов поможет моделирование процессов анализа и обработки.

Работы по созданию озер научных данных ведутся сегодня как в рамках международных (WLCG, Worldwide LHC ComputingGrid) и национальных проектов (IRIS-HEP, США; INDIGO, Италия/Германия), так и силами отдельных компаний (Google, Amazon, «Яндекс»).

Теги

НИЦ «Курчатовский Институт» - ПИЯФ

Об институте
Сегодня НИЦ «Курчатовский Институт» - ПИЯФ - это современный исследовательский центр на Северо-Западе России, реализующий целый кластер инновационных проектов в области ядерной физики и энергетики.
50 лет
В 1971 году филиал Физико-технического института им. А.Ф. Иоффе РАН в Гатчине получил статус самостоятельного научного учреждения - Ленинградского института ядерной физики им. Б.П. Константинова, ныне НИЦ "Курчатовский институт" - ПИЯФ.
Структура
НИЦ КИ
НИЦ “Курчатовский институт” создан как один из базовых элементов научной инфраструктуры для модернизации экономики страны и достижения научных прорывов в приоритетных областях науки и технологий.

С 25 апреля 2017 года в состав Центра входят 7 ведущих научно-исследовательских Институтов. В том числе ФГБУ "Петербургский институт ядерной физики им. Б.П. Константинова"
Установки
НИЦ «Курчатовский институт» - ПИЯФ обладает широкой ресурсной базой для проведения фундаментальных и прикладных исследований в области ядерной физики, физики конденсированного состояния.

В настоящий момент в институте действуют 4 базовых установки: реактор ВВР-М, реактор ПИК, Синхроциклотрон СЦ-1000 и Циклотрон Ц 80.
Наука и образование
В сотрудничестве с нашим научно-исследовательским институтом реализуется множество учебных программ для высших учебных заведений
- Препринты
- Конкурс научных работ
Пресс-центр
Уважаемые представители новостных СМИ и Блогов, пресс-центр НИЦ «Курчатовский Институт» - ПИЯФ заинтересован во всестороннем и объективном освещении результатов деятельности Института и готов оказать содействие.
- 80 лет снятия блокады Ленинграда
Контакты
Федеральное государственное бюджетное учреждение «Петербургский институт ядерной физики им. Б.П. Константинова Национального исследовательского центра «Курчатовский институт»

Адрес:
Россия, 188300, Ленинградская обл.,
г.Гатчина, мкр. Орлова роща, д. 1, НИЦ «Курчатовский Институт» - ПИЯФ
Тел.: +7 (81371) 4-60-25, +7 (81371) 4-60-47 Факс: +7 (81371) 3-60-25 E-mail: dir@pnpi.nrcki.ru

Пресс-центр

Российское «озеро данных» на пути к эксабайтам информации