Технологии
Apache Airflow, Python, GitLab, Jira и Confluence

Модернизация системы управления данными: совместный проект НЛМК ИТ и ITFB Group

Для крупного промышленного игрока, такого как НЛМК, работа с данными — это не просто поддержка аналитики. Это фундамент управленческих решений, логистики, прогнозирования и планирования производства. Перед совместной командой НЛМК ИТ и ITFB Group была поставлена цель: необходима архитектурная модернизация и глубокая оптимизация процессов внутри хранилища данных (DWH).

Задача

Во-первых, необходимо было повысить надежность потоков данных, поступающих из системы управления бизнес-процессами, и исключить ситуации, когда расхождения в выгрузках остаются незамеченными. Эти ошибки не только тормозили аналитику, но и создавали риски для управленческой отчетности.

Во-вторых, нуждался в модернизации внутренний инструмент компании — Input Data Hub (IDH). Это загрузочное приложение, через которое пользователи загружали Excel- и CSV-файлы в S3 и Hadoop. Система часто сталкивалась с багами, неэффективно работала с большими файлами и не имела удобных инструментов поиска внутри шаблонов.

И наконец, требовалось провести декомпозицию крупных компонентов Hadoop-стека и DAG-процессов, чтобы повысить масштабируемость решений и сделать архитектуру более управляемой.

Решение

Совместные команды НЛМК ИТ и ITFB Group сформировали несколько рабочих стримов, каждый из которых решал свой блок задач.

  1. Контроль целостности данных. Был разработан скрипт на Python, который автоматически сверяет данные между S3 MinIO и Impala, выявляет расхождения и мгновенно отправляет уведомления на почту ответственным сотрудникам. Это позволило оперативно отслеживать сбои в конвейерах и предотвращать накопление ошибок.
  2. Модернизация Input Data Hub. Команды устранили критические баги, оптимизировали алгоритмы обработки данных и переработали логику загрузки крупных файлов. Благодаря этому удалось значительно сократить время обработки и снизить потребление оперативной памяти. В систему был добавлен «умный поиск», позволяющий пользователям находить нужные шаблоны по ключевым словам — простое, но крайне востребованное улучшение, которое сделало работу с инструментом удобнее и быстрее.
  3. Архитектурная оптимизация Hadoop-стека. Для обеспечения масштабируемости и прозрачности процессов специалисты ITFB Group в тесном взаимодействии с архитекторами НЛМК ИТ провели декомпозицию крупных DAG-объектов, внедрила современные архитектурные паттерны в ETL-процессы и переработала структуру DAG-ов. Это позволило гибко управлять отдельными компонентами системы, повышая устойчивость и предсказуемость потоков данных.

Результаты проекта

По итогам проекта удалось:

  • повысить надежность интеграции с системой управления бизнес-процессами и оперативность реакции на ошибки в данных;
  • снизить ресурсоемкость и увеличить производительность Input Data Hub;
  • сделать архитектуру DWH-системы масштабируемой и управляемой;
  • улучшить качество и стабильность данных в инфраструктуре НЛМК.
Реализованные решения стали частью системного развития цифровой архитектуры предприятия и создали базу для дальнейшей эволюции аналитических сервисов.

«ПДС сегодня — это не просто сервис электронных подписей, а единая доверенная среда, на которой строятся юридически значимые цифровые процессы отрасли. Реализованные доработки позволили нам уверенно отвечать на требования регуляторов и одновременно развивать новые цифровые сценарии»

Антон Устюгов, руководитель направления по управлению данными НЛМК ИТ

«Проекты подобного уровня требуют не просто технических компетенций, а глубокого понимания логики хранилищ данных и ETL-архитектуры. Мы смотрим на DWH не как на набор инструментов, а как на живую систему, где важно предсказать, как одно изменение повлияет на всё остальное. В этом и есть сила нашей экспертизы — строить масштабируемые, устойчивые и понятные заказчику решения»

Наталья Романова, директор по развитию ITFB Group

заключение

Совместная работа команд НЛМК ИТ и ITFB Group помогла компании перейти от набора разрозненных инструментов к устойчивой, предсказуемой BI-архитектуре, где каждый компонент работает синхронно, а данные превращаются в надежный источник управленческих решений.

Для НЛМК это — шаг к следующему уровню цифровой зрелости. Для ITFB Group — еще одно подтверждение того, что инженерия данных может быть не только технологичной, но и глубоко человеческой — с вниманием к процессам, людям и смыслу данных.
У вас похожая задача?
Свяжитесь с нами