Во-первых, необходимо было повысить надежность потоков данных, поступающих из системы управления бизнес-процессами, и исключить ситуации, когда расхождения в выгрузках остаются незамеченными. Эти ошибки не только тормозили аналитику, но и создавали риски для управленческой отчетности.
Во-вторых, нуждался в модернизации внутренний инструмент компании — Input Data Hub (IDH). Это загрузочное приложение, через которое пользователи загружали Excel- и CSV-файлы в S3 и Hadoop. Система часто сталкивалась с багами, неэффективно работала с большими файлами и не имела удобных инструментов поиска внутри шаблонов.
И наконец, требовалось провести декомпозицию крупных компонентов Hadoop-стека и DAG-процессов, чтобы повысить масштабируемость решений и сделать архитектуру более управляемой.