Эволюция ежедневного расчёта на 1 Пб данных: от ClickHouse к shuffle-free Spark
Югай Петр · Руководитель группы разработки аналитических решений, Честный ЗНАК
Для решения задач, связанных с обработкой большого количества данных, мы сталкиваемся с разными вызовами. В том числе и с долгой работой I/O, высокой нагрузкой на shuffle-сервис. В этом докладе познакомимся с эволюцией ETL от ClickHouse до Spark и основными техническими решениями, которые позволяют нам пересчитывать Петабайт данных каждый день, избегая большого количества шафла и спилла.