Top.Mail.Ru
Разработка
Системный и бизнес-анализ
Не пустим грязь в прод: архитектура качества данных в аналитической платформе
10 апреля
16.15-16.55
Зал 6

Большинство команд тратят часы на поиск первопричины ошибок — пока пользователь уже видит некорректные цифры в продакшене. Я покажу, как мы построили систему контроля качества данных в аналитической платформе, которая перехватывает ошибки до публикации.

Без теории разберём архитектуру: интеграцию проверок через Airflow + SodaCL на Spark/ClickHouse/PostgreSQL с отправкой результатов в Kafka → Redash/Graphana +WAP-паттерн, который блокирует вывод грязных данных на этапе аудита. Поделюсь кейсами, когда система реально спасла продакшен. Слушатели унесут готовый фреймворк для внедрения DQ без разрыва процессов и сокращения поиска первопричины с часов до минут.

Может заинтересовать
#похожие доклады