← Все кейсы

Аналитическая система

Контент-аналитика маркетплейса

Система A/B-тестирования и отчётности для маркетплейса с миллионами SKU

5M+
SKU обрабатывается ежедневно
< 2 ч
задержка данных в дашборде
30+
параллельных A/B-тестов
−60%
время на подготовку отчётов
AirflowClickHousePythonA/B testing

Задача

Миллионы SKU — и никто не знал, что работает

Команда маркетплейса обновляла карточки товаров вслепую: меняли фото, тексты, цены — и не могли достоверно измерить эффект. Отчёты готовились вручную в Excel, данные устаревали на 2–3 дня, A/B-тесты не масштабировались.

Боли клиента
  • Аналитические отчёты готовились 2–3 дня вручную в Excel
  • A/B-тесты для контента велись через внешние инструменты без интеграции с продуктом
  • Невозможно было сравнить эффективность изменений на уровне категории или бренда
  • Данные теряли актуальность — решения принимались по «ощущениям»
  • Нет единой метрики качества контента по всему каталогу

Решение

Data pipeline + A/B платформа на Airflow и ClickHouse

Построили аналитический стек с нуля: инфраструктуру сбора данных на Apache Airflow, OLAP-хранилище в ClickHouse, A/B-фреймворк для контентных тестов и интерактивные дашборды в Superset.

⚙️
Airflow DAG-пайплайны

Ежедневная обработка 5M+ SKU: обогащение, нормализация, расчёт метрик качества контента. Мониторинг через Grafana.

ClickHouse OLAP

Аналитические запросы по всему каталогу за секунды. Партиционирование по дате и категории, материализованные представления.

🧪
A/B-фреймворк

Статистически корректное сравнение вариантов контента: p-value, MDE, размер выборки. Автоматическая остановка при достижении значимости.

📈
Дашборды Apache Superset

Self-service аналитика для product-менеджеров без SQL: срезы по категориям, брендам, типам контента.

Технологии

Стек проекта

Data Engineering
  • Apache Airflow 2.7
  • Python 3.11
  • Pandas
  • dbt
Storage
  • ClickHouse 23
  • PostgreSQL
  • S3 (Yandex Object Storage)
Analytics
  • Apache Superset
  • Statsmodels
  • SciPy (A/B stats)
Инфраструктура
  • Kubernetes
  • Grafana
  • Prometheus
  • GitHub Actions

Результат

Что получилось

< 2 ч
свежесть данных вместо 2–3 дней
+18%
конверсия в покупку после первых A/B тестов
−60%
время аналитиков на рутинную отчётность
30+
одновременных A/B тестов без коллизий

Похожая задача?

Разберём вашу задачу и предложим решение. Без продажных звонков.