Анализ источников данных легаси БД MSSQL: сбор информации о наполнении, выявление ключевых бизнес-сущностей и зависимостей, регламентных операций
Проектирование и оптимизация потоков переноса данных из MSSQL в новое хранилище.
Разработка и поддержка моделей данных и трансформаций в dbt для формирования конечных витрин.
Организация и автоматизация процессов оркестрации с Airflow.
Обеспечение качества, тестирование данных и их целостности при миграции и трансформации.
Работа с потоками данных и интеграция с Kafka для обмена и передачи событий в реальном времени.
Требования
Опыт работы с реляционными БД
Умение создавать и оптимизировать сложные SQL-запросы.
Способность проектировать и создавать модели данных, адаптированные для аналитических задач и эффективной работы DWH.
Владение методологиями Data Vault и другими современными подходами к моделированию для обеспечения прозрачности, история изменений и восстановления данных.
Опыт документирования моделей данных и поддержания их совместимости с процессами ETL/ELT и бизнес-метриками.
Умение управлять изменениями модели при росте объема данных и изменениях в требованиях аналитики.
Язык програмирования: Python
объектное хранилище: S3
стриминг данных: Kafka
реляционная СУБД: Postgres, MSSQL
NoSQL: MongoDB
аналитическая СУБД: Clickhouse
Опыт создания и поддержки ETL/ELT-конвейеров данных.
Умение создавать модели данных и преобразования с помощью dbt, знание SQL и шаблонизации в dbt.
Опыт оркестрации процессов с помощью Apache Airflow,настройка DAG, автоматизация и мониторинг ETL задач.
Понимание методологии и практик DataOps для контроля версий моделей, тестирования, мониторинга и безопасного развертывания.
Навыки документирования процессов, работы с технической документацией.