Why Prefect 3 Wins for Modern Data Engineering - The Power of Ephemeral Infrastructure
Data&AI Insights📖 Источник: medium.com
Краткое содержание статьи Статья Madushan Pathirana, опубликованная в феврале 2026 года на платформе Medium в издании Towards Data Engineering, посвящена преимуществам Prefect 3 — современной платформы оркестрации данных, основанной на концепции эфемерной инфраструктуры. Автор сравнивает Prefect 3 с традиционным решением Apache Airflow, выделяя гибкость, динамичность и экономическую эффективность Prefect 3 при масштабировании и управлении ресурсами. В статье подробно рассматривается архитектура Prefect, кейс миграции с AWS Lambda и SageMaker на Prefect 3, а также демонстрируется, как эфемерные вычислительные ресурсы позволяют оптимизировать затраты и повысить производительность.
Проблемы традиционной оркестрации данных: опыт с Apache Airflow и AWS Lambda
Apache Airflow — признанный стандарт в индустрии оркестрации данных, обладающий широкой поддержкой сообщества и стабильной архитектурой. Однако Airflow имеет ряд ограничений:
- Необходимость определения статических DAG (Directed Acyclic Graphs) до запуска планировщика, что снижает гибкость.
- Сложности с локальным тестированием пайплайнов.
- Ограниченная возможность масштабирования по требованию вне Kubernetes-сред.
Автор делится опытом трансформации event-driven пайплайна, построенного на AWS Lambda и SageMaker, в более масштабируемое и экономичное решение. В исходной архитектуре отсутствовала платформа оркестрации, что усложняло отладку: ошибки приходилось искать вручную в AWS CloudWatch без точного понимания места сбоя. Пайплайны извлекают данные из множества внешних источников, сохраняют их в Amazon S3, после чего запускаются последующие процессы трансформации и финансовых расчетов. Запуск каждого пайплайна зависит от события — он активируется при онбординге клиента. При этом нагрузка на ресурсы (RAM и CPU) варьируется в зависимости от объема данных конкретного клиента.
Airflow не подошел для этой задачи из-за недостаточной динамичности, что побудило автора изучить Prefect 3.x — платформу с "питоническим" подходом к оркестрации, поддерживающую динамическую инфраструктуру и нативное масштабирование, а также удобную работу с event-driven пайплайнами через API и библиотеку.
Архитектура Prefect 3: основные компоненты и возможности
Prefect 3 может использоваться как в self-hosted варианте, так и через облачный сервис Prefect Cloud. Последний предлагает расширенные возможности, включая Role-Based Access Control (RBAC) и управление "Assets", однако для небольших команд открытая версия Prefect полностью достаточна.
Архитектура Prefect состоит из трех ключевых компонентов:
- Prefect Server — центральный узел, обеспечивающий веб-интерфейс и API для пользователей и воркеров, управляющий метаданными и отслеживанием состояния пайплайнов.
- Prefect Worker Pool — коммуникационный слой между оркестрацией и инфраструктурой исполнения, управляющий группами воркеров.
- Prefect Worker — непосредственно выполняет пайплайны. Воркеры могут запускаться параллельно в разных инфраструктурах с разными конфигурациями CPU и RAM.
Такое разделение позволяет гибко управлять ресурсами и масштабировать выполнение задач.
Экономия и масштабирование с помощью эфемерной инфраструктуры Prefect 3
Автор приводит пример трех типов пайплайнов с разными требованиями к ресурсам и частоте запуска:
- Pipeline A: Легкий этап извлечения данных, требующий 1 vCPU и 4GB RAM, запускается 10 раз в день по 20-30 минут, часто параллельно.
- Pipeline B: Средняя нагрузка на обработку данных, требует 2 vCPU и 8GB RAM, запускается каждые 12 часов на 1-2 часа.
- Pipeline C: Тяжелая задача машинного обучения, требует 4 vCPU и 64GB RAM, запускается раз в неделю на 2 часа.
При использовании Airflow необходимо выделять сервер с ресурсами, достаточными для самой тяжелой задачи — минимум 4 vCPU и 64GB RAM. В остальное время ресурсы простаивают, что ведет к неэффективным затратам. Масштабирование ограничено возможностями выделенного сервера, и планирование пайплайнов зависит от доступной мощности, а не от бизнес-потребностей.
Prefect 3 решает эту проблему с помощью динамической инфраструктуры на базе AWS ECS (Elastic Container Service):
- Prefect Server принимает запрос на запуск пайплайна (через событие или расписание).
- Prefect Worker получает задачу от сервера.
- Worker запускает отдельную задачу AWS ECS с конфигурацией CPU и RAM, соответствующей требованиям конкретного пайплайна.
- По завершении или сбое задачи ECS автоматически деактивируется, освобождая ресурсы.
Таким образом, ресурсы выделяются только на время выполнения задачи, что значительно снижает затраты и повышает гибкость.

Детали рабочего процесса и технические характеристики
Prefect Server функционирует как центральный хаб, связанный с базой данных PostgreSQL для хранения метаданных и состояния пайплайнов. При поступлении запроса сервер уведомляет воркеров, которые инициируют выполнение пайплайна. Воркеры запускают временные задачи AWS ECS, которые представляют собой контейнеры с точно заданными вычислительными ресурсами.
Такой подход позволяет:
- Изолировать выполнение каждого пайплайна.
- Автоматически масштабировать вычислительные ресурсы.
- Минимизировать время простоя и избыточное потребление ресурсов.
Это особенно важно для event-driven пайплайнов с переменной нагрузкой и требованиями к ресурсам.
Перспективы и дальнейшее развитие
Автор отмечает, что в статье представлен обзор архитектуры и ключевых преимуществ Prefect 3 без глубокого погружения в такие концепции, как Deployments, Flows, Tasks и Blocks. В следующей статье планируется подробный пошаговый гайд по настройке инфраструктуры для создания динамических пайплайнов с использованием Prefect 3.
Итоговое заключение и инсайты
Prefect 3 демонстрирует значительное преимущество перед традиционными платформами оркестрации данных, такими как Apache Airflow, за счет:
- Поддержки динамической, эфемерной инфраструктуры, позволяющей запускать вычислительные ресурсы строго по требованию.
- Гибкой архитектуры с разделением сервера, пулов воркеров и самих воркеров, что обеспечивает масштабируемость и изоляцию задач.
- Существенного снижения затрат на инфраструктуру за счет автоматического выделения и освобождения ресурсов.
- Улучшенной поддержки event-driven пайплайнов и удобных API для интеграции.
Опыт автора с миграцией AWS Lambda и SageMaker пайплайнов на Prefect 3 подтверждает, что современная оркестрация данных требует не только надежности, но и адаптивности к динамическим нагрузкам, что Prefect 3 успешно обеспечивает.
Это делает Prefect 3 оптимальным выбором для современных команд по инженерии данных, стремящихся к эффективному управлению ресурсами и масштабируемости в облачных средах.
📢 Информация предоставлена телеграм-каналом: Data&AI Insights
🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ