Чтобы упростить ETL в облаке, Microsoft выпускает Mapping Data Flows в Azure Data Factory
В недавнем сообщении в блоге Microsoft объявила об общей доступности (GA) своей возможности ETL без использования кода внутри Azure Data Factory, которая называется Mapping Data Flows. Этот инструмент позволяет организациям использовать подход, основанный на данных, без необходимости управлять большими размерами инфраструктуры, но с возможностью динамического масштабирования рабочих нагрузок обработки данных.
Mapping Data Flows решает задачи масштабирования, связанные с интеграцией больших данных, но с помощью визуального браузера на основе конструктора. Майк Фласко, партнер-директор по управлению продуктами в Microsoft, объясняет:
”Mapping Data Flows упрощает обработку данных благодаря встроенным функциям обработки непредсказуемых схем данных и поддержания устойчивости к изменению входных данных. Разработчики создают гибкие конвейеры данных в доступной визуальной среде с нашим браузерным дизайнером и позволяют ADF справляться со сложностями исполнения Spark”.
ETL-решения обычно требуют больших инвестиций в инфраструктуру и написания большого количества кода для построения ориентированных на данные решений. Фласко объясняет, что Mapping Data Flows внутри Azure Data Factory призвано уменьшить эти сложности:
Ускорьте понимание, сосредоточившись на построении своей бизнес-логики, не беспокоясь об управлении и обслуживании кластеров серверов или написании кода для построения конвейеров. Легко выполняйте задачи ETL, такие как загрузка таблиц фактов, поддержание медленно меняющихся измерений, агрегирование полуструктурированных больших данных, сопоставление данных с использованием нечеткого сопоставления и подготовка данных для моделирования.
Mapping Data Flows включает в себя встроенные преобразования данных для решения общих операций ETL, таких как join, aggregate, pivot, unpivot, split, lookup и sort data. В случае, если стандартные возможности не отвечают требованиям организации, можно использовать построитель выражений, который позволяет разработчикам настраивать свое решение ETL.
Помимо упрощенного опыта разработчика, Azure Data Factory также предоставляет оперативную информацию о данных, перемещающихся по конвейерам Azure Data Factory. Эти сведения включают в себя такие метрики, как количество нулей, распределение значений, стандартные отклонения, значения минимальной длины, значения максимальной длины, количество строк и многое другое.
В дополнение к телеметрии и анализу ETL разработчики также имеют доступ к интерактивной визуальной отладке, которая позволяет выполнять отладку и трассировку в режиме реального времени.
Microsoft, конечно, не новичок в пространстве ETL. В несколько выпусков SQL Server Microsoft включила службы интеграции SQL Server (SSIS). Однако с переходом к облачным вычислениям и предложениям SQL Server «Платформа как услуга» (PaaS) это привело к тому, что службы SSIS были ограничены инфраструктурой как услуга (IaaS) или локальными рабочими нагрузками. Камиль Новински, Microsoft MVP, поделился своим взглядом на переход от SSIS к фабрике данных Azure, отображающей потоки данных, в недавнем сообщении в блоге:
Эта новая функция имеет огромные возможности. Я очень рад использовать это больше. Подобная автоматическая масштабируемая обработка очень эффективна при обработке больших данных. Следовательно, стоит начинать проектировать новые процессы с помощью фабрики данных Azure или даже мигрировать существующие процессы, когда ваше предприятие страдает от снижения производительности из-за объема обрабатываемых данных.