Практический опыт по работе с AZURE DATA ECOSYSTEM

Tags: Azure, DataWarehouse, Power BI, data lake

Что такое информация? На сегодняшний день это движущая сила, новое топливо. В нынешнюю эпоху, информация – это золотая жила. Еще не так давно все данные аккумулировались в приложениях и основной задачей становилось их постоянно развитие. Сегодня же происходит постепенный перенос данных в Облако. AZURE Ecosystem от Microsoft содержит все необходимые инструменты и приложения для успешного управления данными в течение всего их жизненного цикла.

Появлению Azure Data Ecosystem предшествовали несколько этапов развития. Одним из первых языков программирования был Cobol, представляющий собой целостную систему.  Разработчикам приходилось писать код, хранить данные и обеспечивать их безопасность.

Следующим этапом стало появление языка программирования 4го поколения (Fourth Generation Reporting Language).  На смену пришли Data Warehouse/OLAP с размерными таблицами. В основе лежит использование кубов с послойными данными.  Основная проблема данного этапа заключалась не только в поиске разработчиков, но и администрировании.

Затем наступила эпоха Big Data и появилась возможность аккумулировать и группировать большие массивы данных, хранить файлы в HTFS.

На сегодняшний день AZURE Data Ecosystem является наиболее удачным решением задачи хранения данных. Это облачное хранилище, позволяющее разрабатывать и выполнять приложения, хранить данные на серверах. Преимуществами AZURE Data Ecosystem являются огромное количество интегрированных приложений, невысокая стоимость, возможность восстановления после отказа (теперь данные дублируются в разных регионах), удаленная работа. И самое важное – Вы не привязаны к источнику: если Вы однажды перенесете данные в Облако, то сможете добраться до них из любого места и с любого устройства.

За бесперебойной работой AZURE Data Ecosystem стоит работа четырех команд профессионалов.

Первая команда – архитекторы, которые отвечают за тестирование, оркестрирование, перемещение потока данных и выбор подходящей части в жизненном цикле. Среди них выделяют архитекторов инфраструктуры, которые стандартизируют платформу под Ваши требования, тестируют подписки, систему оповещения и контроля, управляют расходами (в Azure платят за объем потребления и хранения, поэтому архитекторы инфраструктуры подбирают подходящий по стоимости вариант в зависимости от Ваших условий).  И архитекторов данных, в зону ответственности которых входит разработка шаблонов потока данных и управление ими, обеспечение безопасности, управление версиями Azure DevOps. 

Вторая команда в жизненном цикле данных – команда приема данных, тестирующая перенос данных в Облако. Именно они встречаются с представителями бизнеса для выяснения планов, требований для удовлетворения потребностей, составляют словарь данных, работают с управляющими таблицами, переносят данные в Облако.

Команда проектирования производит извлечение, преобразование и загрузку данных для использования. Она проверяет «глубину» архитектуры. По своей сути AZURE Data Factory схожа с SSIS от Microsoft. Но одним из главных преимуществ ADF является инструмент Databricks, служащий для проверки, очищения, удаления дубликатов, стандартизации и перемещения файлов.

Четвертая командя в работе с данными – визуализаторы, переводящие данные в зрительные образы. В своей работе они используют инструменты: Power BI, который позволяет получать срезы данных, Power Flow – для создания рабочих процессов, а Power Apps для быстрого создания приложений с использованием данных, находящихся в Data Lake или базе данных.

Для удобной работы в Azure Data Ecosystem существует множество полезных инструментов.

В работе с данными используется система интеграции данных Azure Data Factory, главной функцией которой является «хранимая процедура».  Система обращается к управляющей таблице, откуда получает список файлов, которые владелец хочет поместить в жизненный цикл. Собрав файлы, она выгружает их в программную группу RAW ADLS без изменений. ADF производит запись в таблицу аудита. Таким образом, благодаря журналу регистрации событий, появляется возможность вернуться назад и посмотреть параметры работы.

На ряду с Azure Data Factory, в работе используется среда выполнения интеграции ADF, подключаемая к различным источникам данных.

Новым инструментом, созданным на базе Spark является Databricks, который определяет дубликаты, количество строк, типы полей. Использование Azure Key Vault позволяет хранить учетные данные, сертификаты, строку соединения.  В структуре Databricks отдельно выделяют инструмент Delta, который сравнивает версии, сохраняет изменения в ADLS как Parquet файл. Преимуществами Delta являются возможность работы с файлами больших объемов, масштабирования данных, осуществления совместной работы (позволяет разработчиками работать с одним кодом в одно и тоже время), комментирования.

В работе над созданием глобальной системы данных и ее автоматизации необходимым условием является использование управляющих таблиц. Первая управляющая таблица относится к информации высокого уровня и содержит имя файла, источник, пункт назначения, тип файла, домены. Вторая управляющая таблица для информации низкого уровня о деталях файла: структура сортировки, тип, имя, неопределенные значения и другие показатели. Это позволяет Databricks проверять таблицу в реальном времени, а зная тип файла есть возможность пройти по колонкам и определить наличие ошибки. Третья таблица – аудит, где происходит подтверждение результатов, упаковывание шаблонов представлений Power BI.

В работе с Azure Data Warehouse отличительными чертами является создание размерных таблиц и таблиц фактов, масштабируемость и безопасность на уровне строк. Предположим, у Вас есть команда по продажам. Руководитель может видеть членов своей команды, но не членов других команд. Продавцы могут получать данные по продажам, вознаграждениям, а директор видит полную информацию. С недавнего времени появлялась возможность маскировать данные, например, персональные данные.

Усовершенствованная табличная модель является по сути новым уровнем кубов OLAP, позволяющая легко установить источник данных, отношения, единицы измерения, разделы, роли. К ней подключается Power BI – мощный инструмент для анализа и визуализации данных. У него есть собственный рабочий стол и информационная панель на базе табличной модели.

Гибкая система программирования Azure позволяет представителям бизнеса быть в центре процесса, а использование функции Microsoft Team позволяет общаться, делиться файлами в процессе совместной работы.

Стоит отметить, что в переносе абсолютной всех данных в Data Warehouse нет необходимости. Небольшие по объему файлы помещают в Data Lake, где они хранятся и доступны через Power BI. Иногда возникает необходимость переноса данных в Power BI в качестве Parquet файла. Тогда на помощь приходит PolyBase. Вы можете упаковать Parquet файл в PolyBase и передать в Power BI.

Очевидно, что в работе с данными приоритетной задачей является их безопасность. Необходимо быть уверенным в том, что нужный человек смотрит нужную информацию в нужное время и четко понимать, у кого какой доступ есть.

Механизм контроля и оповещения позволяет проследить всю работу. Он может отправлять сообщения о неправильной работе по почте, голосовым сообщение, push-оповещением, sms. Используя функцию управления версиями исходного кода, вы никогда не потеряете код. Еще один способ сохранения данных – распоряжение данными. В таком случае не обойтись без операторов баз данных, которые обеспечивают качество данных и их резидентный перенос.

Используя в работе Azure Data Lake, вам необходимо подключение к файловым системам с помощью различных инструментов. Например, к DataWarehouse подключение происходит через PolyBase, а к Data Factory через интегрированную среду выполнения.

Но прежде, чем приступать к работе в Azure, нужно определить, что же делать в случае, если в рабочей среде что-то выйдет из строя. Для этого необходимо определить роли и уровень безопасности, которые позволят сотрудникам фиксировать рабочую среду. Тоже самое касается и администрирования работы. Полезным инструментов администрирования является PowerShell. Он подключается к порталу Azure и дает возможность конфигурации источников и подписок.

На вопрос о стоимости подписки Azure нет общего ответа. Она складывается из множества факторов: какие данные необходимо сохранить для использования, сколько у Вас хранилищ, компьютеров, как много подписок и т.д. Но важно заранее определить ценовую категорию для дальнейшей работы.

Подводя итог, хотелось бы отметить, что Azure Data Ecosystem – это пакет продуктов, обладающий множеством преимуществ для миграции данных в Облако. Это постоянно меняющаяся и развивающаяся система, созданная для создания, администрирования приложений в любой точке мира.

 

No Comments

Add a Comment