Аналитика, управляемая событиями

Tags: Azure, DWH, database, Data Factory, data-driven

Давайте поговорим о важности хранилища данных с точки зрения аналитики. В портфолио Azure хранилище данных позиционируется как петабайтная аналитика. 

Ключевые преимущества:

  1. Лучший в классе «цена-производительность». Хранилище данных Azure на 94% дешевле аналогов. 
  2. Лидер по безопасности. Microsoft вкладывает большое количество ресурсов и денежных средств в развитие безопасности, которая особенно важна для тех клиентов, чья деятельность связана с финансами или здравоохранением. 
  3. Интеллектуальное управление рабочей нагрузкой – это не только разделение операций вычисления и хранения, но и расположение ресурсов для наиболее значимых рабочих нагрузок по степени важности для быстрой загрузки данных, поступающих из разрозненных источников. 
  4. Гибкость данных: возможность поддержки структурированных и полуструктурированных данных, Parquet-файлов, JSON. Достаточно запустить запрос и не нужно беспокоиться о том, что происходит. Вы просто получаете ответы на вопросы о корпоративных данных. 
  5. Продуктивность разработчика – это особенное преимущество Azure.

На сегодняшний день не только большие данные, но и любые корпоративные данные могут быть интегрированы в хранилище. С помощью углубленной аналитики мы стараемся предсказать, когда может произойти отток клиентов. Аналитика в режиме реального времени помогает получить сведения с наших устройств или приложений в режиме реального времени.   

Современные хранилища данных расширяют диапазон для обслуживания больших данных, подготовленных с помощью технологий за рамками реляционного процесса ETL.  Хранилище данных второго поколения дает возможность объединения полуструктурированных данных, JSON данных с другими корпоративными данными. 

Для современного хранилища данных подходит следующая простая диаграмма. Она дает понимание того, как все устроено у клиентов Azure по всему миру и как этот процесс может быть внедрен.

Процесс приема данных осуществляется с помощью фабрики данных Azure - лучшее бессерверное решение для переноса данных как с локального источника, так и с облачного. Это собственная служба Azure, которая может использоваться для приема данных. Оно обеспечивает безопасность, эффективную стоимость и масштабируемость хранилища для структурированных, полуструктурированных и неструктурированных данных, поступающих из различных источников. Производительность, доступность из любой точки земного шара и партнерские экосистемы делают озеро данных Azure второго поколения прекрасным выбором для проведения аналитики. Отличительная особенность второго поколения от первого состоит в том, что оно построено на основе BLOB – хранилище для возможности обработки больших данных. Вы по-прежнему можете использовать BLOB-хранилище, но если у Вас есть необходимость хранить большие наборы данных, то в таком случае лучше использовать озеро данных второго поколения. 

Если дело касается больших наборов данных, фабрика данных обращается к инструменту azure databricks 

Процесс визуализации выполняется с помощью Power Bi или Microsoft BI, но Вы вольны выбирать ваш любимый инструмент визуализации.

Если Вы сталкивались с выражением хранилище данных или аналитика данных в Azure, то речь наверняка шла о процессе, представленном ниже. В последнее время все больше клиентов строят современные хранилища с помощью Azure, что приводит к изменению шаблонов.

Подключение к высокоскоростной сети становится возможным благодаря внедрению Express Route. Он позволяет осуществлять беспрерывный прием данных. У Вас, как облачного клиента, появляется возможность иметь постоянный конвейер. Другой важной чертой является оценка больших данных. Появляется возможность работать в высокомасштабируемом и экономически выгодном хранилище в форме озера данных. Оно достаточно гибкое, что позволяет вам организовать ваши данные, у него нет ограничений по масштабируемости, при этом цена достаточно выгодна. Все эти преимущества делают предложение очень интересным. 

Многим клиентам хотелось бы иметь специалиста по данным или хотя технически подготовленного сотрудника, у которого есть доступ к Azure, к подпискам вашей организации, чтобы иметь возможность изучать данные. Это достаточно новый и интересный инструмент, позволяющий осуществлять предварительный просмотр данных. Если мы говорим о Больших данных, то у Вас есть движок Spark для их анализа в эластичном (масштабируемом) режиме.

После исследования данных переходим к их подготовке; есть возможность трансформации,  а так же обучения данных. 

Фабрика данных Azure

выполняют код, основанный на событиях. Logic Apps позволяет проектировать и управлять рабочими процессами. Отличие Logic Apps от фабрики данных состоит в том, что центральное место в фабрике занимают данные. Она объединяет все ваши хранилища вместе и создает платформу, ориентированную на данные. Logic Apps ориентирована на интеграцию приложений; сосредоточена не на данных, а больше на интеграции и взаимодействии с системами. Объединение этих двух платформ вместе поможет создать полностью автоматизированный конвейер.

Эти службы полностью управляемые и позволяют быстро построить бессерверную архитектуру в Вашей среде.

Предположим, у Вас есть огромное количество данных телеметрии, собранных с многочисленных устройств. Ваша задача – обработать эти данные в режиме реального времени. Конечно, Вы можете сделать несколько отчетов с помощью Power BI, но данные будут устаревать слишком быстро. В таком случае поможет платформа Azure Functions. Вы получаете возможность быстро перенести данные в Databricks,  а затем в хранилище данных для составления отчета в режиме реального времени. Преимущество в том, что в DWH данные будут оставаться и для исторической аналитики. 

Что же касается стоимости, то среди лидеров в этой области предложение от Microsoft самое выгодное по соотношению цена-качество.

Безопасность является приоритетным направлением в Microsoft. Server присущи почти все элементы безопасности, даже Data in Use, которая вскоре будет внедрена. Работая с корпоративными данными в зависимости от отрасли, Вам могут понадобиться свои критерии безопасности. Вы можете добавлять уровни защиты, исходя из потребностей.

Одна из главных проблем в построении приложения – это управление учетными данными в Вашем коде и аутентификация в любой службе Azure. Azure SQL Data Warehouse поддерживает управляемые удостоверения. Они могут быть созданы через PowerShell или Azure CLI. Управляемые удостоверения устраняют необходимость управления учетными данными и предоставляют идентификатор для ресурсов Azure. Это отличный инструмент для аутентификации в любой службе Azure.

Polybase позволяет управлять запросами и процессами импорта/экспорта данных за пределами SQL DWH. Пользователи пишут запросы T-SQL для чтения и доступа к данным, которые хранятся во внешних источниках.

Create table as Select (CTAS) – это параллельная операция, которая создает новую таблицу на основе выходных данных инструкции select; может использоваться для преобразования столбцов. Это самый простой способ создания копии таблицы. 

Еще одна полезная функция  - copy command, которая упрощает загрузку данных в DWH, предоставляя доступ к внешним источникам: озеро данных gen 2 и Blob-хранилище. Эта функция полностью параллелизована, масштабируема и не зависима от внешних  таблиц

 

No Comments

Add a Comment