Big Data на Microsoft Azure - HDInsight

Tags: Big Data, Azure, Microsoft

Лучшим определением, которое сегодня наилучшим образом подойдет для данных, - это то, что они стали новой нефтью в современном мире. Исходя из этого, мы можем выявить новый горизонт и новый способ взглянуть на то, как мы обрабатываем данные и как работаем с ними. Этот процесс стал чрезвычайно сложным и убедительным, поскольку наш спектр данных изменился из формы структурированной на неструктурированную. Чтобы мы могли справиться с такими  обширными наборами данных, к нам на помощь приходят различные продукты и функции.

Компании, которые хотят продемонстрировать конкурентное преимущество по сравнению другими, должны решить одну из самых сложных ИТ-задач: определить поведение клиентов. Это сейчас самая жаркая и сложная работа для ученых по данным, и причина в том, что они должны знать, как согласовывать, уплотнять и адаптировать огромные куски данных для любого алгоритма AI или ML.

Однако, это не все. Однако это не только. Компании пропускают важный момент при разработке и внедрении своих решений для “больших данных”. Мы обычно описываем “большие данные” как хранилище и анализ больших и сложных наборов данных, с использованием ряда методов, включая, но не ограничиваясь NoSQL, MapReduce и машинное обучение. Но доверие и сосредоточенность только на них может ограничить ваши решения, так как результаты не дают качественной информации о видении вашей компании.

Именно здесь вступают в игру «насыщенные данные». Ключевым моментом здесь является увеличение ценности количественных данных, которые вы сохранили в своем Big Data-решении. С исследованиями, опросами, опросниками, фокус-группами, интервью, журналами, видео, аналитиками в социальных сетях и т. д., это поможет вашей компании процветать, принося более ээфективные решения, чтобы помочь вам понять не только вашу ключевую аудиторию, но и поведение ваших клиентов.

 

HDInsight

С 2013 года Microsoft помогает своим клиентам достичь наилучшей экосистемы Big Data. Благодаря партнерству с дистрибьютором Hortonworks они расширили свои возможности и смогли обогатить свои решения в спектре Big Data.

HDInsight - это полностью управляемая служба аналитики с открытым исходным кодом для предприятий, которые хотят использовать стек технологии Hadoop для решения проблем с большими данными. Платформа предлагает уникальный набор продуктов, полностью управляемых Microsoft Azure.

Вкратце Azure HDInsight представляет собой облачное распределение компонентов Hadoop с платформы Hortonworks Data Platform - HDP, что позволяет легко, быстро и экономично обрабатывать огромное количество данных в гипермасштабируемой среде.

Есть несколько причин, по которым компании сейчас ищут управляемые решения Big Data. В основном из-за низкой стоимости и масштабируемости, безопасности и соответствия, мониторинга, производительности, расширяемости, а также самой важной причины: глобальная доступность выбранных продуктов.

 

Типы кластеров

HDInsight предлагает различные типы кластеров для решения различных проблем, с которыми вы можете столкнуться в своем бизнесе. Они используют почасовой подход к выставлению счетов и разнесенную архитектуру. Это означает, что вы можете обрабатывать нужные данные, а затем уничтожать кластер, сохраняя данные внутри хранилища Azure Blob или Azure Data Lake Store. Данные будут оставаться там без удаления или изменения после завершения процесса.

Большинство компаний, использующих технологию HDInsight, применяют этот подход для достижения быстрой производительности и в то же время снижают свои затраты с помощью инфраструктуры. В локальной среде нам не разрешается отключать вычислительную часть, поскольку HDFS и область обработки связаны с использованием решения PaaS (Platform-as-a-Services). Это решение позволяет легко обойти это, а также дает вам бесконечные возможности использовать набор инструментов, которые помогут вам управлять, организовывать и контролировать весь рабочий процесс данных.

HDInsight предлагает следующие типы кластеров:

Apache Hadoop

Apache Spark

Apache HBase

R Server

Apache Storm

Apache Interactive Query (Hive 2.0)

Apache Kafka

* HDInsight - единственная платформа PaaS, которая предлагает такое количество полностью управляемых типов кластера в облачной среде.

Общие сценарии по типу кластера

В этом разделе мы рассмотрим типы кластеров и рассмотрим наиболее подходящее решение, а также сценарии повседневного использования для них.

Apache Hadoop

Структура, использующая HDFS, управление ресурсами YARN и простую модель программирования MapReduce для параллельной обработки и анализа данных пакета.

Общие случаи использования / сценарии = пакетная обработка, недорогое хранение, экономичная, параллельная обработка.

Apache Spark

Среда с открытым исходным кодом, со структурой параллельной обработки, которая поддерживает обработку в оперативной памяти для повышения производительности приложений анализа больших данных.

Случаи общего использования / сценарии = потоковая передача данных, машинное обучение, интерактивный анализ и туманные вычисления.

Apache HBase

База данных NoSQL, построенная на Hadoop, обеспечивает произвольный доступ, согласованность для большого количества неструктурированных и полуструктурированных данных - потенциально миллиардов строк, умноженных на миллионы столбцов.

Общие случаи использования / сценарии = Огромные объемы сообщений, горизонтальная шкала NoSQL, автоматическое отключение, отказоустойчивость, для миллиардов строк и миллионы столбцов, хранение столбцов.

R Server

Сервер для размещения и управления параллельными распределенными процессами R. Он предоставляет ученых по данным, статистиков и программистов языка R с доступом по требованию к масштабируемым распределенным методам аналитики на HDInsight.

Случаи общего использования / сценарии = масштабируемые, распределенные службы R, процесс анализа на основе R, распределенный набор алгоритмов - RevoScaleR и MicrosoftML, операционализация R-моделей.

Apache Storm

Распределенная система вычислений в реальном времени для быстрой обработки больших потоков данных. Storm предлагается как управляемый кластер в HDInsight.

Общие случаи использования / сценарии = нормализация данных в реальном времени, анализ Twitter, мониторинг журнала событий

Interactive Query (Hive 2.0)

Кэширование в памяти для интерактивных и быстрых запросов Hive.

Случаи общего использования / сценарии = анализ данных в сценариях HSQL (SQL), сценариев хранилища данных / витрины данных.

Apache Kafka

Платформа с открытым исходным кодом, используемая для создания потоковых контейнеров данных и приложений. Kafka также предоставляет функции очереди сообщений, которые позволяют публиковать и подписываться на потоки данных.

Случаи общего использования / сценарии = обмен сообщениями, отслеживание активности сайта, мониторинг данных показателей, агрегирование журналов, сбор событий и обработка потоков.

No Comments

Add a Comment