AWS Lake Formation переходит в общий доступ в связи с ростом рынка облачных озер данных

Tags: AWS, Azure, data lake, cloud, облако

После нескольких месяцев предварительного просмотра Amazon Web Services сделали свою службу облачного хранилища данных AWS Lake Formation  общедоступной.

AWS Lake Formation впервые представила Lake Formation в 2018 году на конференции re: Invent, когда сервис официально стал коммерчески доступным 8 августа. AWS Lake Formation - это управляемый сервис, который позволяет пользователям создавать и управлять облачными озерами данных. Озеро данных (Data Lake) - это форма хранилища данных, в котором хранятся большие объемы информации в собственных форматах.

По словам Майка Леоне, старшего аналитика Enterprise Strategy Group, в то время как технология Data Lake доступна уже почти десять лет, рынок еще не развит.

По его данным, только 22% организаций в настоящее время используют или планируют использовать озера данных. Самая интригующая возможность отражена в его выводе, что 38% процентов организаций оценивают и изучают, как они могут извлечь выгоду из правильной технологии озера данных, и именно здесь, по мнению Леоне, AWS Lake Formation вступает в игру.

«Хотя многие организации сталкиваются с различными препятствиями при внедрении озера данных, AWS Lake Formation стремится интеллектуально упростить, автоматизировать и обезопасить сложное в настоящее время управление и оркестровку доступа к данным и их доступностью в пределах озера данных», - сказал Леоне. «И это до учета того факта, что Lake Formation служит основой данных для организаций, стремящихся расширить свои стратегии в области данных и аналитики в рамках AWS и около 60 своих служб баз данных и аналитики».

Озера данных часто связаны с неструктурированными данными, но, по словам Леона, AWS Lake Formation стремится повысить ценность идеи простого сброса неструктурированных данных в сервис облачного хранения данных Amazon S3. По данным Леоне, около 81% организаций считают, что облако важно для согласования со своей стратегией анализа данных.

«Организации осознают ценность быстрого использования данных и аналитических услуг для реализации своих инициатив, основанных на данных», - сказал он. «Но для этого вам нужно основание данных, особенно такое, которое способно упростить использование озера данных. AWS Lake Formation удовлетворяет эту потребность».

Развитие технологии облачного озера данных 

Клиенты могут использовать различные методы для обработки больших объемов данных, включая хранилища данных и методы виртуализации данных. По словам Рахула Патхака, генерального менеджера по базам данных, аналитике и блокчейну в AWS, подход к озеру данных является лучшим вариантом по ряду причин.

«Озера данных могут справиться с масштабом и гибкостью, необходимыми для объединения различных типов данных и аналитических подходов, чтобы получить более глубокое понимание способами, недоступными традиционным силосам и хранилищам данных», - сказал Патхак. «AWS предоставляет заказчикам самый широкий спектр сервисов аналитики и машинного обучения для быстрого доступа ко всем соответствующим данным, без ущерба для безопасности или управления. Решения для виртуализации данных не обеспечивают одинаковое сочетание гибкости и контроля».

Как AWS Lake Formation подключает облачные озера данных

Сервис AWS Lake Formation основан на нескольких существующих сервисах AWS, включая Amazon S3 в качестве уровня инфраструктуры хранения. Патхак сказал, что AWS Lake Formation управляет доступом к данным для зарегистрированных данных, хранящихся в Amazon S3, и управляет доступом к запросам из AWS Glue, Athena, Redshift и (в бета-версии) EMR с помощью Apache Spark, с помощью унифицированной модели безопасности и разрешений.

 

Кроме того, AWS Lake Formation может принимать данные из Amazon S3, баз данных Amazon RDS и журналов AWS CloudTrail, понимать их форматы и обеспечивать чистоту данных и возможность запросов. Lake Formation настраивает потоки, централизует их оркестровку и позволяет пользователям контролировать выполнение заданий.

Начало работы с облаком данных озера является еще одной проблемой, которую AWS стремится упростить с помощью Lake Formation. Патхак сказал, что клиенты могут использовать один из проектов, доступных в AWS Lake Formation, для ввода данных в свое озеро данных. Чертежи используются для создания рабочих процессов AWS Glue, которые сканируют исходные таблицы, извлекают данные и загружают их в Amazon S3.

«В Amazon S3 AWS Lake Formation организует данные, устанавливает необходимые разделы и форматирует данные для оптимизации производительности и стоимости», - сказал Патхак. «Для данных, уже находящихся в Amazon S3, сканер может создавать метаданные, описывающие эти данные, и регистрировать пути Amazon S3, чтобы AWS Lake Formation управляла ими».

Теперь, когда AWS Lake Formation в целом доступна, Патхак сказал, что планируется добавить больше интеграции с другими аналитическими сервисами, такими как Amazon QuickSight и Amazon SageMaker, а также расширить охват других регионов по всему миру. AWS Lake Formation в настоящее время доступна во всех регионах США, Европы и Азиатско-Тихоокеанского региона.

No Comments

Add a Comment