R в Azure Data Lake - Часть 1 - Образцы данных
Azure Data Lake Store является одним из компонентов в облаке Microsoft, который помогает разработчикам, ученым и аналитикам данных хранить данные любых размеров, формы и скорости. Azure Data Lake оптимизирован для обработки больших объемов данных; он обеспечивает параллельную обработку с оптимальной производительностью. В озере данных Azure мы можем создать иерархическую структуру папок данных. Благодаря этим возможностям, Azure Data Lake позволяет ученым по данным применять эффективные методы анализа и машинного обучения с высокой масштабируемостью. Azure Data Lake Analytics включает U-SQL, который является языком, подобным SQL, позволяющим обрабатывать неструктурированные данные. Существует возможность осуществить машинное обучение внутри Azure Data Lake, изучить Azure Data Lake из R Studio, чтобы создать модель внутри среды R Studio. Кроме того, есть возможность получить данные из Azure Data Lake с помощью запроса Hive и использовать эти данные в Azure Machine Learning. В этой главе вы увидите, как мы можем писать и работать с данными с использованием языка USQL с R в Azure Data Lake и как мы можем импортировать данные из Azure Data Lake в студию R или импортировать данные из студии R в Azure Data Lake.
Среда Azure Data Lake
Azure Data Lake является одним из компонентов Microsoft Cloud для хранения данных. Как видно на рисунке ниже, второй компонент в Azure Portal связан с хранением данных. Azure Data Lake Store - это хранилище, в котором хранятся данные любого размера, формата (структурированные и неструктурированные). Кроме того, оно предназначено для выполнения аналитики (третий компонент). Azure Data Lake Analytics может использоваться с целью анализа данных (с использованием USQL) и машинного обучения.
Чтобы получить доступ к Azure Data Lake Store и Analytics, вам необходимо иметь учетную запись Azure Portal. Зарегистрируйтесь в «Portal.Azure.com». Затем щелкните значок «Create a resource» в левой части портала. Набрав «data lake», вы увидите два разных компонента для Azure Data Lake. Для начала мы собираемся сначала создать «Azure Data Lake Store».
Нажав кнопку «Создать», сначала необходимо предоставить некоторую информацию, такую как имя службы, подписки, группу ресурсов и локальный сервер.
Для создания компонентов требуется некоторое время. Как видно из приведенного выше рисунка, был создан магазин Azure Data Lake Store. После его создания мы можем исследовать данные для загрузки новых данных.
Выбирая “Data Explorer”, вы увидите в нем данные и структуру. Как видно из приведенного выше рисунка, есть возможность загружать данные, создавать папки, определять уровень доступа и т. д.
В настоящее время в Azure Data Lake Store нет данных. Существует возможность импортировать данные из другого компонента Azure в Data Lake Store. Для целей машинного обучения в этом сеансе, во-первых, мы собираемся создать образец данных через Azure Data Lake Analytics. Для этой цели нам необходимо создать ресурс Data Lake Analytics. Мы следим за тем же процессом, что и для Data Lake Store. Однако нам нужно указать, какой Data Lake Store мы будем использовать. Обратите внимание, что всегда важно сначала создать Data Lake Store, а затем создать Data Lake Analytics.
После указания имени, местоположения, связанного Data Lake Store, подписки и т. д. вам нужно подождать, пока компонент не будет создан и не отображен на панели управления Azure. Просто нажмите на созданную Azure Data Analytics (adlabook). Data Lake Analytics может быть полезна для разработки, запуска массивных параллельных данных, преобразования и обработки данных в U-SQL, R, Python и.Net. Для начала мы собираемся импортировать некоторые образцы данных и кодов. В верхней части страницы нажмите кнопку «Sample Scripts».
На странице «Sample Scripts» есть два основных образца данных: «Sample data missing» и «U_SQL Advanced Analytics». Нам нужен второй, чтобы получить доступ к образцам данных и кодам. Данные образца будут храниться в Data Lake Store.
Чтобы включить запись U-SQL и импортировать некоторые примеры данных и кодов, выберите «U_SQL Advanced Analytics». После этого в Azure Data Lake Store будет загружено около 2,5 ГБ. После запуска установки вы можете увидеть процесс включения U-SQL и импорта данных на странице «“install U-SQL Extensions». Процесс установки был показан как трубопровод, который может занять около 2 минут.
Просто закройте страницу и нажмите «adlabook» и выберите «Data Explorer» в верхней части страницы.
Вы можете просматривать папки Data Lake Store. В adlsbook есть имя папки, под которой есть папки буксировки с именем R и Python. Нажмите на папку R, чтобы увидеть комбинацию данных, файлов usql, zip-файлов и т. д.
Нажмите на один из файлов usql в папке R, например ExtR_PredictUsingLinearModel_RScript.usql. Щелкнув по файлу, вы можете увидеть связанные с ним файлы usql, содержащиеся на отдельной странице, как показано на рисунке выше. Как видно на рисунке ниже, сценарии usql похожи на язык SQL. Существует возможность загружать коды, переименовывать файлы, проверять формат файла, провоцировать или предоставлять доступ к файлу в режиме контроля доступа и т. Д. В следующем разделе мы объясним язык USQL и как писать R-коды или Python внутри него.
Мы расскажем о том, как мы можем исследовать и запускать коды в следующем посте.