Что такое Hadoop?
Если вы изучаете Big Data, вы рано или поздно столкнетесь с этим странным звучащим словом: Hadoop - но что это такое?
Проще говоря, Hadoop можно рассматривать как набор программ и процедур с открытым исходным кодом (то есть, по сути, они бесплатны для любого пользователя, за некоторыми исключениями), которые каждый может использовать в качестве «основы» своих операций с большими данными.
В этой статье мы постараемся объяснить значение этого слова как можно проще, поскольку многие из вас, вероятно, не являются инженерами-программистами, и надеемся, что мы ничего не упрощаем чрезмерно - подумайте об этом как о кратком руководстве для того, кто хочет немного узнать больше о гайках и болтах, которые делают возможным анализ больших данных.
4 Модули Hadoop
Hadoop состоит из «модулей», каждый из которых выполняет определенную задачу, необходимую для компьютерной системы, предназначенной для анализа больших данных.
1. Распределенная файловая система
Наиболее важными из этих модулей являются распределенная файловая система, которая позволяет хранить данные в легкодоступном формате на большом количестве связанных устройств хранения, и MapReduce, которая предоставляет основные инструменты для поиска в данных.
(«Файловая система» - это метод, используемый компьютером для хранения данных, поэтому его можно найти и использовать. Обычно это определяется операционной системой компьютера, однако система Hadoop использует собственную файловую систему, которая находится «над» файловой системой хост-компьютера - это означает, что к ней можно получить доступ с любого компьютера с любой поддерживаемой ОС).
2. MapReduce
MapReduce назван в честь двух основных операций, выполняемых этим модулем: чтение данных из базы данных, перевод их в формат, подходящий для анализа (карта), и выполнение математических операций, например подсчет числа мужчин в возрасте 30+ в базе данных клиентов reduce ).
3. Hadoop Common
Другим модулем является Hadoop Common, который предоставляет инструменты (на Java), необходимые компьютерным системам пользователя (Windows, Unix или любым другим) для чтения данных, хранящихся в файловой системе Hadoop.
4. YARN
Последний модуль - YARN, который управляет ресурсами систем, хранящих данные и выполняющих анализ.
В последние годы различные другие процедуры, библиотеки или функции стали считаться частью «каркаса» Hadoop, но принцип распределенной файловой системы Hadoop, Hadoop MapReduce, Hadoop Common и Hadoop YARN - это основная четверка.
Как появился Hadoop
Разработка Hadoop началась, когда дальновидные инженеры-программисты осознали, что для любого человека становится все более полезным иметь возможность хранить и анализировать наборы данных, намного большие, чем можно практически хранить и получать к ним доступ на одном физическом устройстве хранения (например, на жестком диске).
Отчасти это связано с тем, что по мере того, как физические устройства хранения становятся больше, компоненту, который считывает данные с диска, требуется больше времени для перемещения в указанный сегмент. Вместо этого многие меньшие устройства, работающие параллельно, более эффективны, чем одно большое.
Он был выпущен в 2005 году Apache Software Foundation, некоммерческой организацией, которая производит программное обеспечение с открытым исходным кодом, которое скрывает большую часть Интернета. И если вам интересно, откуда появилось странное имя, это было имя, данное игрушечному слону, принадлежащему сыну одного из оригинальных создателей!
Использование Hadoop
Гибкая природа системы Hadoop означает, что компании могут добавлять или модифицировать свою систему данных по мере изменения своих потребностей, используя дешевые и легкодоступные компоненты от любого поставщика ИТ.
На сегодняшний день это наиболее широко используемая система для хранения и обработки данных на «стандартном» оборудовании - относительно недорогие готовые системы, соединенные вместе, в отличие от дорогих, сделанных на заказ систем, выполненных на заказ для выполняемой работы. Фактически утверждается, что более половины компаний из списка Fortune 500 используют его.
Почти все крупные сетевые имена используют его, и, как любой может изменять его для своих собственных целей, изменения, сделанные в программном обеспечении опытными инженерами, например, в Amazon и Google, возвращаются сообществу разработчиков, где они часто используются для улучшения «официального» продукта. Эта форма совместной разработки между добровольцами и коммерческими пользователями является ключевой особенностью программного обеспечения с открытым исходным кодом.
В своем «сыром» состоянии - с использованием базовых модулей, предоставленных Apache http://hadoop.apache.org/, он может быть очень сложным даже для ИТ-специалистов - именно поэтому были разработаны различные коммерческие версии, такие как Cloudera, которые упростить задачу установки и запуска системы Hadoop, а также предлагать услуги обучения и поддержки.
Таким образом, вот что такое Hadoop, в нескольких словах. Благодаря гибкому характеру системы компании могут расширять и корректировать свои операции анализа данных по мере расширения своего бизнеса. А поддержка и энтузиазм сообщества разработчиков открытого кода привели к значительным шагам к тому, чтобы сделать анализ больших данных более доступным для всех.