Меняющаяся роль профессионалов BI: важность современной платформы данных
Ниже приводится четвертое и заключительное в серии из четырех сообщений в блоге об эволюционирующих ролях, навыках и функциях, которые выполняют профессионалы в области бизнес-аналитики и данных. Ниже перечислены первые три сообщения в блогах о меняющихся ролях BI Professionals:
- От аналитиков до ученых по данным
- Почему менеджеры выходят за пределы навыков BI при найме специалистов в области аналитики данных
- Идеальный кандидат
Мы видели в первых трех сообщениях о меняющейся роли профессионалов BI, о растущей ценности данных и профессионалов в области данных для организаций. Наряду с этим мы продемонстрировали важность (и, в большинстве случаев, необходимость) создания команды - либо внутри организации, либо аутсорсинговой - вместо того, чтобы полагаться на одного или двух человек.
Но ценность создания команды BI-специалистов будет невелика, если у вашей организации нет инфраструктуры данных для их резервного копирования.
Помимо препятствия для привлечения лучших талантов, отсутствие современной инфраструктуры данных может нарушить работу команды по данным, не позволяя им получать доступ к новейшим средствам визуализации, API-интерфейсам, типам данных, глубокому анализу и другим преимуществам (в то же время вынуждая их справиться с замедлением производительности, благодаря растущему объему данных).
Введите современную платформу данных. Она расширит функциональность традиционного хранилища данных до системы, которая включает в себя озеро данных, встроенный ETL (извлечение, преобразование, загрузка) и поддержку расширенной аналитики и машинного обучения. Она обеспечит гибкость, необходимую для расширенного моделирования данных, а также позволит использовать возможности самообслуживающегося анализа данных для обычных пользователей.
В конце концов, согласно опросу SAS, упомянутому в нашем третьем сообщении, большинство специалистов по данным регулярно демонстрируют «высокий уровень стресса». Пятьдесят пять процентов указывают на то, что они чувствуют себя очень напряженными. И если вам посчастливилось нанять высокого профессионала в области данных, просьба использовать старую и очень ограниченную систему только расстроит его.
Почему нужна современная платформа данных?
В настоящее время две основные тенденции привлекают организации к модернизации инфраструктуры данных:
1) эволюция технологий и данных, в том числе больших, неструктурированных и других типов данных
2) растущий спрос со стороны обычных пользователей на доступ к данным для самообслуживания.
Традиционные хранилища данных, которые не были созданы для обслуживания этих требований, просто не могут справиться с этим давлением: больше данных и больше типов данных, больше пользователей, занимающихся аналитикой, распространение инструментов самообслуживания аналитики, гибкие методы разработки (требующие использование API-интерфейсов), необходимость поддерживать научную деятельность в области данных и плохая производительность - все это серьезные причины, по которым многие компании отправляют на покой традиционные хранилища данных в пользу современных платформ.
Для организаций, которые стремятся к модернизации, существуют два основных варианта: Hadoop и Cloud.
Оба обеспечивают гибкость, масштабируемость и доступность, а также возможность по требованию получать доступ к полуструктурированным и неструктурированным данным (из внутренних или внешних источников).
Современная платформа данных: Hadoop
Hadoop может обрабатывать полуструктурированные или неструктурированные данные и идеально подходит для пакетной обработки больших данных. Создание современной платформы данных на Hadoop может экономить ваши деньги организации на аппаратном обеспечении, одновременно уменьшая нагрузку на вашу систему реляционных баз данных.
Но есть несколько существенных недостатков в использовании Hadoop, в том числе тот факт, что вы должны строить свою систему с нуля, что означает, что затраты на инженерную технику обычно высоки. DataFlair подробно описывает другие ограничения Hadoop, в том числе то, что она не подходит для небольших наборов данных, имея относительно медленные скорости обработки, и ее относительно сложно использовать.
Однако, если масштаб вашего проекта оправдывает инженерные затраты, Hadoop может стать хорошим вариантом для модернизации инфраструктуры данных.
Современная платформа данных: Cloud
Облачные хранилища данных, такие как Amazon Web Services, Google Cloud Platform и Microsoft Azure, быстро становятся все более популярными (как с точки зрения IaaS, так и с DBaaS), с тех пор как предложение Amazon было дебютировано в 2012 году.
Эти услуги устраняют большую часть административного и инженерного бремени, предлагая практически неограниченные возможности масштабирования; было зафиксировано, что облачные технологии, отделяющие хранилище от вычислений, дешевле запускать и быстрее масштабировать, чем альтернативы.
Независимо от того, какой путь вы выберете, модернизированная облачная платформа данных является ключом к тому, чтобы ваши специалисты BI могли максимально использовать ваши данные. Современная платформа включает в себя использование нескольких источников данных (включая внешние и внутренние данные), поддерживает хранение данных и озеро данных, а также выполняет пакетную обработку и обработку в режиме реального времени, поддерживая широкий круг пользователей по всей организации.