4 тенденции в области анализа данных, которые будут главенствовать в 2018 году
По мере того, как предприятия становятся все более ориентированными на данные, технологии и стратегии данных должны начать приносить пользу. Вот четыре тенденции аналитики данных, которые можно наблюдать в ближайшие месяцы.
Наряду с социальными, мобильными и облачными технологиями, аналитические и связанные с ними технологии работы с данными стали основными “подрывниками” бизнеса в эпоху цифровых технологий. Поскольку компании начали переход от генерации данных к конфигурации данных, в 2017 году, данные и аналитика стали центром притяжения для многих предприятий. В 2018 году эти технологии должны начать обеспечивать ценность. Вот подходы, роли и проблемы, которые будут стимулировать стратегии аналитики данных в предстоящем году.
Озерам данным необходимо будет продемонстрировать ценность бизнеса или умереть
Данные накапливаются на предприятии в течение нескольких лет. Интернет вещей (IoT) только ускорит создание данных, поскольку источники данных переходят из Интернета в мобильные устройства.
«Это создало острую необходимость в эффективном снижении объемов передачи данных», - говорит Гай Черчворд, генеральный директор DataTorrent - провайдера данных в режиме реального времени.
Для многих предприятий, поддерживаемых такими технологиями, как Apache Hadoop, ответ заключался в создании озер данных - корпоративных платформ управления данными для хранения всех данных организации в собственных форматах. Озера данных были призваны разбить информационные силосы, предоставив единый репозиторий данных, который вся организация могла бы использовать для чего угодно: от бизнес-аналитики до интеллектуального анализа данных. Необработанные и неуправляемые, озера данных были разбросаны как ловушки для больших данных.
Но в то время как озера данных показали эффективность при хранении огромных объемов данных, получение эффективных данных оттуда оказалось затруднительным.
«Озеро данных прекрасно обслуживало компании с помощью данных, находящихся в состоянии покоя и при «пакетной» эпохе», - говорит Черчворд. «Еще в 2015 году стало ясно, что эта архитектура становится чрезмерной, но теперь она стала ахиллесовой пятой для реальной аналитики данных в реальном времени. Размещение данных и последующий их анализ ставит компании в тяжелое положение. Когда дело доходит до получения информации и принятия мер так же быстро, как позволяют вычисления, компании, полагающиеся на устаревшие данные о событиях, теряют способность ясно видеть ситуацию и быстро вносить коррективы. Это одна из областей, где «достаточно хорошо» может оказаться губительным».
Монте Цвебен, генеральный директор компании Splice Machine, согласен с этим.
«Разочарование в Hadoop растет с каждым днем: многие компании тонут в своих озерах данных от неспособности получить рентабельность инвестиций в связи со сложностью прототипов на основе вычислительных средств Hadoop».
По словам Кен Хоанг из Alation, чтобы выжить в 2018 году, озеру данных придется начать доказывать свою бизнес-ценность.
«Новая свалка данных - озеро данных - пережила экспериментальные внедрения в течение последних нескольких лет, и будет закрыта, если не докажет, что может приносить пользу,» говорит Хоанг. «Отличительной чертой для успешного озера данных будет наличие каталога предприятия, который объединил бы обнаружение информации, искусственный интеллект и управление информацией, чтобы предоставить новые идеи для бизнеса».
Тем не менее, Хоанг не верит, что все потеряно для озер данных. Он прогнозирует, что озера данных и другие крупные центры данных могут обрести второе дыхание в том, что он называет «супер хабами», которые могут доставлять «среду как услугу» через машинное обучение.
«Развертывания больших концентраторов данных за последние 25 лет (например, хранилищ данных, мастеров управления данными, озер данных, Salesforce и ERP) привели к большему количеству силосов данных, которые нелегко понять, связать или которыми трудно поделиться», - говорит Хоанг. «Концентратор хабов будет обладать способностью связывать активы в этих концентраторах, обеспечивая среду как услугу. Это, в свою очередь, будет стимулировать более релевантные и мощные интеллектуальные идеи, позволяющие быстрее и лучше достигать бизнес-результаты».
Тед Данинг (Ted Dunning), главный архитектор приложений для MapR, прогнозирует аналогичный сдвиг: с большими системами данных, становящимися центром тяжести с точки зрения хранения, доступа и операций, предприятия будут стремиться к созданию глобальной структуры данных, которая обеспечит всесторонний доступ к данным многих источников и вычислений для действительно многопользовательских систем.
«Мы увидим, что все больше и больше компаний обрабатывают вычисления с точки зрения потоков данных, а не только данных, которые обрабатываются и выгружаются в базу данных», - говорит Даннинг. «Эти потоки данных охватывают ключевые бизнес-события и зеркальную структуру бизнеса. Единая структура данных станет основой для построения этих широкомасштабных систем на основе потоков».
Эти матрицы данных будут поддерживать несколько видов вычислений, которые уместны для использования в разных средах, говорит Даннинг. «Тенденция начинает сводиться к тому, чтобы иметь структуру данных, обеспечивающую данные в движении и данные в состоянии покоя, необходимые для мультиоблачных вычислений, предоставляемых такими системами, как Kubernetes».
Лэнгли Эйде, главный директор по стратегическим вопросам в Alteryx, заявляет, что ИТ не грозит кризис, если озера данных обретут ценность: LOB-аналитики и CDO также должны будут взять на себя ответственность в 2018 году.
«Большинство аналитиков не воспользовались преимуществом неструктурированных ресурсов, таких как данные кликов, IoT, журналов и других, которые затопили свои озера данных - во многом потому, что это сложно сделать», - говорит Эйде. «Но, честно говоря, аналитики не выполняют свою работу, если оставляют эти данные нетронутыми. Понятно, что многие озер данных неэффективны - люди не знают, что там, как получить доступ к ним или как данные могут помочь им сгенерировать новые идеи. Это изменится в 2018 году, поскольку все больше CDO и предприятия хотят улучшить рентабельность инвестиций для своих озер данных ».
Эйде предсказывает, что в 2018 году аналитики заменят «грубые» инструменты, такие как Excel и SQL, более программными методами и технологиями, такими как каталогизация данных, чтобы обнаружить и получить больше ценности из данных.
CDO достигнет совершеннолетия
Эйде также предсказывает, что для лучшего понимания данных в 2018 году более значимой станет роль CDO. «Данные по сути являются новой нефтью, и CDO начинают признаваться в качестве важнейших лиц, принимающих решения относительно одной из наиболее важных проблем на предприятиях сегодня: повышение ценности данных», - говорит Эйде. «Часто с бюджетом менее 10 млн. долларов одна из самых больших проблем и возможностей для CDO делает возможность рекламирования самообслуживания реалистичной практикой, приближая корпоративные данные к бизнес-пользователям. В 2018 году CDO, работающие над достижением баланса между важнейшими задачами и возможностями, встроенными в LOB, в конечном итоге принесут большие доходы».
Эйде считает, что наибольший успех будут иметь CDO, которые позволят ресурсам, навыкам и функциональности маневрировать между центрами передового опыта и LOB. В данном случае, говорит Эйде, ключевую роль сыграют гибкие платформы и методологии.
Расцвет роли куратора данных
Томер Ширан, генеральный директор и соучредитель запуска аналитики Dremio, являющийся движущей силой проекта Apache Arrow с открытым исходным кодом, предсказывает, что предприятия увидят необходимость в новой роли: куратор данных.
Куратор данных, говорит Ширан, сидит между потребителями данных (аналитиками и учеными по данным, которые используют такие инструменты, как Tableau и Python, для ответа на важные вопросы с данными) и инженеров-технологов (людей, которые перемещают и преобразуют данные между системами с использованием языков сценариев, Spark, Hive и MapReduce). Чтобы быть успешными, кураторы данных должны понимать смысл данных, а также технологии, применяемые к данным.
«Куратор данных отвечает за понимание типов анализа, которые должны выполняться разными группами по всей организации, какие наборы данных хорошо подходят для этой работы, а также шаги, связанные с приведением данных из своего исходного состояния в вид и форму, необходимые для работы, которую будет выполнять потребитель данных», - говорит Ширан. «Хранитель данных использует такие системы, как платформы данных самообслуживания, чтобы ускорить сквозной процесс предоставления пользователям данных доступа к основным наборам данных без создания бесконечных копий данных».
Стратегии управления данными будут ключевыми темами для всех первых лиц компании
Общий регламент по защите данных (GDPR) вступит в силу 25 мая 2018 года, и оно появится как гром среди ясного неба аналитики, хотя не все предприятия подготовлены.
GDPR будет применяться непосредственно во всех государствах-членах ЕС, и он радикально изменит то, как компании должны искать согласие на сбор и обработку данных граждан ЕС, объясняют юристы из Morrison & Foerster's Global Privacy + Data Security Group: Мириам Вагмейстер, сопредседатель Global Privacy; Локки Моурел, европейский эксперт по конфиденциальности; и Джон Карлин, председатель по вопросам глобального риска и кризисного менеджмента (и бывшего помощника генерального прокурора по отделу национальной безопасности Министерства юстиции США).
«Компании, которые полагаются на согласие для всех своих операций по обработке, больше не смогут этого делать, и им понадобятся другие правовые основы (то есть контрактная необходимость и законные интересы)», - объясняют они. «Компании должны будут внедрить совершенно новую экосистему для уведомления и согласия».
Даже несмотря на то, что штрафы по GDPR потенциально значительны - административные штрафы могут составлять до 20 миллионов евро или 4% годового общего оборота (в зависимости от того, что из этого выше) - многие предприятия, особенно в США, пока не готовы.
«Когда надвигалась проблема 200 года (Y2K), были разногласия по поводу того, будут ли сложности с этим или нет», - говорит Скотт Гнау, технический директор Hortonworks. «Сегодня кажется, что едва ли кто-то должным образом готовится к тому, что GDPR будет введен в действие в мае 2018 года. Почему бы и нет? Мы сейчас находимся на этапе, когда каждая организация не только пытается бороться за «то, что будет дальше», но они борются чтобы поддерживать и решать проблемы, которые сейчас нуждаются в решении. Многие организации, вероятно, полагаются на главных сотрудников службы безопасности для определения правил, систем, параметров и т. д., чтобы помочь их глобальным системным интеграторам определить наилучший курс действий. Нереально вешать все на одного человека».
Гнау говорит, что для обеспечения надлежащего соблюдения GDPR необходимо, чтобы высшее руководство было проинформировано, подготовлено и взаимодействовало со всеми аспектами своей организации. Организации нуждаются в более эффективном рычаге общего управления своими данными. Но большие нарушения, такие как Equifax, появившееся в 2017 году, означают, они будут пытаться сбалансировать обеспечение доступа самообслуживания к данным для сотрудников, защищая эти же данные от потенциальных угроз.
В результате, Гнау прогнозирует, что управление данными станет фокусом для всех организаций в 2018 году.
«Ключевой задачей должна стать разработка системы, которая уравновешивает демократизацию данных, доступа, аналитики самообслуживания и регулирования», - говорит Гнау. «Способ, которым мы архивируем данные, безопасно продвигаясь вперед, будет влиять на всех - на клиентов в США и за рубежом, на СМИ, на ваших партнеров и т. д.».
Захари Босин, директор по маркетингу решений для специалистов по управлению облачными данными Veritas Technologies, прогнозирует, что компания США станет одной из первых, подлежащих штрафу в рамках GDPR.
«Несмотря на надвигающийся срок, только 31% компаний, опрошенных Veritas во всем мире, считают, что они соответствуют требованиям GDPR», - говорит Босин. «Штрафы за несоблюдение являются непомерными, и это регулирование будет влиять на любую компанию, которая имеет дело с гражданами ЕС».