Основные тенденции аналитики Big Data не утратят актуальности в 2020 году
Общая значимость данных и информации в организациях продолжает расти. Мы также наблюдаем постоянный рост мегатенденций, таких как IoT, Big Data и, конечно, машинное обучение. Это наряду с продолжающимся развитием других, возможно, менее известных, но не менее важных инициатив в области данных, таких как управление и интеграция в облаке.
2019 год подходит к концу, и мы видим, как формируются новые и захватывающие события, которые, как ожидаются, породят еще больше источников и типов данных, увеличат спрос на интеграцию и оптимизацию затрат и улучшат аналитику и понимание для организаций.
Возможно, вы уже заметили, что эти тенденции набирают силу в 2019 году:
1. Рост IoT и цифровых близнецов
Несмотря на то, что Интернет вещей был у всех на устах в 2018 году, шум вокруг оцифровки окружающего нас мира и его значение для данных не исчезнут. Безумный рост данных IoT - наряду с продолжающейся неспособностью многих организаций обрабатывать или осмысливать все эти данные с их традиционными хранилищами данных - оставался главной темой 2019 года. И он обещает набрать обороты, предоставляя весьма реальные бизнес-возможности для большего количества организаций в 2020 году.
Добавляет топлива к этому непрерывно распространяющемуся огню - непрерывный рост цифровых близнецов, которые являются цифровыми копиями физических объектов, людей, мест и систем, работающих на данных, собираемых датчиками в режиме реального времени. По некоторым оценкам, к 2020 году количество подключенных датчиков превысит 20 миллиардов, что потенциально может обеспечить миллиарды цифровых двойников. Чтобы получить ценность всех этих данных, их необходимо интегрировать в современную платформу данных, используя автоматизированное решение для интеграции данных, которое включает в себя очистку данных, дедупликацию и объединение разрозненных и неструктурированных источников.
2. Дополненная аналитика
До недавнего времени исследователи данных или аналитики все еще должны были выявлять наиболее качественные данные после изучения множества количественных данных. Но с помощью дополненных данных системы могут использовать искусственный интеллект и машинное обучение, чтобы упреждающе предлагать идеи. Gartner говорит, что это скоро станет широко распространенной функцией подготовки данных, управления, аналитики и управления бизнес-процессами, что приведет к увеличению числа исследователей данных на гражданском уровне, поскольку барьеры для входа будут устранены - особенно в сочетании с обработкой на естественном языке, которая делает возможным интерфейсы, позволяющие пользователям запрашивать данные. их данные с использованием обычной речи и фраз.
3. Использование сырых данных
Gartner определяет сырые данные как «информационные активы, которые организации собирают, обрабатывают и хранят в ходе обычной деловой деятельности, но, как правило, не используют для других целей». Такие данные часто записываются и хранятся только в целях обеспечения соответствия, занимая много места для хранения, без монетизации ни напрямую, ни через аналитику для получения конкурентного преимущества.
Но поскольку организации стараются максимально задействовать бизнес-аналитику, мы, вероятно, увидим больший упор на этот пока еще относительно неиспользованный ресурс, в том числе оцифровку аналоговых записей и элементов (подумайте обо всем, от старых пыльных файлов до допотопных вещей) и их интеграция в хранилище данных.
4. Холодное хранение и оптимизация затрат на облачные вычисления
Перенос хранилища данных в облако почти всегда обходится дешевле, чем локальное размещение, но это не означает, что облачные системы не могут быть еще более оптимизированы по затратам. И в связи с этим в 2019 году все больше организаций обращаются к таким решениям для холодного хранения данных, как Azure Cool Blob и Google Nearline и Coldline. И на то есть веская причина: хранение старых и неиспользуемых данных в холодном хранилище может сэкономить организациям до 50 процентов затрат на хранение, что позволит высвободить средства для инвестиций в операции с данными, которые могут привести к окупаемости инвестиций, а не к потере денег.
5. Граничные вычисления и аналитика
Граничные вычисления используют преимущества близости, обрабатывая информацию как можно физически ближе к датчикам и конечным точкам, тем самым уменьшая задержку и трафик в сети. Gartner предсказал, что в 2019 году граничные вычисления и облачные вычисления станут взаимодополняющими моделями, и облачные сервисы будут расширяться, чтобы работать не только на централизованных серверах, но и на распределенных локальных серверах и даже на самих граничных устройствах. Это продолжит снижать задержки и затраты для организаций, обрабатывающих данные в реальном времени, до 2020 года.
Некоторые говорят, что граничные вычисления и аналитика также могут помочь повысить безопасность благодаря своему децентрализованному подходу, который локализует обработку и уменьшает необходимость отправки данных по сети или другим процессорам. Другие, однако, отмечают, что увеличение количества точек доступа для хакеров, которые представляют эти устройства - не говоря уже о том, что большинство периферийных устройств не имеют протоколов безопасности ИТ - делает организации еще более открытыми для взлома. В любом случае, взрыв в граничных вычислениях и аналитике означает еще большую потребность в гибком хранилище данных, которое может интегрировать все ваши типы данных, когда пришло время запускать аналитику.
6. Сторителлинг и визуализация данных
Эти два тренда продолжают укореняться в 2019 году, поскольку все больше организаций переносят свои традиционные и часто разрозненные хранилища данных в облако. Расширение использования облачных инструментов и платформ для интеграции данных означает более унифицированный подход к данным, что, в свою очередь, означает, что все больше и больше сотрудников будут иметь возможность рассказывать соответствующие, точные истории с данными, используя единственную версию правды организации.
А поскольку организации используют еще более совершенные и улучшенные инструменты интеграции для решения своих проблем с хранилищами данных, C-suite будет все больше доверять повествованию о данных, поскольку полученные в организации идеи становятся все более актуальными для результатов бизнеса.
7. DataOps
Концепция DataOps действительно начала появляться в этом году, и значение ее продолжало расти в 2019 году, поскольку конвейеры данных стали более сложными и потребовали еще больше инструментов интеграции и управления. DataOps применяет методы Agile и DevOps ко всему жизненному циклу аналитики данных, от сбора до подготовки к анализу, используя автоматическое тестирование и доставку для повышения качества данных и аналитики. DataOps способствует сотрудничеству, качеству и постоянному улучшению, а также использует статистический контроль процессов для мониторинга конвейера данных, чтобы обеспечить постоянное и стабильное качество.
Потому что, когда эксперты предсказывают, что организации должны иметь возможность обрабатывать 1000 источников данных в своем хранилище данных, это означает, что подлинно автоматизированная и всегда включенная интеграция данных будет разницей между доставкой ценности и неудачей.
Чтобы в полной мере воспользоваться этими тенденциями и многим другим, большинство организаций начинают понимать, что их традиционное хранилище данных не будет работать в чистом виде. Поскольку все больше и больше конечных точек, периферийных устройств и других источников данных стимулируют все новые и новые типы данных, крайне важно быть готовым к использованию гибкой платформы данных, которая способна автоматизировать и интегрировать все ваши источники и типы данных в масштабе.