7 концептуальных проблем в области анализа данных (BI, Data Science)
Аналитика данных быстро становится ключом к выигрышной бизнес-стратегии. Но без правильного подхода, навыков и тактики ваши инициативы по предоставлению данных никогда не будут складываться успешно.
Аналитика данных стала одной из самых важных вещей в бизнесе и технологии для организаций, предоставляя им возможность подробно анализировать практически любой аспект своей деятельности и тем самым набирать преимущество в конкурентной борьбе.
Исследовательская фирма Gartner в начале этого года предсказывала, что 2017 год будет годом данных и аналитики, которые будут создавать ценность как внутри, так и за пределами организаций, готовых к трансформации. По словам Gartner, подходы к аналитике данных становятся более целостными и охватывают весь бизнес.
Cреди ключевых тенденций: аналитика будет управлять современными бизнес-операциями, а не просто отражать их производительность; предприятия будут создавать сквозные архитектуры, позволяющие управлять данными и аналитикой от ядра до края организации; и руководители сделают данные и аналитику частью бизнес-стратегии, позволяя профессионалам данных и аналитики брать на себя новые роли и генерировть рост бизнеса.
Компании вкладывают огромные деньги в инструменты аналитики. Компания International Data Corp. в марте 2017 года сообщила, что в этом году мировые доходы от больших данных (Big Data) и бизнес-аналитики достигнут 150,8 млрд. Долл. США, что на 12 процентов больше, чем в 2016 году, что, по их оценкам, будет продолжаться до 2020 года, когда доходы составят более 210 млрд долларов.
И все же, при всем внимании уделяемом аналитике данных, многие организации попадают в ловушки, которые ставят под угрозу или разбавляют истинную ценность аналитики. По словам ИТ-лидеров и отраслевых экспертов, ниже семь самых серъезных ошибок в аналитике.
1. Начинать, не зная, что вы ищете
Не зная, какие конкретные тенденции или сигналы нужно изучать в ваших данных, как вы можете ожидать от них какой-либо истинной ценности?
«Самая большая проблема в процессе анализа - это не знать, что вы ищете в данных, - говорит Том Дэвенпорт, старший советник Deloitte Analytics».
«Идея в области интеллектуального анализа данных, что компьютер сам может найти то, что интересно в данных, заставила многие компании делать ошибки на протяжении десятилетий», - говорит Дэвенпорт. «Даже с машинным обучением полезно знать, что вы ищете с точки зрения отношений в данных».
Weather.com делает упор на поиске «людей, которые знают, как запрашивать наши данные, и понимают полную и точную историю того, что данные пытаются сказать», - говорит Тодд Итон, менеджер по обеспечению качества на сайте погоды.
«Правильные люди увлечены использованием данных для ответа на вопросы, а затем готовы постоянно сомневаться в своих выводах, чтобы убедиться, что данные не просто подогнаны, но могут реально объяснить, что мы видим, и помогать предсказать, куда мы идем», Итон говорит. «Важно, чтобы все знали, что мы пытаемся найти с помощью данных и наши общие цели».
Рецепт неудачи - это не иметь фокуса при запуске аналитических систем. «Команды аналитиков данных будут наиболее успешными, если они сосредоточены на конкретном результате», - говорит Кристина Кларк (Christina Clark), главный специалист по данным в многонациональном конгломерате GE. «Часто команды терпят неудачу, потому что они, как ожидается, будут решать слишком много бизнес-требований сразу, в конечном счете, растягиваются слишком тонко и не оправдывают ни интереса, ни финансирования».
2. Создание и поддержка своей собственной инфраструктуры
Может возникнуть сильное искушение построить и поддерживать свою собственную большую инфраструктуру данных. Но это может поставить под угрозу миссию ваших аналитических усилий.
«Это, как правило, тратит много времени специалистов по анализу данных на задачи, отличные от реальных задач аналитиков, - говорит Оливер Таваколи, технический директор компании по кибербезопасности Vectra .
«Мы знали, что хотим, чтобы в нашей аналитике было много данных, - говорит Таваколи. «Мы начали с того, что все говорили нам: мы купили множество серверов с большим объемом дискового пространства, мы разместили их в нашем дата центре, мы создали собственный кластер Hadoop поверх Apache Spark и дали задачу нашим анаитикам написать код Scala для взаимодействия с кластером».
С кластером иногда возникают проблемы, из-за сбоев оборудования, чаще всего из-за сбоев программного обеспечения. Пакеты программного обеспечения будут устаревать, а время идти пока кластер недоступен.
«С нас наконец было достаточно и мы решили передать эту часть проблемы аутсорсингу», - говорит Таваколи. Vectra пошла с внешним провайдером и с тех пор стала тратить мало времени на проблемы с ИТ и разработкой, и почти все наше время было посвящено подаче данных в систему и анализу данных в ней», - говорит он.
3. Разделение данных вместо унификации
Предприятия долгое время боролись с проблемой «силосов данных», которые мешают различным отделам делиться информацией таким образом, чтобы это могло принести пользу организации в целом. Такая же проблема относится и к аналитике.
Хорошая передовая практика - унифицировать разрозненные данные, - говорит Джеффри Нимерофф (Jeffry Nimeroff), CIO в Zeta Global, компании по маркетингу для управления жизненным циклом клиентов.
«Каждый силос данных создает барьер между межсоединениями, которые могут принести пользу», - говорит Нимерофф. «Например, подумайте о том, что богатый профиль пользователя подключен или отключен от данных активности сайта. Чем больше данных, которые могут быть взаимосвязаны, тем лучше, поскольку эти взаимосвязи - это то место, где может быть прогностическая сила».
Это не означает, что нужно переместить все данные из их исходных систем в монолит, говорит Нимерофф. «Вместо этого мы используем одну из современных технологий интеграции, чтобы обеспечить единое представление данных», - говорит он.
4. Слабая гигиена данных
Если данные, которые вы анализируете, не точны, не актуальны, слабо организованы и т. Д., Ценность аналитики может резко упасть.
«Мусор на вход, мусор на выход - проблема, которая усиливается объемом необработанных бизнес-данных», - говорит Нимерофф. «Лучшие команды [аналитики данных] хотят, чтобы качество данных было достаточным. Таким образом, выигрышная комбинация, обеспечивающая стандарты качества - это процессы плюс использование технологий».
На стороне процесса важно обеспечить повторяемость процессов, а затем достоверность результатов, говорит Нимерофф. По его словам, с технологической стороны развертывание инструментов качества данных, включая профилирование, управление метаданными, очистку, поиск источников и т. д. помогает обеспечить более качественные данные.
Организации должны использовать инструменты для очистки данных от мусора и обработку данных из разных источников, чтобы сделать их совместимыми и понятными, а также максимально простыми для анализа, - говорит Таваколи. «Сделайте данные как можно более самоописательными, чтобы все члены команды понимали их значение».
Высококачественные данные «являются ключевым топливом для создания полезных идей», - говорит Т.П. Миглани (TP Miglani), генеральный директор Incedo, компании по технологическим услугам. «Вам нужно создать хранилища данных и озер данных (Data Lake), чтобы объединить структурированные и неструктурированные данные. Успешные организации убедитесь, что они улучшают качество данных с помощью очистки и вычисляют недостающие значения».
Хорошая гигиена данных также означает сохранение данных как можно более актуальными. Данные должны быть свежими, и «вселенная данных» постоянно расширяется, чтобы компании могли извлечь выгоду из аналитики, говорит Нимерофф.
«Свежесть данных требует понимания своевременности ваших текущих процессов сбора данных», - говорит Нимерофф. «Очевидно, что чем больше в режиме реального времени система, тем лучше свежесть. Свежесть также может поддерживаться с помощью сторонних служб для расширения существующих технологий и процессов ».
5. Отклонение от спонсорства аналитических инициатив
Как и в случае любого другого крупного ИТ-проекта, отсутствие благословений старшего исполнительного руководства по проектам в области анализа данных может нанести ущерб успеху.
«Цель аналитических команд - генерировать идеи, связывая данные с тактическими и стратегическими решениями компании», - говорит Миглани. «Одним из примеров неудачи было бы, если бы команда разработчиков данных провела большой анализ данных, разработала точные предсказательные модели, но результаты не были реализованы, потому что это потребовало изменений в организации и культуре».
Кларк говорит, что создание основы управления данными требует постоянных усилий, часто на протяжении нескольких лет. «Некоторая часть работы, которую команда данных и аналитики должна вести, не будет иметь очевидных немедленных результатов, которые могут быть несовместимы с ожиданиями бизнес-партнеров. Это требует сильного лидерства и усилий по обучению деловых партнеров, чтобы обеспечить будущее, основанное на данных».
6. Игнорирование менеджеров среднего и нижнего уровня
Аналитика, выполненная в вакууме учеными-учеными и другими специалистами без твердого вклада бизнес-менеджеров, которые ближе всего к аналитике, скорее всего, не будет столь успешной.
«Без активного участия менеджеров среднего и нижнего уровня информация, предоставляемая аналитической командой, часто не помогает на самом деле управленческой команде сделать свою работу лучше с каждым днем», - говорит Дэвид Джаннетто, главный операционный директор Astea International, поставщика услуг программное обеспечение для управления.
«Информация будет направленной, укажет на недостатки процесса или области, которые могут быть улучшены, но менеджмент доберется до этого - когда у них будет время», - говорит Джаннетто. «И большинство менеджеров никогда не имеют дополнительного времени. Только в том случае, когда команда состоит из людей, которые действительно знают бизнес и информацию, в которой бизнес действительно нуждается, чтобы предоставленная информация стала достаточно ощутимой, чтобы положительно повлиять на бизнес».
Если аналитика подсказывает пользователям, где реальная проблема - где они, вероятно, потерпят неудачу, - в течение достаточного времени для их предотвращения, они будут использовать эту информацию каждый день, и инициатива будет успешной, говорит Джаннетто.
7. Отсутствие культуры и навыков для поддержки хорошей аналитики данных
Это общая проблема для организаций, в значительной степени потому, что такие навыки, как наука о данных, так трудно найти. Но если грамотность данных не является центральной для культуры компании, вероятность неудачи с аналитикой еще выше.
«Для людей, которые не знакомы с аналитикой, наука о данных воспринимается как своего рода магический способ решения проблем», - говорит Миглани. «Концепции предсказания и самообучения очень трудно понять людям. Будет сложно убедить ваших деловых партнеров принимать решения по непрозрачным алгоритмам. Сначала вам нужно обучить их.
И организации продолжают бороться, чтобы найти аналитиков данных (Data scientist) и других специалистов с аналитическими навыками. «Один из лучших способов развития этой возможности - собрать этот талант, а не разыскивать суперзвезд вне вашей организации», - говорит Миглани. «Многие проекты терпят неудачу или задерживаются, потому что [компании] не могут нанимать аналитиков вовремя или терять их до высокого истощения».