Что IBM ищет в ученом по данным

Tags: data science, data scientist

Соискатели иногда спрашивают, как IBM определяет понятие “ученый по данным” (data scientist). Это важный вопрос, поскольку все больше потенциальных представителей этой профеcсии борются за внимание на все более прибыльном рынке труда.

Первый шаг - провести различие между теми, кого мы видим в качестве настоящих ученых по данным и другими специалистами, работающими на смежных должностях (например, инженеры по данным, бизнес-аналитики и разработчики приложений AI). Чтобы выявить это различие, давайте сначала определим, что мы понимаем под наукой о данных.

По своей сути, наука о данных использует научный метод для решения бизнес-задач.

Можно еще больше расширить это определение, учитывая, что мы решаем эти бизнес-задачи с помощью искусственного интеллекта для создания прогнозов и рекомендаций, а также для оптимизации процессов.

Такое определение служит доказательством того, что для осуществления возможностей науки о данных нам нужны ученые по данным с очень конкретным опытом и навыками - в частности, необходимыми для запуска и выполнения проектов в области науки о данных:

  1. Прохождение обучения в качестве ученого, с MS или PhD
  2. Опыт в машинном обучении и статистике, с акцентом на оптимизацию решения
  3. Опыт в R, Python или Scala
  4. Возможность преобразования и управления большими наборами данных
  5. Доказанная способность применять вышеперечисленные навыки к реальным бизнес-задачам

  6. Возможность оценивать работу модели и настраивать ее соответственно

Давайте посмотрим на эти квалификации в контексте нашего определения науки о данных.

1. Обучение в качестве ученого, со степенью магистра наук или доктора.

Здесь не столько важна сама степень, сколько знания, полученные в процессе ее получения. Проще говоря, вы изучаете научный метод, который начинается с способности принимать сложную, но абстрактную задачу и разбивать ее на множество проверяемых гипотез. Также вы должны хорошо разрабатывать испытания для проверки своих гипотез и анализировать результаты, чтобы подтвердить их или опровергнуть. Некоторые могут изучать эти навыки вне академических кругов или через правильное сочетание онлайн-обучения и практики - так что существует определенная гибкость в отношении фактической степени, но прямой опыт использования научного метода является обязательным.

Еще одним преимуществом высокой степени является строгость процесса экспертной оценки и требования к публикации, которые распространяются в программах степени. Чтобы получить публикацию, кандидаты должны представить свою работу таким образом, чтобы другие могли ее просматривать и воспроизводить. Вы также должны предоставить доказательства того, что результаты действительны, а методы работают.  Для этого требуется глубокое понимание разницы между вероятностными и детерминированными факторами, а также значением и проклятием корреляции. Можно получить абстрактное представление об этих ценностях, но нельзя заменить отрицательное и положительное восприятие со стороны наставников и отказ или признание журналов и обзоров.

2. Опыт в машинном обучении и статистике, с акцентом на оптимизацию решения

Использование научного метода для решения проблем бизнеса позволяет нам принимать более правильные решения, прогнозируя, что произойдет дальше. Эти прогнозы являются результатом искусственного интеллекта, а именно - машинного обучения. Для настоящего ученого по данным основные технические навыки машинного обучения и статистики просто не подлежат обсуждению.

Кроме того, оптимизация решений (например, исследование операций) является быстрорастущим аспектом науки о данных. Действительно, цель науки о данных состоит в том, чтобы помочь принимать правильные решения, вероятностно оценивая, что может произойти в будущем. Бережное использование оптимизации принятия решений позволяет ученым данных определять следующее лучшее действие для достижения наилучшего результата в бизнесе.

3. Опыт в R, Python или Scala

Будучи ученым по данным, вы не обязаны быть столь же хороши в программировании, как профессиональные разработчики, но способность создавать и запускать код, поддерживающий процесс обработки данных,  является обязательной - и это включает в себя возможность использования статистических и машинных обучающих пакетов в одном из популярных языков наукоемких данных.

Python, R и Scala - это самые быстроразвивающиеся языки для науки о данных, К ним можно отнести и Julia, хотя этот язык еще не достаточно зрелый. Подобно Python, R и Scala, ядро Julia является открытым исходным кодом. Но важно отметить, что причина использования этих языков заключается не в том, что они бесплатны, а для инноваций и свободы их использования там, где вам необходимо.

4. Способность преобразования и управления большими наборами данных

Четвертый навык иногда называют “большими данными”. Здесь ключевой является возможность использования распределенных структур обработки данных, таких как Apache Spark. Настоящий ученый по данным должен знать, как собирать наборы данных из нескольких источников и нескольких типов данных с помощью своей научной группы. Сами данные могут представлять собой комбинацию структурированных, полуструктурированных и неструктурированных данных, размещенных на нескольких облаках.

Процесс управления данными состоит из поиска, сбора, изучения, преобразования данных, выявления особенностей (важных элементов данных в прогнозировании), разработки функций и предоставления данных для демонстраци. Приоритетом для любого ученого по данным будет оптимизация этого процесса, который может легко занять 80 процентов его времени.

5. Доказанная способность применять вышеперечисленные навыки к реальным бизнес-задачам

Пятый набор навыков относится к нетехническим. Он включает способность общаться с сотрудниками, не связанными с данными, чтобы убедиться, что команды по работе с данными обладают необходимыми источниками данных и что они применяют науку о данных для решения правильных бизнес-задач. Владение этим навыком также означает обеспечение того, чтобы результаты проектов в области науки о данных (например, прогнозы о вероятной эволюции бизнеса) были полностью поняты и выполнимы для деловых людей. Это требует хороших навыков пояснения, в частности, способности сопоставлять математические концепции с здравым смыслом.

6. Способность оценивать работу модели и настраивать ее соответственно

Для некоторых этот шестой набор навыков - один из аспектов второго набора: знания в области машинного обучения в целом. Мы хотели выделить его отдельно, потому что слишком часто этот фактор отличает хорошего научного сотрудника от опасного. Ученые, не обладающие этим навыком, могут легко поверить, что они создали и развернули эффективные модели, когда на самом деле их модели сильно перегружены доступными обучающими данными.

Будьте настоящим ученым

Если вы хотите быть истинным ученым по данным, а не только им именоваться - мы рекомендуем вам овладеть каждой из этих шести компетенций. Ученый по данным принципиально отличается от бизнес-аналитика или аналитика данных, которые часто выступают в качестве владельцев продуктов в наукоемких группах и играют важную роль в предоставлении экспертных знаний самим ученым.

Это не значит, что бизнес-аналитики, аналитики данных и другие не могут переквалифицироваться в настоящих ученых в области данных, - но поймите, что это требует времени, обязательств, наставничества и бесконечной практики на реальных и трудных проблемах.



No Comments

Add a Comment