Дерево решений: понятия - часть 1

Tags: machine learning

Дерево решений является одним из основных подходов к машинному обучению. Это действительно мощный инструмент для:

  • прогнозирования
  • описательного анализа
  • отбора признаков

В этом посте мы покажем, как работает дерево решений.

В будущих постах мы покажем вам некоторые из основных алгоритмов для дерева решений с R или Python. Кроме того, в более поздних постах вы увидите, как использовать его с целью прогнозирования, описательного анализа и выбора функций в отчете Power BI и Power Query. В этом посте мы сосредоточимся на том, как работает дерево решений.

Как дерево решений помогает при принятии решений?

Принятие решений соискателя для разных рабочих мест.

Представьте себе, что есть разные рабочие места, которые рассматривает соискатель. Однако у него есть некоторые критерии для его выбора, три важных вопроса

  1. В чем заключается работа
  2. Зарплата рассчитывается за год или на основе почасовой ставки
  3. Сколько раз необходимо  выезжать за границу

Мы можем имитировать процесс принятия решений, как показано ниже. Корень дерева является основной точкой принятия решения, говорящей «да» или «нет».

Тогда самый важный критерий заключаются в том, чтобы проверить, соответствует ли название должности компетенции или нет.

Тогда второй по важности критерий - зарплата. Наконец, третьим критерием является проверка количества поездок в год.

Это тот же самый процесс, который мы проходим при принятии решений.

Однако хорошим моментом в дереве решений является то, что он использует теорию притока информации, чтобы определить, каковы основные критерии ветвления дерева. Таким образом, в приведенном выше примере дерево решений просто получит столбец прогноза (да или нет для работы) и другие критерии. Затем, на основе притока информации и теории энтропии, она определяет, какие атрибуты среди других должны использоваться для первого разветвления (в приведенном выше примере название работы). Поэтому мы можем использовать Дерево решений с целью выбора функции во многих задачах классификации.

На основе каких атрибутов Дерево решений осуществляет разветвление?

Представьте, что у нас есть данные следующего типа:



Мы хотим знать, какие критерии (Job title, Salary или No Trave,  per Year) - лучший классификатор для выбора работы (“да” или “нет”)

Посмотрите на диаграммы, представленные ниже:

На первой показан вид работы в отношении статуса выбора работы. Вероятность того, что название должности А получит ответ «Нет» выше, чем получение ответа «Да».

В то время как на второй, название должности относительно статуса выбора работы, с зарплатой <100000 шанс сказать «Нет» немного выше.

Тем не менее, для последнего графика, где решение основывается на числе поездок в год, все условия одинаковы, поэтому трудно решить сказать «Да» или «Нет», исходя из числа поездок в год.

Другими словами, название должности и зарплата - лучшая мера для классификации статуса выбора работы.

Теперь давайте посмотрим на некоторую математику!

Расчет энтропии:

В родительском узле у меня есть данные названия должности (3 для A и один для B),  Теперь я группирую их, как показано ниже, чтобы увидеть, что у меня есть для выбора работы для  названия должности A

Например, для названия задания A, есть один ДА и два НЕТ (номер 2 на рисунке ниже), тогда как для задания B есть одно ДА. Теперь мы вычисляем энтропию для каждого листа.

Для вычисления энтропии нам нужно рассчитать вероятность ДА и НЕТ.

Например, на изображении выше, у дочернего узла в верхней части, вероятность для YES равна 1/3. Вероятность NO составляет 2/3. Поэтому мы вычисляем энтропию по формуле. Конечная вероятность составляет около 0,55.

Более высокая энтропия - лучший результат и лучшие атрибуты для классификации.

Нужно повторить расчет для других атрибутов: зарплата и количество поездок в год.

Итак, для зарплаты и названия должности, у нас есть лучшая (большая) энтропия. Эти два атрибута могут быть хорошим измерением для ветвящегося дерева. Более того, в случае выбора функции мы можем полагаться на эти два атрибута.

В будущих сообщениях мы покажем вам некоторые из основных применений дерева решений для прогностического и описательного анализа с использованием визуального представления Power BI.

No Comments

Add a Comment