Дерево решений Power BI - Часть 2

Tags: machine learning, Power BI

В последней части мы рассказывали об основных концепциях дерева решений.

В этом посте мы покажем, как использовать компонент дерева решений в Power BI с целью предсказательного анализа в отчете. В следующем посте мы объясним, как получить данные в Power Query, чтобы получить динамическое предсказание.

Для прогнозирования у нас есть два подхода: предсказание значения и предсказание группы. Еще у нас есть Дерево решений, которое может обрабатывать и то, и другое.

В мире науки о данных есть набор данных Hello world под названием «Титаник» .  Этот набор данных содержит информацию о пассажирах, которые выжили или не пострадали от катастрофы, возраст, пол, класс пассажиров и т. д.

Мы собираемся спрогнозировать, выживут или нет люди с определенным возрастом, полом, пассажирским классом и т.д.

Первый шаг - импорт пользовательского визуала из магазина. Для его получения с веб-сайта Power BI вам необходимо войти в портал (номер 1). Затем просто нажмите на 3 точки в области визуализации и выберите «Import from the store» (номер 2).

В магазине Power BI с левой стороны выберите «расширенную аналитику», затем найдите «Дерево решений».

Внимание!

  • когда вы импортировали пользовательский визуал, есть вероятность, что он начал устанавливать некоторые пакеты, такие как «rpart» и т. д.
  • кроме того, у вас должна быть версия R на вашем компьютере, чтобы увидеть эту диаграмму.
  • эта диаграмма является однонаправленной интерактивной (т. е. power bi visuals позволяет срезать диаграмму, но, щелкнув диаграмму, вы не сможете срезать другие диаграммы)

Теперь после импорта визуала его легко использовать: просто нажмите на него, чтобы он был в белой области.

На этом этапе мы должны выбрать поля для принятия решений.

Главная цель - предсказать, выжили ли люди или нет. Для этого сначала мы выбираем пару столбцов, таких как «age, gender, и passenger class». Затем мы помещаем столбец «Survived» в качестве целевой переменной. Следующий шаг - удалить отсутствующие значения «blank» из столбца возраста.

Наконец, изображение Дерева решений показано ниже в отчете Power BI.

Посмотрим, что это значит?

В корне дерева мы имеем 4 числа:

  • 0: позиция для не выживших людей, зелёного цвета. Так, в целом многие люди не выжили.
  • 100%: все данные находятся в корне
  • 0,52 и 0,48: показывают, что около 52% пассажиров - мужчины и 48% - женщины. Поэтому первые атрибуты, которые Дерево решений определяло для анализа, - это пол людей.

 

В других узлах, например, в левом:

 

  • анализ мужчин
  • большинство из них не выжило (0).
  • второй атрибут, который будет анализироваться, - возраст людей, составляет ли он больше 6,5 лет или меньше

и, наконец, у нас есть результаты и правила в листах, как показано ниже

 

  • мужчины (корень) старше 7 лет (второй узел) не выживут (зеленые и 0) в 53% случаев

  • мужчины, которым менее 7 лет, выживут (составляют всего 0,04 данных)

  • женщины-пассажиры 3 класса не выживут (сюда входит 17% пассажиров)

  • женщины-пассажиры 1 или 2 класса выживут (25% пассажиров)

В следующих сообщениях я покажу простой пример для предсказания значения, и я расскажу, как писать R-коды для этого примера. Кроме того, я расскажу о аргументах и ​​параметрах.





No Comments

Add a Comment