Дерево решений Power BI - Часть 2
В последней части мы рассказывали об основных концепциях дерева решений.
В этом посте мы покажем, как использовать компонент дерева решений в Power BI с целью предсказательного анализа в отчете. В следующем посте мы объясним, как получить данные в Power Query, чтобы получить динамическое предсказание.
Для прогнозирования у нас есть два подхода: предсказание значения и предсказание группы. Еще у нас есть Дерево решений, которое может обрабатывать и то, и другое.
В мире науки о данных есть набор данных Hello world под названием «Титаник» . Этот набор данных содержит информацию о пассажирах, которые выжили или не пострадали от катастрофы, возраст, пол, класс пассажиров и т. д.
Мы собираемся спрогнозировать, выживут или нет люди с определенным возрастом, полом, пассажирским классом и т.д.
Первый шаг - импорт пользовательского визуала из магазина. Для его получения с веб-сайта Power BI вам необходимо войти в портал (номер 1). Затем просто нажмите на 3 точки в области визуализации и выберите «Import from the store» (номер 2).
В магазине Power BI с левой стороны выберите «расширенную аналитику», затем найдите «Дерево решений».
Внимание!
- когда вы импортировали пользовательский визуал, есть вероятность, что он начал устанавливать некоторые пакеты, такие как «rpart» и т. д.
- кроме того, у вас должна быть версия R на вашем компьютере, чтобы увидеть эту диаграмму.
- эта диаграмма является однонаправленной интерактивной (т. е. power bi visuals позволяет срезать диаграмму, но, щелкнув диаграмму, вы не сможете срезать другие диаграммы)
Теперь после импорта визуала его легко использовать: просто нажмите на него, чтобы он был в белой области.
На этом этапе мы должны выбрать поля для принятия решений.
Главная цель - предсказать, выжили ли люди или нет. Для этого сначала мы выбираем пару столбцов, таких как «age, gender, и passenger class». Затем мы помещаем столбец «Survived» в качестве целевой переменной. Следующий шаг - удалить отсутствующие значения «blank» из столбца возраста.
Наконец, изображение Дерева решений показано ниже в отчете Power BI.
Посмотрим, что это значит?
В корне дерева мы имеем 4 числа:
- 0: позиция для не выживших людей, зелёного цвета. Так, в целом многие люди не выжили.
- 100%: все данные находятся в корне
- 0,52 и 0,48: показывают, что около 52% пассажиров - мужчины и 48% - женщины. Поэтому первые атрибуты, которые Дерево решений определяло для анализа, - это пол людей.
В других узлах, например, в левом:
- анализ мужчин
- большинство из них не выжило (0).
- второй атрибут, который будет анализироваться, - возраст людей, составляет ли он больше 6,5 лет или меньше
и, наконец, у нас есть результаты и правила в листах, как показано ниже
- мужчины (корень) старше 7 лет (второй узел) не выживут (зеленые и 0) в 53% случаев
- мужчины, которым менее 7 лет, выживут (составляют всего 0,04 данных)
- женщины-пассажиры 3 класса не выживут (сюда входит 17% пассажиров)
- женщины-пассажиры 1 или 2 класса выживут (25% пассажиров)
В следующих сообщениях я покажу простой пример для предсказания значения, и я расскажу, как писать R-коды для этого примера. Кроме того, я расскажу о аргументах и параметрах.