Применяйте больше аналитики к вашим данным с помощью визуализации Key Influencer
В этом посте мы собираемся продемонстрировать новую визуализацию, выпущенную командой AI в Power BI в последние месяцы.
Перед тем как продемонстрировать приятные функции, есть несколько ключевых моментов в этом визуале.
- Он может использоваться учеными по данным, инженером данных и конечными пользователями.
- Его достаточно легко использовать и интерпретировать.
- Он использует множество невидимых алгоритмов для определения основного фактора
- Его можно использовать для выравнивания с другими визуальными элементами клиента для создания лучшей визуализации.
- Имеет возможность интерпретировать как категориальные, так и числовые переменные
- Обеспечивает отличный подход к кластеризации: находит естественную группировку по данным, а затем визуализирует основной верхний кластер (сегмент), а также показывает, как сочетание факторов влияет на анализируемый показатель.
- Интерпретация результатов: визуал дает краткое описание того, как оно работает [1]
- Как упоминалось ранее, этот визуал использует комбинацию алгоритмов. В категориальном и регрессионном анализе использовались разные алгоритмы.
В этом посте мы собираемся использовать набор данных о бетоне!
Бетон был использован в строительстве моста, зданий и так далее.
Основными элементами для создания бетона является:
- Цемент (Cement). Цемент - это связующее, используемое в строительстве вещество, которое застывает, затвердевает и прилипает к другим материалам, чтобы связать их вместе.
- Шлак доменной печи (Blast Furnace Slag): каменные отходы, отделяемые от металлов при выплавке или рафинировании руды.
- Летучая зола (Fly Ash). Летучая зола или дымовая зола, также известная в Великобритании как пылевидная топливная зола, представляет собой продукт сгорания угля, который состоит из частиц, которые выбрасываются из угольных котлов вместе с дымовыми газами.
- Вода (Water): количество воды в бетоне контролирует многие свежие и отвердевшие свойства бетона, включая обрабатываемость, прочность на сжатие, проницаемость и водонепроницаемость, долговечность и атмосферостойкость, усушку при высушивании и возможность растрескивания [2].
- Суперпластификатор (Superplasticizer): Суперпластификаторы, также известные как высокодиапазонные редукторы воды, представляют собой химические добавки, используемые там, где требуется хорошо диспергированная суспензия частиц. Эти полимеры используются в качестве диспергаторов, чтобы избежать сегрегации частиц и улучшить характеристики текучести суспензий, например, в конкретных применениях [3].
- Грубый заполнитель (Coarse Aggregate): Грубый заполнитель - это часть бетона, которая состоит из более крупных камней, встроенных в смесь. Бетон содержит три ингредиента: вода, цемент и заполнитель. Этот заполнитель сделан из мелкого песка и крупного гравия.
- Мелкий заполнитель (Fine Aggregate)
- Срок жизни (Age): сколько дней
- Прочность бетона на сжатие (Concrete compressive strength)
Набор данных также доступен здесь
Итак, давайте начнем предсказывать, какова будет прочность бетона в отношении других элементов, таких как зола, вода и так далее.
Вопрос:
Мы хотим ответить на следующие вопросы:
- Какие факторы оказывают большее влияние на прочность бетона при уменьшении или увеличении и в какой степени?
- Мы заинтересованы увидеть естественное нахождение наших данных.
- Также интересно посмотреть некоторые правила, например, если количество цемента равно ... а срок жизни равен ... то какова прочность
Давайте ответим на эти три вопроса, используя новую визуализацию под названием Key Influencer
Решение!
Key Influencer не является функцией предварительного просмотра, для доступа к нему необходимо выполнить следующие шаги
- Нажмите на file –> Option and Settings –> затем Options->, затем выйдите под Global, нажмите Preview Feature, и вы найдете Key Influencer Visual в нижней части
- Однако, в конце концов, необходимо перезапустить Power BI (закрыть и снова открыть)
- Просто обратите внимание, это функция предварительного просмотра, некоторые улучшения будут применены к ней в ближайшее время
Используйте это!
Теперь вам нужно импортировать набор концертных данных в Power BI Desktop
Get Data –> CSV –> Load
Теперь наш план состоит в том, чтобы проанализировать прочность бетона, поэтому нажмите на визуал, который был добавлен на панель Visualization, и для анализа выберите поле Strength из набора данных Concrete.
Вы можете видеть эти действия на картинке ниже (от 1 до 4)
Однако мы видим там ошибку!
Error! “Strenght has more than 10 Unique values!”
имеет более 10 уникальных значений. Это означает, что мне нужно изменить какую-то часть настроек, чтобы она работала!
По умолчанию визуал Key Influencer настроен для работы с категориальными переменными до 10 различных значений,
Тем не менее, мы можем заставить его работать для продолжения переменной.
Чтобы решить эту проблему:
Нажмите на визуальный элемент, затем нажмите на формат (номер 2 на картинке), выберите Analyse type и выберите Continues, вот и все! Ошибка исчезнет, но нам нужно добавить некоторые значения, чтобы она работала.
Теперь вы можете увидеть анализ!
Во-первых, список факторов был отображен в том порядке, в котором они больше влияют на прочность.
Рядом с каждым фактором стоит число, показывающее анализ «if-then» для нас.
Например, если цемент увеличивается на 104, то прочность увеличится на 10, другими словами, он влияет на 10%.
Просто обратите внимание на продолжение значений: мы увеличили и уменьшили
Далее вы можете увидеть точечную диаграмму, которая показывает взаимосвязь между цементом и прочностью, и линию, которая показывает положительное влияние цемента на прочность.
Давайте выберем воду и посмотрим, как она отрицательно сказывается на прочности: чем больше воды, тем ниже прочность.
Теперь мы собираемся проанализировать следующую вкладку Top Segment
Нажмите на Top Segment, и вы увидите, что прочность, скорее всего, будет высокой, вы также можете изменить ее на низкую.
Как вы можете видеть на картинке, можно идентифицировать 5 верхних сегментов в данных
В каждом из вас можно увидеть среднее значение каждого сегмента, а также в нижнем списке номер точки данных, которая там находилась
Итак, вернемся ко второму вопросу: «Мне интересно увидеть естественное нахождение моих данных».
Мы можем увидеть там естественную группировку данных!
Если вам нужно больше подробностей, нажмите на каждый сегмент, и он перейдет на другую интересную страницу!
В этом новом вы получите более подробную информацию о сегментации для каждого сегмента
Например, нажмите на больший сегмент, который является средней силой 63,99
Тогда вы сможете увидеть некоторые детали этого сегмента.
Например, каков диапазон срока жизни, сколько цемента и воды в этом сегменте и так далее.
Чтобы вернуться на предыдущую страницу, просто нажмите Close внизу справа вверху,
Это визуальное изображение может использоваться другим отчетом в Power BI, и оно доступно каждому.
Ссылки
[1]. https://docs.microsoft.com/en-us/power-bi/visuals/power-bi-visualization-influencers
[2]. https://www.forconstructionpros.com/concrete/equipment-products/article/11359846/water-in-concrete
[3] https://en.wikipedia.org/wiki/Superplasticizer
[4] https://www.quora.com/What-is-a-coarse-aggregate
[5] http://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/Concrete_Data.xls