Потоки данных - будущее Power BI
Готовы создать корпоративное решение Power BI без хранилища данных? Читайте дальше.
Скорее всего, у вас уже есть много возможностей для бизнес-аналитики, но вам нужно другое. Что такое потоки данных?
- Самостоятельная подготовка данных
- Power Query в вашем браузере
- Единственная версия правды
- Массивность
- Общая схема
Все это звучит великолепно, но с чего начать?
- Служба Power BI
- В вашем рабочем пространстве, наряду со знакомыми панелями, отчетами и наборами данных, вы увидите потоки данных
- Нажмите «+ Create» и выберите поток данных
- Подключитесь к источнику данных и используйте Power Query в вашем браузере для преобразования данных
- Нажмите «Map to standard», чтобы сопоставить данные с общей моделью данных.
- Сохраните ваш поток данных и укажите расписание обновления
- Откройте рабочий стол Power BI, укажите поток данных в качестве источника
- Опубликуйте в облачной службе Power BI
- У вас есть и поток данных, и знакомый набор данных
- Очищенный курированный поток данных был определен один раз и теперь доступен для всех в вашей компании
Эта единственная версия правды напоминает хранилище данных и службы аналитики Azure, которые вы, возможно, уже используете. Почему вы должны разорвать существующую архитектуру и начать использовать потоки данных?
- Самостоятельная подготовка данных - сделайте логику извлечения, преобразования и загрузки доступной для не-ИТ-специалистов с помощью интуитивно понятного интерфейса Power Query.
- Расположение на браузере - потоки данных вводят Power Query непосредственно в вашем браузере - захватывающая разработка. Может быть, рабочий стол Power BI исчезнет в один прекрасный день, и вы будете заниматься всеми разработками в своем браузере?
- Наследование - потоки данных могут ссылаться друг на друга. Обновите одно, и все каскадные обновления будут обрабатываться автоматически и единообразно (требуется Power BI premium).
- Масштабирование - в отличие от обычных наборов данных Power BI, потоки данных хранятся в хранилище озера данных Azure Gen2 . Эта интеграция обрабатывается автоматически для вас, предлагая неограниченный масштаб. Вы также можете использовать свою собственную учетную запись Azure Data Lake Storage Gen2 и предоставлять данные другим службам, таким как Databricks.
- Общая модель данных - используйте стандартную модель данных. После импорта и преобразования ваших данных вы можете при желании сопоставить их с общей моделью данных (CDM) . CDM - это схема промышленного стандарта для таких объектов, как Account, Address и Order. После сопоставления данных с CDM это понимают другие приложения, такие как PowerApps, Dynamics 365 и Power BI. Вы проверяете свою модель данных на будущее, кто знает, какие услуги и приложения будут предлагаться в будущем, и которые могут интерпретировать ваши данные CDM без каких-либо дополнительных усилий?
Это справедливо для потоков данных, в интересах справедливости, давайте посмотрим на недостатки:
- Повторяющиеся меры - потокам данных по-прежнему требуется набор данных. Пользователи, использующие этот поток данных в разных наборах данных, должны дублировать меры DAX. Альтернативная архитектура, использующая службы аналитики Azure, представляет собой единую версию, содержащую все меры DAX. Службы аналитики Azure не могут использовать поток данных в качестве источника данных.
- Безопасность на уровне строк - подобно дублированию мер DAX, вам нужно повторять защиту на уровне строк в каждом наборе данных, вы не можете добавить защиту на уровне строк в потоки данных. При проектировании архитектуры учитывайте, что создатели отчетов самообслуживания с разрешениями на редактирование рабочего пространства обходят защиту на уровне строк Power BI. Опять же, службы аналитики Azure отлично работают здесь в качестве альтернативы. Безопасность на уровне строк, определенная один раз в службах Analysis Services, применяется ко всем пользователям независимо от разрешений Power BI.
- Обновления в цепочке - ваша архитектура теперь включает поток данных и набор данных. Необходимо обновить оба объекта в правильном порядке, чтобы пользователи Power BI могли визуализировать последние данные. Не существует метода оркестровки для планирования набора данных после потока данных. Здесь нет ничего нового, вы всегда обновляли хранилище данных и семантическую модель независимо друг от друга, но стоит иметь это в виду.
- Медленно изменяющиеся измерения - хранилище данных содержит медленно изменяющиеся измерения, что является ключевой концепцией бизнес-аналитики для обеспечения аудита. Реализация медленно изменяющихся измерений с использованием потоков данных очень сложна, если не невозможна.
- Управление исходным кодом - в отличие от Azure Analysis Services, использующих Visual Studio, отсутствует поддержка управления исходным кодом с помощью потоков данных. Управление изменениями - это ручной процесс без постоянной интеграции. Тестирование и надежное раскрытие изменений еще более важно с использованием стековых потоков данных, которые потребляют друг друга.
- Прямой запрос - вы дублируете данные в потоке данных и наборе данных. Нет возможности для прямого запроса (оставление данных в источнике) или оперативного соединения (развертывание модели данных в службах Analysis Services).
- Функциональная четкость - Power Query в браузере не так богат, как версии Excel, Power BI и Analysis Services (пока)
Платформа Azure - ваш выбор номер один для приложений Microsoft - вы защищаете свою архитектуру от будущего. Обновления, исправления, новые функции и обновления безопасности применяются от вашего имени автоматически без каких-либо действий пользователя.
Общая модель данных представляет концепцию защиты ваших данных в будущем в дополнение к инфраструктуре. Если вы придерживаетесь согласованного контракта на общую модель данных, вы можете воспользоваться инструментами и приложениями, которые могут интерпретировать и обогащать ваши данные с минимальными усилиями по разработке, что является действительно захватывающей перспективой.