Техническое глубокое сравнение Microsoft Power BI и Yandex DataLens

Команда Ёлва

Подпишитесь, чтобы получать новые статьи

Подписаться

В данной статье рассмотрим техническое сравнение Microsoft Power BI и Yandex DataLens. Под техническим сравнением понимается внутренняя архитектура работы BI-приложения. Сюда входят механизмы получения данных, их обработки и подготовки, а также непосредственно инструментарий по разработке визуализаций и дашбордов. Как правило, большинство пользователей работает только лишь с финальным объектом BI-решения – это разработанным и настроенным дашбордом. Поэтому разработка и подготовка внутренних элементов BI-решения составляет большую роль в проектировании решения, в случае каких-либо некорректностей в данных или вычислениях на дашборде проблему придется искать «внутри». Таким образом, очень важно понимать из чего же состоят BI-решения. Мы с Вами рассмотрим техническое сравнение продуктов Yandex DataLens и Microsoft Power BI.

Microsoft Power BI уже зрелый продукт, хорошо себя зарекомендовавший во всем мире. Он появился в 2011 году компанией лидером программного обеспечения Microsoft и за эти годы обрел популярность и поддержку аналитиками разного рода деятельности и размера компаний. Благодаря большому комьюнити пользователей Power BI улучшается и дорабатывается разработчиками со всего мира.

Yandex DataLens  отечественный относительно молодой продукт от крупной российской IT компании Яндекс. Он появился в 2019 году и за это короткое время получил множество обновлений и полезного функционала, позволяющего конкурировать с мировыми лидерами в области BI-решений.

Давайте рассмотрим архитектуру каждого из продуктов, чтобы познакомиться с внутренней начинкой работы приложений. Под архитектурой мы понимаем элементы, из которых состоит каждое из BI-решений, а также путь получения, обработки и отображения, который проходят данные внутри.

Архитектура работы Power BI и DataLens

Архитектура работы Power BI

Архитектура приложения Power BI сконцентрирована в приложении для создания BI-решения Power BI Desktop. В данном приложении аналитик и разработчик полностью проектируют и разрабатывают необходимое решение. Все элементы содержатся в одном приложение, которые устанавливается на компьютер и является полностью бесплатным. В случае успешной разработки, когда необходимо настраивать доступы для других пользователей, то необходимо приобрести лицензию и спроектированное приложение публикуется на сервер, где уже настраивается каждый конкретный доступ к отчетности.

Давайте рассмотрим, из каких элементов состоит приложение Power BI Desktop и через какие шаги проходят данные перед своей финальной визуализацией на дашборде.

Рис. 1 Архитектура Power BI

Рассматривать архитектуру следует по шагам слева направо.

На первом этапе осуществляется получение данных из различных источников. Источников в Power BI большое множество и если для какого-то очень хитрого источника не найдется коннектора, то всегда можно рассмотреть механизмы по перекладыванию данных из источника в любую базу данных, к которой у Power BI есть коннектор и в результате, получать данные уже напрямую из самой базы данных.

На втором этапе написано Excel, хотя на самом деле это частично Excel. Функционал обработки и подготовки данных Microsoft заимствовала из Excel, поскольку на момент разработки Power BI Excelуже обладал такими мощными ETL-инструментами как Power Query и Power Pivot. Благодаря этим элементам можно осуществлять подготовку данных и обработку данных для последующей визуализации. Также набор данных можно дополнять необходимыми вычислениями, которые выполняются внутренним языком запросов Power Query. Инструменты Power Pivot позволяют реализовать различные типы связей между элементами из различных источников, таким образом создавая единую структуру данные независимо от того, откуда эти данные появились.

На третьем этапе осуществляется настройка прав доступа. Схема настройки прав доступов заимствована из SQL Server. Таким образом, настройка безопасности осуществляется на подготовленные данные и сокращает видимость данных для каждого конкретного пользователя отчетности. Таким образом, пользователю приходит урезанный датасет по его правам доступа.

На последнем этапе происходит настройка визуализаций, дашбордов и дополнительных инструментов на основании подготовленного датасета данных. Эти настройки уже осуществляются непосредственно в основном инструменте Power BI.

После выполнения и настройки полного цикла BI-решения, проект выгружается в веб-интерфейс, где происходит настройка регулярных обновлений и выдача доступов конечным пользователям.

Архитектура работы DataLens

Yandex DataLens является одним из сервисов инфраструктуры Yandex Cloud, поэтому решение целиком и полностью связана с облачными ресурсами и не имеет настольных приложений.

Рис. 2 Архитектура DataLens

Как и в случае с Power BI рассмотрим картинку с архитектурой решения слева направо. В нашем случае рассмотрена архитектура составления дашборда из трех различных источников – Яндекс Метрики, базы данных ClickHouse и базы данных PostgreSQL.

Первым этапом идет источник, из которого приходят данные в DataLens. На сегодняшний день в качестве источников DataLens поддерживает различные популярные СУБД, CSV файлы, и некоторые сервисы Яндекса, такие как Яндекс Метрика. Источники могут находиться как в инфраструктуре Yandex Cloud, так и в каком-либо стороннем облаке, физическое расположение источников для DataLens значения не имеет.  На первый взгляд кажется, что по сравнению с PowerBI, в DataLens скудный набор источников, но на самом деле это не так. Все дело в том, что Power BIявляется полностью самостоятельным решением, а DataLens одним из сервисов Yandex Cloud. Сам по себе DataLens может быть содержит ограниченный набор возможных источников, но большое количество сервисов Yandex Cloud позволяют использовать большинство, даже самых сложнодоступных источников. Для большинства распространенных задач по получению и обработке данных, как правило, в Yandex Cloud уже есть необходимый сервис.

Следующим элементом DataLens является датасет. Датасет позволяет настроить связи между таблицами из источников, а затем подготовить данные. Под подготовкой данных понимается маппинг полей, настройка агрегаций и вычисляемых полей. Все эти операции выполняются на уровне датасета для каждого отдельного источника. Также в датасете можно настраивать доступы для пользователей на уровне данных, чтобы каждый пользователь видел только лишь те данные, которые ему разрешены политикой доступов.

После подготовки датасета, следующим этапом работы с системой является подготовка чартов, то есть конкретных визуализаций. DataLens обладает большим количеством стандартных визуализаций, каждая из которых имеет свои параметры детальной настройки. На уровне визуализаций можно объединять датасеты, таким образом составлять диаграммы, которые будут содержать данные из разных источников.

Затем чарты размещаются на единый дашборд, к которому можно настраивать права доступа. Права доступов можно настраивать как для конкретных пользователей, добавленных в ваше окружение, так и для целой команды пользователей. При необходимости поделиться Вашим дашбордом с внешними пользователями, можно сформировать публичную ссылку на дашборд, выбрав только лишь те объекты, к которым разрешается доступ. 

Принцип работы с данными в Power BI и DataLens

Принцип работы с данными в Power BI

В большинстве случаев, при настройке подключения Power BI выполняет первичную загрузку данных в систему, и вся дальнейшая работа ведется на этом наборе данных.

В случае работы в десктопном приложении Power BI, данные в любой момент времени можно обновить вручную по кнопке, в результате будет выполнено подключение к источникам, в результате которого данные в файле Power BI актуализируются на момент обновления. Полученные данные из источников находятся в оперативной памяти системы, на которой файл запущен, что позволяет в режиме реальном времени работать с большим объемом данных на визуализациях.

В случае выгрузки решения в облако можно настроить автоматическое обновление, которое будет выполняться мощностями серверов Microsoft. После получения данных из источника они находятся в быстром хранилище на серверах Microsoft для быстрой работы визуализаций.

После окончательного получения данных из источников и их размещения в быстром доступе, PowerBI отображает эти данные в визуализациях на дашборде, актуальные на момент последнего обновления.

Принцип работы с данными в DataLens

У Yandex DataLens нет десктопного приложения, этот сервис полностью работает в облаке, в связи с этим имеет свои особенности.

В отличии от Power BI, DataLens не хранит (кроме редких исключений, когда источником является Excel файл) внутри себя данные. Это означает, что DataLens обращается к источнику напрямую при работе с визуализациями. Это означает, что в случае изменения или обновления данных в источнике, эти данные сразу же актуализируются и на визуализациях. В результате таким образом настраивается аналитика в режиме реального времени, в Power BI такая возможность не предусмотрена.

В связи с таким подходом DataLens предъявляет определенные требования к базе данных, к которой он обращается. В качестве наилучшего источника рекомендуется использовать базу данных, разработанную компанией Яндекс для целей аналитики — это колоночная аналитическая база данных ClickHouse. Она обладает высокой скоростью обработки аналитических запросов от DataLens и имеет низкую стоимость аренды.

После получения доступа к источнику, данные проходят через правила, заданные в датасете и отображаются в чартах (визуализациях) в режиме прямого доступа к базе данных.

Что тарифицируется в Power BI и DataLens?

Что тарифицируется в Power BI?

Power BI тарифицируется целиком как сервис, который включает в себя набор коннекторов к различным системам, инструмент по подготовке и актуализации данных, а также сам инструмент визуализации (составления дашбордов на основе данных). У Power BI есть ограниченный функционал доступный всем пользователям бесплатно, а есть дополнительный функционал, который подразумевает приобретение лицензии.

К бесплатному функционалу относится обновление отчетов по кнопке в приложении (не по расписанию) и доступ только лишь одного пользователя, как правило, разработчика отчетов. Функционал разграничения прав доступа, в связи с этим также не поддерживается. Помимо этого, отчет открывается только в настольном приложении и использует ресурсы системы, на которой запускается. Тяжелые отчеты на слабом компьютере могут положить систему и сделать использование отчета невозможным. Возможностей достаточно, если предполагается использовать не сильно тяжелый отчет в плане затрат ресурсов и предполагается только лишь один пользователь – владелец отчета.

К платному функционалу относится публикация отчета на сервер Microsoft. На сервере есть возможность настройки периодического автоматического обновления данных. Таким образом, работа отчета осуществляется на серверных мощностях Microsoft. Также публикация на сервер позволяет добавлять пользователей в рабочие группы с отчетами и предоставлять доступ к отчетам в пределах настроенных прав доступа к данным. Данный функционал необходим при использовании отчета какой-либо командой пользователей, даже самой небольшой.

Что тарифицируется в DataLens?

Еще раз напомним, что DataLens – это один из сервисов Yandex Cloud. Он является одним из полностью бесплатных сервисов окружения. То есть, если предполагается использование только лишь инструмента DataLens, например визуализация данных на основе стороннего источника аналитической базы данных или файлов Excel, то никаких дополнительных затрат по лицензированию DataLens не несет.

В случае если какого-то функционала по подготовке данных не хватает или ваш источник не оптимизирован для работы с BI-решением, то необходимо использование других сервисов Yandex Cloud, которые будут иметь свою тарификацию. Например, в случае если вашим источником является транзакционная база данных, то лучшей практикой будет переложить данные из этого источника в колоночную базу данных, разработанную для целей аналитики данных, ClickHouseСервис для выгрузки и миграции данных в Yandex Cloud называется Data Transfer и также является полностью бесплатным. А вот база данных ClickHouse уже является тарифицируемым сервисом, так как предполагает аренду определенного количества ресурсов. Минимальная конфигурация кластера базы данных ClickHouse в Yandex Cloud тарифицируется от 5 314 рублей и такой конфигурации хватает для большинства задач аналитики. Соответственно, если ваша задача требует использования еще каких-либо дополнительных ресурсов Yandex Cloud вне DataLens, то вы платите только лишь за аренду этих ресурсов.

Итог

В рамках статьи мы разобрали технические и архитектурные аспекты Power BI и DataLens, познакомились с каждой из систем и провели их сравнение. Как можно заметить, логика работы систем слегка отличается, что является нормой, ведь это два абсолютно разных продукта. Самое главное, что с технической очки зрения эти системы идут очень близко и решают однотипные задачи, что в результате приводит к необходимому результату вне зависимости от того какая система используется.

Если у Вас остались какие-либо вопросы по техническому функционалу систем, обращайтесь к нам, наши сотрудники с радостью готовы будут Вас проконсультировать и помочь в решении вашей задачи.

#BI#DataLens#DB#Power BI#Yandex Cloud

Подпишитесь на наши статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *