Ответы на ваши вопросы о Yandex DataLens

Мария Авдошина

Подпишитесь, чтобы получать новые статьи

  • Это поле используется для проверочных целей, его следует оставить без изменений.

Yandex DataLens — российское BI-решение для тех, кто строит корпоративные аналитические системы, создает дашборды для продуктовой, управленческой и других типов отчетности. Сервис анализирует и визуализирует данные для принятия более эффективных управленческих решений. В ходе практических вебинаров компании «Ёлва» по данному решению участники задавали нам вопросы о возможностях продукта. Этот материал мы посвятим ответам на популярные вопросы о DataLens.

Как давно DataLens находится в промышленной эксплуатации?

Сервис находится в стадии общедоступной версии c 1 октября 2019. DataLens используется многими компаниями, в том числе в промышленной эксплуатации, а также постоянно развивается.

Как производить обработку некачественных\неполных данных в DataLens? Как проводить очистку данных?

В DataLens отсутствует раздел или этап работ, где можно менять данные. Данные из источника загружаются AS IS (в состоянии как есть).

Однако можно устанавливать подключение к выбранной промежуточной базе данных, например через Yandex Database, в которую предварительно будут копироваться данные из первичного источника данных. В ней пользователь может менять значения данных, в отличие от основной базы.

На уровне SQL (диалекта YQL) запроса в базе или на уровне подзапроса из DataLens пользователь обрабатывает данные по заданным аналитиком алгоритмам: использовать SQL запрос, задача которого очищать\ обрабатывать данные, устранять дубли и т.д. Этот запрос будет работать для SQL баз данных, но не для CSV-файлов.

Используйте эту инструкцию, чтобы добавить данные в датасет с помощью SQL-запроса и\или эту для обновления данных с помощью UPDATE.

Только заявленные заказчиком ошибки, а значит, продуманные аналитиком и зафиксированные алгоритмы обработки\очистки данных будут работать. Искусственный интеллект не будет применен. При появлении неожиданных ранее данных или ошибок в данных, ошибки не будут исправлены автоматически, потребуется доработка аналитиком и\или программистом.

Какие названия стран и городов можно использовать в DataLens? Необходимо ли приводить названия к стандартным?

Название страны или города ограничивается списком топонимов. Посмотреть его можно здесь. Относительно Российской Федерации отметим, что сервис распознаёт наименование страны в единственном варианте: «Россия».

Можно ли установить фильтры для всех вкладок дашборда или на второй вкладке фильтры надо устанавливать отдельно?

К сожалению, в DataLens пока отсутствует техническая возможность установить единые фильтры для всех вкладок дашборда.

Как сравнить издержки на производство для двух стран за год в разрезах месяцев?

Для этого необходимо выполнить следующие действия:

  1. Создайте CSV-подключение
  2. Откройте датасет
  3. Нажмите «+ Добавить поле»
  4. Слева нажмите на «Количество», введите символ умножения, нажмите на «Цена продажи», назовите «Выручка», сохраните
  5. Создайте чарт, кнопкой справа вверху
  6. Выберите тип чарта «Линейная диаграмма»
  7. В поле «Х» переместите дату
  8. В поле «Y» переместите выручку
  9. В поле «Цвета» переместите страну

В итоге получаем следующий результат:

Предусмотрены ли ограничения по экспорту данных из чартов в дашборде для пользователей?

Нет. В рамках сервиса возможно только ограничить доступы к полям, например, по стране.

Возможен ли дата-майнинг в DataLens?

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных или просто майнинг данных) — это процесс, используемый компаниями для превращения необработанных больших данных в полезную информацию. Также для этой технологии используется термин «обнаружение знаний в данных» или KDD (knowledge discovery in databases). Data Mining представляет собой процесс глубокого погружения в эти данные для извлечения ключевых знаний.

В рамках DataLens данный процесс при помощи искусственного интеллекта автоматически не происходит. Готовый дата майнинг реализован в рамках других сервисов Yandex Cloud.

Настроить этот процесс возможно с применением ресурса аналитиков, в частности с помощью команды экспертов компании «Ёлва».

Интегрирован ли DataLens с Искусственным интеллектом? Есть ли опыт такого использования и каковы результаты?

Такая интеграция на данный момент на этапе проектирования компанией Yandex.

Планируется ли решение DataLens on-premise, то есть локально на серверах клиента?

Решение DataLens предоставляется только в облачном варианте.

Имеется ли сервис в Yandex, который работает совместно с DataLens, и позволяет обрабатывать и распознавать неоцифрованные данные (pdf, jpg)?

Простой ответ: да. Для этого пользователи могут использовать сервис Yandex Vision.

Чтобы распознать текст с изображения или из PDF-файла, воспользуйтесь функцией Распознавания текста.

Здесь имеются ограничения по файлам: размер изображения не может превышать 1 МБ и не более 20 мегапикселей (длина х ширина). Количество страниц в PDF не более 8 страниц.

Сервис Yandex Vision предоставляет API для получения результатов. Информации о наличии подключения по API из DataLens на данный момент нет.

Предположительно, имеется подключение по API в Yandex Database, через облачную базу данных. Тогда DataLens может подключиться уже к этой базе, которая по API получит из Yandex Vision обработанные данные.

Как решается вопрос по обновлению и изменению данных в источниках? Данные постоянно обновляются. Соответственно, как обновленная информация появляется в DataLens?

Внутри сервиса предусмотрены два режима работы:

  1. Прямой доступ: все запросы к данным исполняются на стороне источника, то есть в базе данных. Данные обновляются в режиме реального времени.
  2. Материализация: процесс загрузки данных из источника в базу данных DataLens. Материализация может происходить периодически по расписанию, минимальный интервал — не чаще 1 раза в день.

По аналогии с Power BI и такими же режимами работы (DirectQuery или Импорт) предполагаются ограничения производительности и скорости отображения чартов, дашбордов, выполнения запросов при Прямом доступе.

Каковы ограничения и ключевые отличия данных двух режимов работы?

Если источник данных — это внутренняя база данных, рекомендуется использовать режим «прямой доступ». Время отработки чартов в большей степени зависит от времени реакции БД на аналитические запросы. Поэтому эксперты советуют:

  • использовать аналитическую структуру данных в БД (большая денормализованная таблица или схемы типа «звезда», «снежинка»);
  • использовать БД, предназначенную или настроенную под аналитические запросы (например, Managed Service for ClickHouse);
  • следить за сайзингом и выделением ресурсов на уровне БД (Скорость и конкретные запросы, отправляемые в БД), мониторинг возможен через «инспектор чартов», «меню» в правом верхнем углу от чарта.

Отметим, что сервис имеет некоторые ограничения по возможностям, однако компания Yandex занимается постоянным развитием инструмента и расширением функционала. Инструмент предлагает различные продукты для аналитики: коннекторы, датасеты, геослои и другие. DataLens — это достойный аналог Power BI и качественный инструмент визуализации. Команда экспертов «Ёлва» отмечает: DataLens — самый продвинутый инструмент с наибольшим потенциалом развития. Наша компания рекомендует данное решение для работы с BI-аналитикой в России и СНГ.

На нашем YouTube-канале вы найдёте обучающие ролики по продукту.

А если вам нужна помощь с комплексным проектом, наша команда готова помочь в реализации даже самых сложных задач. Свяжитесь с нами: request@yolva-it.ru

#DataLens

комментарии (0)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Назад в блог