Общая информация Релиз CedrusData 405-2 вышел 26 января 2023 года и основан на Trino 405. Скачайте и запустите из архива: https://downloads.cedrusdata.ru/releases/cedrus-405-2.tar.gz tar -xf cedrus-405-2.tar.gz && cedrus-405-2/bin/launcher run Запуск из Docker: docker run -d —rm —name cedrus-server -p 8080:8080 cr.yandex/crpjtvqf29mpabhmrf1s/cedrus:405-2 Ключевые изменения Кэш метаданных файлов Parquet Документация: https://docs.cedrusdata.ru/405-2/connector/hive.html#hive-parquet-metadata-cache-configuration. Parquet это открытый колоночный формат хранения данных. Файлы Parquet содержат метаданные, которые …
Блог
Введение Trino — это распределенный SQL-движок, который выполняет SQL-запросы к данным, хранящимся во внешних источниках. Для этого Trino использует интерфейс Connector, который предоставляет функционал работы с данными и метаданными конкретной сторонней системы. Trino реализует массивно-параллельную архитектуру и позволяет выполнять SQL-запросы, используя множество потоков на нескольких серверах. Что бы добиться эффективной утилизации ресурсов кластера, необходимо обеспечить не только параллельную работу промежуточных операторов, но …
Введение MinIO это S3-совместимый object storage, который удобно использовать при тестировании и изучении работы CedrusData и Trino с озерами данных в S3. В данной статье приведена пошаговая инструкция по развертыванию MinIO на локальном компьютере и его интеграции с CedrusData. Мы запустим MinIO в standalone режиме, настроим Hive Metastore и CedrusData для работы с S3 API, после …
Введение Hive Metastore это сервис управления метаданным для озер данных (data lakes). В данной статье мы рассмотрим процесс развертывания Hive Metastore для работы с данными в локальной файловой системе. Такая инсталляция хорошо подходит для экспериментов и изучения продуктов, которые требуют наличия Hive Metastore, включая CedrusData и Trino. Статья содержит пошаговые инструкции по установке Hive Metastore, а так же демонстрирует …
Как развернуть Hive Metastore для работы с CedrusData Читать далее »
Введение Trino это распределенный open-source SQL-движок для больших данных. Trino имеет массивно-параллельную архитектуру и содержит широкий набор коннекторов к различным системам, включая реляционные и NoSQL СУБД, и экосистему Hadoop. Это позволяет Trino выполнять сложные федеративные запросы к нескольким системам. При получении запроса, Trino должен принять решение, какие вычисления и в каком порядке выполнить самостоятельно, а …




