Блог

Мы рассказываем про внутреннее устройство CedrusData, Trino и других систем обработки данных.

21 февраля 2023

Релиз CedrusData 406-1

Оптимизированный коннектор к Greenplum, новый способ визуализации планов запросов

26 января 2023

Релиз CedrusData 405-2

Кэш метаданных файлов Parquet, поддержка OpenTelemetry, новые возможности анализа производительности запросов, запущенных в другом кластере.

Как Trino читает данные из файлов Parquet

Технологии

5 декабря 2022

Как Trino читает данные из файлов Parquet

Trino — это распределенный SQL-движок, который выполняет запросы к данным, хранящимся во внешних источниках. В данной статье мы рассмотрим, как в Trino реализовано чтение информации из озера данных на примере файлов в формате Parquet.

Интеграция CedrusData c S3 на примере MinIO

Решения

23 ноября 2022

Интеграция CedrusData c S3 на примере MinIO

MinIO это S3-совместимый object storage, который удобно использовать при тестировании и изучении работы CedrusData и Trino с озерами данных в S3. В данной статье приведена пошаговая инструкция по развертыванию MinIO на локальном компьютере и его интеграции с CedrusData.

Как развернуть Hive Metastore для работы с CedrusData

Решения

11 ноября 2022

Как развернуть Hive Metastore для работы с CedrusData

Hive Metastore это сервис управления метаданным для озер данных (data lakes). В данной статье мы рассмотрим процесс развертывания Hive Metastore для работы с данными в локальной файловой системе. Такая инсталляция хорошо подходит для экспериментов и изучения продуктов, которые требуют наличия Hive Metastore.

Технологии

5 сентября 2022

Архитектура оптимизатора Trino

Trino это распределенный SQL-движок для больших данных. В данной статье мы рассмотрим устройство оптимизатора запросов Trino: реляционное представление операторов, интерфейс оптимизатора, алгоритм применения трансформаций.