Мы рассказываем про внутреннее устройство CedrusData, Trino и других систем обработки данных.
Оптимизированный коннектор к Greenplum, новый способ визуализации планов запросов
Кэш метаданных файлов Parquet, поддержка OpenTelemetry, новые возможности анализа производительности запросов, запущенных в другом кластере.
Trino — это распределенный SQL-движок, который выполняет запросы к данным, хранящимся во внешних источниках. В данной статье мы рассмотрим, как в Trino реализовано чтение информации из озера данных на примере файлов в формате Parquet.
MinIO это S3-совместимый object storage, который удобно использовать при тестировании и изучении работы CedrusData и Trino с озерами данных в S3. В данной статье приведена пошаговая инструкция по развертыванию MinIO на локальном компьютере и его интеграции с CedrusData.
Hive Metastore это сервис управления метаданным для озер данных (data lakes). В данной статье мы рассмотрим процесс развертывания Hive Metastore для работы с данными в локальной файловой системе. Такая инсталляция хорошо подходит для экспериментов и изучения продуктов, которые требуют наличия Hive Metastore.
Trino это распределенный SQL-движок для больших данных. В данной статье мы рассмотрим устройство оптимизатора запросов Trino: реляционное представление операторов, интерфейс оптимизатора, алгоритм применения трансформаций.