Блог

Здесь мы публикуем новости из мира Data Lakehouse и аналитики больших данных, рассказываем о релизаx продуктов CedrusData, делимся экспертными выступлениями команды наших инженеров

Архитектура высокопроизводительных распределенных SQL-движков

Рассматриваем архитектурные паттерны, обеспечивающие производительность SQL-движков, на основе анализа существующих реализаций. Анализируем проблемы оптимизации в распределенной среде, классификация распределений данных, сравнение подходов на основе AST и реляционных операторов, а также методы cost-based и итеративного планирования

Релиз CedrusData 458-22

В новом релизе CedrusData 458-22 мы сделали акцент на трех ключевых аспектах: производительность ядра, удобстве веб-интерфейса и расширении возможностей коннекторов.

Обзор рынка технических каталогов данных

Эра открытых табличных форматов — это не только про производительность, но и про управление метаданными. Hive Metastore часто становится узким местом в современных стеках. Мы провели детальный анализ и сравнили ключевых игроков. В фокусе не только фичи, но и реальная зрелость для продакшена

Все, что вы хотели знать о Lakehouse, но боялись спросить

Разбираем ключевые принципы Lakehouse: от открытых табличных форматов и отделения compute от storage до поддержки транзакций и интероперабельности движков. Реальные преимущества и подводные камни концепции, как она решает проблемы классических Data Lake и Data Warehouse, становясь единой платформой для аналитики, ML и потоковой обработки

Разработка нативного акселератора SQL-запросов на Rust для Trino | Запись выступления

Почему мы выбрали Rust и DataFusion в качестве основы решения CedrusData Engine, с какими сложностями столкнулись, какие преимущества получили в результате

Безопасность Lakehouse: эволюция контроля доступа к данным

Apache Ranger был стандартом безопасности в эпоху Hadoop, но в современной распределенной архитектуре его модель рискованна. В статье разбираем, почему знакомый инструмент стал слабой точкой, и показываем новый архитектурный подход, который делает безопасность необходимым фундаментом

Быстрая обработка данных в Data Lake с помощью SQL | Запись выступления

Популярные распределенные SQL-движки, такие как Trino, Presto и Dremio, умеют выполнять SQL-запросы непосредственно к файлам в озере данных, что позволяет компаниям более гибко и эффективно анализировать свои данные за счет уменьшения потребности в ETL

Composable systems | Запись выступления

Некоторые считают, что выбор Java в качестве платформы для создания базы данных является не самой рациональной опцией. Посмотрим, какой набор инструментов есть в арсенале у современных разработчиков баз данных на Java для повышения производительности и эффективности

Substrait — lingua franca для баз данных

Промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации в федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим

partnership-zakroma
ЗАКРОМА.Хранение сертифицировано для работы CedrusData

Мы успешно завершили сертификацию технологической совместимости массивно-параллельного SQL-движка CedrusData Engine с объектным S3-хранилищем ЗАКРОМА.Хранение

Настоящий бенчмарк lakehouse-движков

Клан Presto (CedrusData, Presto, Trino) против клана Impala (Doris, Impala, StarRocks). DuckDB в качестве арбитра. Только 1 SQL-запрос, 1 узел и много database internals

Выбрасываем Java и кратно ускоряем Spark/Trino… Или пока нет? | Запись выступления

Velox — высокопроизводительная C++ библиотека для ускорения Presto, Spark и аналитических СУБД. Обсуждаем ее архитектуру, преимущества и готовность к использованию.

Прокрутить вверх