Блог

Здесь мы публикуем новости из мира Data Lakehouse и аналитики больших данных, рассказываем о релизаx продуктов CedrusData, делимся экспертными выступлениями команды наших инженеров

Актуальные проблемы реализации data-стратегии в российских компаниях | Запись выступления

В докладе рассмотрены сложности, с которыми сталкиваются российские компании при попытке масштабирования процессов принятия решений на основе данных: дефицит зрелой инфраструктуры, нерациональное использование внутренних ресурсов, и противоречивый информационный фон, создаваемый многочисленными новыми продуктами

CedrusData присоединяется к направлению дата-сервисов VK Tech

Мы объединяемся с VK Tech, чтобы усилить lakehouse-платформу VK Data Platform нашим высокопроизводительным массивно-параллельным SQL-движком CedrusData Engine и каталогом метаданных CedrusData Catalog с поддержкой Iceberg

Lakehouse против классического DWH

Современный бизнес требует гибкости, но классические хранилища данных часто тормозят рост из-за высоких затрат на масштабирование и закрытых форматов. Lakehouse предлагает иной подход: разделение compute и storage, открытые форматы и возможность работать с любыми типами аналитики в единой среде. Разбираем ключевые отличия архитектур и помогаем определить, когда переход на Lakehouse решит проблемы вашей инфраструктуры, а когда лучше оставить все как есть

Релиз CedrusData 458-23

В новом релизе CedrusData 458-23 мы добавили параллельное чтение данных из Vertica и экран для обслуживания таблиц Iceberg. Это упрощает управление Lakehouse

Как мы переписали ядро Trino на Rust

Рассказываем, почему выбрали Rust и DataFusion в качестве основы решения, с какими сложностями столкнулись и какие очевидные (и неочевидные) преимущества получили в результате

Архитектура высокопроизводительных распределенных SQL-движков

Рассматриваем архитектурные паттерны, обеспечивающие производительность SQL-движков, на основе анализа существующих реализаций. Анализируем проблемы оптимизации в распределенной среде, классификация распределений данных, сравнение подходов на основе AST и реляционных операторов, а также методы cost-based и итеративного планирования

Релиз CedrusData 458-22

В новом релизе CedrusData 458-22 мы сделали акцент на трех ключевых аспектах: производительность ядра, удобстве веб-интерфейса и расширении возможностей коннекторов.

Обзор рынка технических каталогов данных

Эра открытых табличных форматов — это не только про производительность, но и про управление метаданными. Hive Metastore часто становится узким местом в современных стеках. Мы провели детальный анализ и сравнили ключевых игроков. В фокусе не только фичи, но и реальная зрелость для продакшена

Все, что вы хотели знать о Lakehouse, но боялись спросить

Разбираем ключевые принципы Lakehouse: от открытых табличных форматов и отделения compute от storage до поддержки транзакций и интероперабельности движков. Реальные преимущества и подводные камни концепции, как она решает проблемы классических Data Lake и Data Warehouse, становясь единой платформой для аналитики, ML и потоковой обработки

Разработка нативного акселератора SQL-запросов на Rust для Trino | Запись выступления

Почему мы выбрали Rust и DataFusion в качестве основы решения CedrusData Engine, с какими сложностями столкнулись, какие преимущества получили в результате

Безопасность Lakehouse: эволюция контроля доступа к данным

Apache Ranger был стандартом безопасности в эпоху Hadoop, но в современной распределенной архитектуре его модель рискованна. В статье разбираем, почему знакомый инструмент стал слабой точкой, и показываем новый архитектурный подход, который делает безопасность необходимым фундаментом

Быстрая обработка данных в Data Lake с помощью SQL | Запись выступления

Популярные распределенные SQL-движки, такие как Trino, Presto и Dremio, умеют выполнять SQL-запросы непосредственно к файлам в озере данных, что позволяет компаниям более гибко и эффективно анализировать свои данные за счет уменьшения потребности в ETL

Прокрутить вверх