Обработка данных в Data Lake с помощью Trino | Запись выступления

Как ключевые оптимизации и локальные кэши обеспечивают высокую производительность Trino при работе с озерами данных. Сравнение эффективности с классическими хранилищами

Спикер:

Владимир Озеров, Генеральный директор, Кверифай Лабс

Посмотреть в Youtube

Приглашаем выступить с докладом о том, как Trino и Iceberg применяются в российских компаниях. Если хотите поделиться своим кейсом или опытом — заполните форму докладчика.

‍

Trino это массивно-параллельный SQL-движок для обработки больших данных из различных источников, Одним из ключевых сценариев использования Trino является интерактивный анализ информации из озер данных. Так как узлы Trino не хранят данные, возникает сложный вопрос: как обеспечить высокую производительность обработки хранящейся на удаленных серверах информации? И насколько такой подход конкурентоспособен по сравнению с классическими хранилищами данных?

В выступлении рассмотриваем реализацию и практическое использование ключевых оптимизаций, которые позволяют Trino и коммерческим продуктам на его основе быстро «перемалывать» данные из вашего озера: использование метаданных Parquet и ORC для уменьшения количества зачитываемых данных (project/filter/aggregate pushdown), динамическая фильтрация (runtime filtering), поздняя материализация колонок (late materialization), а также целых три локальных кэша: кэш метаданных, кэш данных и кэш промежуточных результатов запросов.

Обработка данных в Data Lake с помощью Trino | Запись выступления

Спикер:

Форма связи

You’re in good company