Быстрая обработка данных в Data Lake с помощью SQL | Запись выступления

Популярные распределенные SQL-движки, такие как Trino, Presto и Dremio, умеют выполнять SQL-запросы непосредственно к файлам в озере данных, что позволяет компаниям более гибко и эффективно анализировать свои данные за счет уменьшения потребности в ETL

Спикер:

Владимир Озеров, Генеральный директор CedrusData

Приглашаем выступить с докладом о том, как Trino и Iceberg применяются в российских компаниях. Если хотите поделиться своим кейсом или опытом — заполните форму докладчика. 

Кому пришла в голову идея отправлять SQL запросы в Data Lake? Оказывается, это позволяет компаниям более гибко и эффективно анализировать свои данные за счет уменьшения потребности в ETL и снижения нагрузки на корпоративное хранилище.

Современные аналитические системы переходят от классических хранилищ данных (Data Warehouse) к архитектуре с отделением вычислений от хранения (disaggregated storage). Это позволяет гибко масштабироваться, использовать разные движки для разных задач и работать с данными в открытых форматах в Data Lake.

В свою очередь, современные распределённые SQL-движки (как CedrusData, Trino, Dremio) обеспечивают высокую производительность для такой архитектуры за счет параллелизма, умного кэширования и оптимизаций запросов (data skipping).

В выступлении подробно рассмотрели, как движкам удается это делать.

Прокрутить вверх