На основе публикации: https://www.starrocks.io/blog/lenovo_en
Внедрение StarRocks в Liansheng Zhida
Liansheng Zhida, дочерняя компания Lenovo Group, специализируется на интеллектуальной логистике. Для повышения эффективности бизнес-аналитики (BI) и обработки данных компания интегрировала StarRocks, оптимизировав конвейеры данных и производительность запросов.
Эволюция OLAP-движков
Современная архитектура данных
Сравнение ClickHouse и StarRocks
ClickHouse обладает высокой скоростью обработки запросов на одной таблице, содержит богатый набор методов предварительной агрегации и отлично подходит для анализа больших объемов логов. Однако у него есть ограничения: отсутствие поддержки удаления и обновления данных, сложные механизмы объединения таблиц (JOIN) и ограниченная масштабируемость.
StarRocks, в свою очередь, поддерживает как одиночные, так и многотабличные запросы, обладает высокой конкурентностью и позволяет обрабатывать данные в режиме реального времени с использованием микро-пакетного ETL. Он совместим с MySQL-протоколом и стандартным SQL, что упрощает интеграцию. Однако у него пока есть ограничения в возможностях массового ETL и изоляции ресурсов.
Проблемы до внедрения StarRocks
Преимущества интеграции StarRocks
Стратегия внедрения StarRocks
Влияние на бизнес и ключевые выводы
Заключение
С апреля 2021 года Liansheng Zhida использует StarRocks для унификации управления данными, оптимизации обработки данных и обеспечения низкой задержки запросов. Компания продолжит развитие своей стратегии данных с StarRocks в качестве ключевого OLAP-движка.
Liansheng Zhida, дочерняя компания Lenovo Group, специализируется на интеллектуальной логистике. Для повышения эффективности бизнес-аналитики (BI) и обработки данных компания интегрировала StarRocks, оптимизировав конвейеры данных и производительность запросов.
Эволюция OLAP-движков
- До 2018 года: Использовался SQL Server без специализированного хранилища данных, но рост сложности данных привел к снижению производительности.
- 2019 год: Переход на Apache Hadoop®/Hive™ с использованием Presto для OLAP-запросов и Tableau для BI-аналитики.
- 2021 год: Внедрение StarRocks для отчетности BI с низкой задержкой, сложных ad-hoc запросов и аналитики в реальном времени.
Современная архитектура данных
- Загрузка данных: Apache Sqoop™ и Flume™ импортируют данные в Apache Hive.
- Хранение: Apache Hive управляет процессами ETL и моделированием данных.
- Обработка запросов: Данные передаются в RDBMS/MPP базы данных для BI и ad-hoc запросов.
- BI-приложения: Обеспечивают аналитику и отчетность в реальном времени для принятия решений.
Сравнение ClickHouse и StarRocks
ClickHouse обладает высокой скоростью обработки запросов на одной таблице, содержит богатый набор методов предварительной агрегации и отлично подходит для анализа больших объемов логов. Однако у него есть ограничения: отсутствие поддержки удаления и обновления данных, сложные механизмы объединения таблиц (JOIN) и ограниченная масштабируемость.
StarRocks, в свою очередь, поддерживает как одиночные, так и многотабличные запросы, обладает высокой конкурентностью и позволяет обрабатывать данные в режиме реального времени с использованием микро-пакетного ETL. Он совместим с MySQL-протоколом и стандартным SQL, что упрощает интеграцию. Однако у него пока есть ограничения в возможностях массового ETL и изоляции ресурсов.
Проблемы до внедрения StarRocks
- Разрозненные системы усложняли управление данными.
- Медленная обработка сложных SQL-запросов в Presto тормозила работу Tableau.
- Требовался OLAP-движок с откликом в реальном времени (<100 мс).
Преимущества интеграции StarRocks
- Унифицированный конвейер данных: Заменил Presto, сократив затраты на 25%.
- Оптимизированная производительность запросов: Ускорил отклик Tableau, улучшив пользовательский опыт.
- Масштабируемость и экономия: Высокая доступность и плавное увеличение емкости.
Стратегия внедрения StarRocks
- Модель данных: Используется модель Duplicate Key Model для гибкости.
- Разбиение и сегментация: Оптимизирует запросы к историческим данным.
- Материализованные представления: Автоматически создаются для ускорения сложных запросов.
- Загрузка данных: Используется Broker Load для Apache Hive и DataX для SQL Server/MySQL.
Влияние на бизнес и ключевые выводы
- Гибкость моделирования данных: Поддержка как плоских таблиц, так и звездчатой схемы.
- Повышенная BI-производительность: Отчеты в Tableau загружаются мгновенно.
- Снижение затрат на обслуживание: Масштабируемая и отказоустойчивая инфраструктура.
Заключение
С апреля 2021 года Liansheng Zhida использует StarRocks для унификации управления данными, оптимизации обработки данных и обеспечения низкой задержки запросов. Компания продолжит развитие своей стратегии данных с StarRocks в качестве ключевого OLAP-движка.