Blog

Истории успеха: Lenovo

На основе публикации: https://www.starrocks.io/blog/lenovo_en
Внедрение StarRocks в Liansheng Zhida

Liansheng Zhida, дочерняя компания Lenovo Group, специализируется на интеллектуальной логистике. Для повышения эффективности бизнес-аналитики (BI) и обработки данных компания интегрировала StarRocks, оптимизировав конвейеры данных и производительность запросов.

Эволюция OLAP-движков
  1. До 2018 года: Использовался SQL Server без специализированного хранилища данных, но рост сложности данных привел к снижению производительности.
  2. 2019 год: Переход на Apache Hadoop®/Hive™ с использованием Presto для OLAP-запросов и Tableau для BI-аналитики.
  3. 2021 год: Внедрение StarRocks для отчетности BI с низкой задержкой, сложных ad-hoc запросов и аналитики в реальном времени.

Современная архитектура данных
  • Загрузка данных: Apache Sqoop™ и Flume™ импортируют данные в Apache Hive.
  • Хранение: Apache Hive управляет процессами ETL и моделированием данных.
  • Обработка запросов: Данные передаются в RDBMS/MPP базы данных для BI и ad-hoc запросов.
  • BI-приложения: Обеспечивают аналитику и отчетность в реальном времени для принятия решений.

Сравнение ClickHouse и StarRocks
ClickHouse обладает высокой скоростью обработки запросов на одной таблице, содержит богатый набор методов предварительной агрегации и отлично подходит для анализа больших объемов логов. Однако у него есть ограничения: отсутствие поддержки удаления и обновления данных, сложные механизмы объединения таблиц (JOIN) и ограниченная масштабируемость.
StarRocks, в свою очередь, поддерживает как одиночные, так и многотабличные запросы, обладает высокой конкурентностью и позволяет обрабатывать данные в режиме реального времени с использованием микро-пакетного ETL. Он совместим с MySQL-протоколом и стандартным SQL, что упрощает интеграцию. Однако у него пока есть ограничения в возможностях массового ETL и изоляции ресурсов.

Проблемы до внедрения StarRocks
  • Разрозненные системы усложняли управление данными.
  • Медленная обработка сложных SQL-запросов в Presto тормозила работу Tableau.
  • Требовался OLAP-движок с откликом в реальном времени (<100 мс).

Преимущества интеграции StarRocks
  • Унифицированный конвейер данных: Заменил Presto, сократив затраты на 25%.
  • Оптимизированная производительность запросов: Ускорил отклик Tableau, улучшив пользовательский опыт.
  • Масштабируемость и экономия: Высокая доступность и плавное увеличение емкости.

Стратегия внедрения StarRocks
  • Модель данных: Используется модель Duplicate Key Model для гибкости.
  • Разбиение и сегментация: Оптимизирует запросы к историческим данным.
  • Материализованные представления: Автоматически создаются для ускорения сложных запросов.
  • Загрузка данных: Используется Broker Load для Apache Hive и DataX для SQL Server/MySQL.

Влияние на бизнес и ключевые выводы
  • Гибкость моделирования данных: Поддержка как плоских таблиц, так и звездчатой схемы.
  • Повышенная BI-производительность: Отчеты в Tableau загружаются мгновенно.
  • Снижение затрат на обслуживание: Масштабируемая и отказоустойчивая инфраструктура.

Заключение
С апреля 2021 года Liansheng Zhida использует StarRocks для унификации управления данными, оптимизации обработки данных и обеспечения низкой задержки запросов. Компания продолжит развитие своей стратегии данных с StarRocks в качестве ключевого OLAP-движка.