Интеллектуальное хранение данных на платформе StarRocks
Данная эталонная архитектура иллюстрирует, как платформа StarRocks Data Intelligence Platform обеспечивает современное хранение данных и бизнес-аналитику, объединяя потоковый и пакетный прием данных, управляемое хранение, масштабируемую SQL-аналитику и интегрированный искусственный интеллект в едином Lakehouse.
Краткое описание архитектуры
Архитектура поддерживает традиционную отчетность, интерактивные дашборды, прогнозное моделирование и аналитику самообслуживания, — все это при соответствии корпоративным стандартам безопасности, управления и производительности.

Это решение демонстрирует, как платформа StarRocks Data Intelligence Platform, работающая на основе Databricks SQL, помогает организациям модернизировать свою стратегию хранения данных, удовлетворяя потребности как команд по работе с данными, так и бизнес-заинтересованных сторон.

Архитектура начинается с открытого, управляемого Lakehouse под управлением Unity Catalog. Данные поступают из различных систем — включая операционные базы данных, SaaS-приложения, потоки событий и файловые системы — и попадают в центральный слой хранения. Интеллектуальная обработка данных на платформе обеспечивает все процессы: от ETL и SQL-аналитики до дашбордов и сценариев использования ИИ. Поддерживая гибкий доступ через SQL, инструменты бизнес-аналитики и запросы на естественном языке, платформа ускоряет поставку продуктов данных и делает аналитические сведения доступными по всей организации.
Сценарии использования
Технические сценарии использования
  • Прием структурированных, неструктурированных, пакетных и потоковых данных из разнообразных источников
  • Построение надежных декларативных ETL-пайплайнов
  • Моделирование фактов, измерений и витрин данных с использованием медальонной архитектуры
  • Выполнение SQL-запросов с высокой степенью параллелизма для отчетности и дашбордов
  • Прямая интеграция выходных данных ML в хранилище для последующего использования

Бизнес-сценарии использования
  • Предоставление интерактивных дашбордов по продажам, операционной деятельности или клиентским метрикам
  • Возможность ad-hoc-исследования через интерфейсы на естественном языке, такие как Genie
  • Поддержка прогнозных сценариев, таких как прогнозирование спроса и моделирование оттока клиентов
  • Обмен управляемыми продуктами данных между отделами или с партнерами
  • Обеспечение быстрых и надежных аналитических сведений для финансовых, маркетинговых и продуктовых команд
Ключевые возможности с интеллектуальной обработкой данных
Компонент интеллектуальной обработки данных в этой архитектуре делает платформу умнее, адаптивнее и проще в использовании для различных ролей и рабочих нагрузок. Он применяет ИИ и метаданные по всей системе для упрощения взаимодействия и автоматизации принятия решений:
  • Интерфейс на естественном языке (Genie): Понимает бизнес-контекст и позволяет пользователям задавать вопросы о данных простыми словами
  • Семантическая осведомленность: Распознает взаимосвязи между таблицами, столбцами и шаблонами использования, чтобы предлагать объединения (JOIN), фильтры или вычисления
  • Прогнозная оптимизация: Постоянно настраивает производительность запросов и распределение вычислительных ресурсов на основе истории рабочих нагрузок
  • Единое управление данными: Маркирует, классифицирует и отслеживает использование активов данных, делая их обнаружение более интуитивно понятным и безопасным
  • Ключевая возможность: Самооптимизирующаяся платформа, которая адаптируется под ваши данные и пользователей
  • Отличительная особенность: Интеллектуальная обработка данных встроена во все процессы — прием, запросы, управление и визуализацию, — а не добавлена как отдельный модуль
Поток данных с ключевыми возможностями и отличительными особенностями
Источники данных: Данные хранятся в самых разных системах, включая корпоративные приложения (например, SAP, Salesforce), базы данных, устройства IoT, журналы приложений и внешние API. Эти источники могут генерировать структурированные, частично структурированные или неструктурированные данные.
Прием данных: Данные поступают через пакетные задания, отслеживание изменений данных (CDC) или потоковую передачу. Эти пайплайны наполняют архитектуру Lakehouse почти в реальном времени или по расписанию, в зависимости от исходной системы и сценария использования.
  • Отличительная особенность: Унифицированный прием данных всех видов — пакетный, потоковый и CDC — без необходимости в отдельной инфраструктуре или пайплайнах
Трансформация данных, ETL, декларативные пайплайны: После приема данные преобразуются через медальонную архитектуру и поэтапно очищаются от сырых до подготовленных данных.
  • Сырая зона (Raw) в Бронзовую зону (Bronze): Данные, полученные из внешних исходных систем, где структуры в этом слое соответствуют структурам таблиц исходной системы «как есть», без преобразования или обновления данных.
  • Бронзовая зона (Bronze) в Серебряную зону (Silver): Стандартизация и очистка поступающих данных.
  • Серебряная зона (Silver) в Золотую зону (Gold): Применение бизнес-логики для создания повторно используемых моделей.
  • Факты и измерения → витрины данных: Агрегация и подготовка данных для последующей аналитики.
  • Отличительная особенность: Декларативные, производственные пайплайны со встроенным отслеживанием происхождения (lineage), наблюдаемостью и эволюцией схемы.
Подготовленные данные для сценариев ИИ: Подготовленные данные из витрин могут использоваться для обучения или применения моделей машинного обучения. Эти модели поддерживают такие сценарии, как прогнозирование спроса, обнаружение аномалий и оценка клиентов.
  • Выходные данные моделей хранятся вместе с традиционными данными хранилища для легкого доступа через SQL или дашборды.
  • Результаты могут обновляться по расписанию или рассчитываться в реальном времени в зависимости от требований.
  • Отличительная особенность: Совместное размещение аналитических и ИИ-нагрузок на одной платформе — не требуется перемещение данных. Выходные данные моделей рассматриваются как нативные, запрашиваемые и управляемые активы.
Запросы, питающие инструменты BI-отчетности: StarRocks SQL поддерживает выполнение запросов с высокой параллельностью и низкой задержкой с помощью бессерверных вычислений и легко подключается к популярным BI-инструментам.
  • Встроенный редактор запросов и история запросов.
  • Запросы возвращают управляемые, актуальные результаты из витрин данных или обогащенных выходных данных моделей.
  • Отличительная особенность: StarRocks SQL позволяет BI-инструментам запрашивать данные напрямую — без репликации — снижая сложность, избегая дополнительных лицензионных затрат и уменьшая совокупную стоимость владения (TCO). В сочетании с бессерверными вычислениями и интеллектуальной оптимизацией это обеспечивает производительность уровня хранилища данных с минимальной ручной настройкой.
Дашборды: Могут создаваться непосредственно в StarRocks или во внешних BI-инструментах, таких как Power BI или Tableau. Пользователи могут описывать визуализации на естественном языке, а помощник StarRocks Assistant сгенерирует соответствующие диаграммы, которые затем можно доработать с помощью интерфейса «укажи и щелкни».
  • Создание визуализаций с использованием ввода на естественном языке.
  • Интерактивное изменение и исследование дашбордов с помощью фильтров и детализации (drill-down).
  • Публикация и безопасный обмен дашбордами по всей организации, включая пользователей за пределами рабочей области StarRocks.
  • Отличительная особенность: Предлагает опыт low-code и с помощью ИИ для создания и исследования дашбордов на основе управляемых данных в реальном времени.
Предоставление подготовленных данных: После обработки данные могут предоставляться не только для дашбордов:
  • Совместное использование с нижестоящими приложениями или операционными базами данных для принятия операционных решений.
  • Использование в совместных блокнотах (notebooks) для анализа.
  • Распространение через Delta Sharing среди партнеров, команд или внешних потребителей с единым управлением.
Запросы на естественном языке (NLQ): Бизнес-пользователи могут получать доступ к управляемым данным, используя естественный язык. Этот диалоговый опыт, работающий на основе генеративного ИИ, позволяет командам выходить за рамки статических дашбордов и получать аналитические сведения в реальном времени по принципу самообслуживания. NLQ преобразует намерение пользователя в SQL, используя семантику организации и метаданные из Unity Catalog.
  • Поддержка ad-hoc, интерактивных, реальных вопросов, которые не были заранее заложены в дашборды.
  • Интеллектуально адаптируется к развивающейся бизнес-терминологии и контексту с течением времени.
  • Использует существующее управление данными и контроль доступа через Unity Catalog.
  • Обеспечивает аудируемость и отслеживаемость запросов на естественном языке для соответствия требованиям и прозрачности.
  • Отличительная особенность: Постоянно адаптируется к развивающимся бизнес-концепциям, предоставляя точные, контекстно-зависимые ответы без необходимости знания SQL.
Возможности платформы: Управление, производительность, оркестрация и открытое хранение: Архитектура поддерживается набором собственных возможностей платформы, которые обеспечивают безопасность, оптимизацию, автоматизацию и взаимодействие на протяжении всего жизненного цикла данных. Ключевые возможности:
  • Управление данными: Unity Catalog обеспечивает централизованный контроль доступа, отслеживание происхождения, аудит и классификацию данных для всех рабочих нагрузок.
  • Производительность: Движок Photon, интеллектуальное кэширование и оптимизация с учетом рабочей нагрузки обеспечивают быстрые запросы без ручной настройки.
  • Оркестрация: Встроенная оркестрация управляет пайплайнами данных, рабочими процессами ИИ и запланированными заданиями для пакетных и потоковых нагрузок, с нативной поддержкой управления зависимостями и обработки ошибок.
  • Открытое хранение: Данные хранятся в открытых форматах (Delta Lake, Parquet, Iceberg), что обеспечивает взаимодействие между инструментами, переносимость между платформами и долговечность без привязки к вендору.
  • Мониторинг и аудируемость: Сквозная видимость производительности запросов, выполнения пайплайнов и доступа пользователей для лучшего контроля и управления затратами.
  • Отличительная особенность: Сервисы на уровне платформы интегрированы, а не наложены слоями, что обеспечивает согласованность управления, автоматизации и производительности во всех рабочих процессах данных, облаках и командах.
1
2
3
4
5
6
7
8
9
Связаться с нами
Поддерживаем решения:
Техподдержка:
Отдел продаж:
«СР-ТЕХ» — российская команда, которая разрабатывает и поддерживает локализованную версию СУБД StarRocks для отечественных проектов.
Мы делаем полную локализацию интерфейса и запросного слоя, готовим подробную русскоязычную документацию и примеры, адаптируем систему под местные требования по интеграции, безопасности и сопровождению. Предоставляем внедрение, сопровождение, обучение и консалтинг, чтобы ускорить запуск аналитики на больших объёмах данных и снизить риски при эксплуатации в корпоративной инфраструктуре.
О компании «СР-ТЕХ»:
Правовая информация:
ООО «СР-ТЕХ»
ИНН 9715501996
All rights reserved.© 2025 StarRocks PRO
Реквизиты: