Интеллектуальное хранение данных на платформе StarRocks
Данная эталонная архитектура иллюстрирует, как платформа StarRocks Data Intelligence Platform обеспечивает современное хранение данных и бизнес-аналитику, объединяя потоковый и пакетный прием данных, управляемое хранение, масштабируемую SQL-аналитику и интегрированный искусственный интеллект в едином Lakehouse.
Краткое описание архитектуры
Архитектура поддерживает традиционную отчетность, интерактивные дашборды, прогнозное моделирование и аналитику самообслуживания, — все это при соответствии корпоративным стандартам безопасности, управления и производительности.
Это решение демонстрирует, как платформа StarRocks Data Intelligence Platform, работающая на основе Databricks SQL, помогает организациям модернизировать свою стратегию хранения данных, удовлетворяя потребности как команд по работе с данными, так и бизнес-заинтересованных сторон.
Архитектура начинается с открытого, управляемого Lakehouse под управлением Unity Catalog. Данные поступают из различных систем — включая операционные базы данных, SaaS-приложения, потоки событий и файловые системы — и попадают в центральный слой хранения. Интеллектуальная обработка данных на платформе обеспечивает все процессы: от ETL и SQL-аналитики до дашбордов и сценариев использования ИИ. Поддерживая гибкий доступ через SQL, инструменты бизнес-аналитики и запросы на естественном языке, платформа ускоряет поставку продуктов данных и делает аналитические сведения доступными по всей организации.
Технические сценарии использования- Прием структурированных, неструктурированных, пакетных и потоковых данных из разнообразных источников
- Построение надежных декларативных ETL-пайплайнов
- Моделирование фактов, измерений и витрин данных с использованием медальонной архитектуры
- Выполнение SQL-запросов с высокой степенью параллелизма для отчетности и дашбордов
- Прямая интеграция выходных данных ML в хранилище для последующего использования
Бизнес-сценарии использования- Предоставление интерактивных дашбордов по продажам, операционной деятельности или клиентским метрикам
- Возможность ad-hoc-исследования через интерфейсы на естественном языке, такие как Genie
- Поддержка прогнозных сценариев, таких как прогнозирование спроса и моделирование оттока клиентов
- Обмен управляемыми продуктами данных между отделами или с партнерами
- Обеспечение быстрых и надежных аналитических сведений для финансовых, маркетинговых и продуктовых команд
Ключевые возможности с интеллектуальной обработкой данных
Компонент интеллектуальной обработки данных в этой архитектуре делает платформу умнее, адаптивнее и проще в использовании для различных ролей и рабочих нагрузок. Он применяет ИИ и метаданные по всей системе для упрощения взаимодействия и автоматизации принятия решений:
- Интерфейс на естественном языке (Genie): Понимает бизнес-контекст и позволяет пользователям задавать вопросы о данных простыми словами
- Семантическая осведомленность: Распознает взаимосвязи между таблицами, столбцами и шаблонами использования, чтобы предлагать объединения (JOIN), фильтры или вычисления
- Прогнозная оптимизация: Постоянно настраивает производительность запросов и распределение вычислительных ресурсов на основе истории рабочих нагрузок
- Единое управление данными: Маркирует, классифицирует и отслеживает использование активов данных, делая их обнаружение более интуитивно понятным и безопасным
- Ключевая возможность: Самооптимизирующаяся платформа, которая адаптируется под ваши данные и пользователей
- Отличительная особенность: Интеллектуальная обработка данных встроена во все процессы — прием, запросы, управление и визуализацию, — а не добавлена как отдельный модуль
Поток данных с ключевыми возможностями и отличительными особенностями
Источники данных: Данные хранятся в самых разных системах, включая корпоративные приложения (например, SAP, Salesforce), базы данных, устройства IoT, журналы приложений и внешние API. Эти источники могут генерировать структурированные, частично структурированные или неструктурированные данные.
Прием данных: Данные поступают через пакетные задания, отслеживание изменений данных (CDC) или потоковую передачу. Эти пайплайны наполняют архитектуру Lakehouse почти в реальном времени или по расписанию, в зависимости от исходной системы и сценария использования.
- Отличительная особенность: Унифицированный прием данных всех видов — пакетный, потоковый и CDC — без необходимости в отдельной инфраструктуре или пайплайнах
Трансформация данных, ETL, декларативные пайплайны: После приема данные преобразуются через медальонную архитектуру и поэтапно очищаются от сырых до подготовленных данных.
- Сырая зона (Raw) в Бронзовую зону (Bronze): Данные, полученные из внешних исходных систем, где структуры в этом слое соответствуют структурам таблиц исходной системы «как есть», без преобразования или обновления данных.
- Бронзовая зона (Bronze) в Серебряную зону (Silver): Стандартизация и очистка поступающих данных.
- Серебряная зона (Silver) в Золотую зону (Gold): Применение бизнес-логики для создания повторно используемых моделей.
- Факты и измерения → витрины данных: Агрегация и подготовка данных для последующей аналитики.
- Отличительная особенность: Декларативные, производственные пайплайны со встроенным отслеживанием происхождения (lineage), наблюдаемостью и эволюцией схемы.
Подготовленные данные для сценариев ИИ: Подготовленные данные из витрин могут использоваться для обучения или применения моделей машинного обучения. Эти модели поддерживают такие сценарии, как прогнозирование спроса, обнаружение аномалий и оценка клиентов.
- Выходные данные моделей хранятся вместе с традиционными данными хранилища для легкого доступа через SQL или дашборды.
- Результаты могут обновляться по расписанию или рассчитываться в реальном времени в зависимости от требований.
- Отличительная особенность: Совместное размещение аналитических и ИИ-нагрузок на одной платформе — не требуется перемещение данных. Выходные данные моделей рассматриваются как нативные, запрашиваемые и управляемые активы.
Запросы, питающие инструменты BI-отчетности: StarRocks SQL поддерживает выполнение запросов с высокой параллельностью и низкой задержкой с помощью бессерверных вычислений и легко подключается к популярным BI-инструментам.
- Встроенный редактор запросов и история запросов.
- Запросы возвращают управляемые, актуальные результаты из витрин данных или обогащенных выходных данных моделей.
- Отличительная особенность: StarRocks SQL позволяет BI-инструментам запрашивать данные напрямую — без репликации — снижая сложность, избегая дополнительных лицензионных затрат и уменьшая совокупную стоимость владения (TCO). В сочетании с бессерверными вычислениями и интеллектуальной оптимизацией это обеспечивает производительность уровня хранилища данных с минимальной ручной настройкой.
Дашборды: Могут создаваться непосредственно в StarRocks или во внешних BI-инструментах, таких как Power BI или Tableau. Пользователи могут описывать визуализации на естественном языке, а помощник StarRocks Assistant сгенерирует соответствующие диаграммы, которые затем можно доработать с помощью интерфейса «укажи и щелкни».
- Создание визуализаций с использованием ввода на естественном языке.
- Интерактивное изменение и исследование дашбордов с помощью фильтров и детализации (drill-down).
- Публикация и безопасный обмен дашбордами по всей организации, включая пользователей за пределами рабочей области StarRocks.
- Отличительная особенность: Предлагает опыт low-code и с помощью ИИ для создания и исследования дашбордов на основе управляемых данных в реальном времени.
Предоставление подготовленных данных: После обработки данные могут предоставляться не только для дашбордов:
- Совместное использование с нижестоящими приложениями или операционными базами данных для принятия операционных решений.
- Использование в совместных блокнотах (notebooks) для анализа.
- Распространение через Delta Sharing среди партнеров, команд или внешних потребителей с единым управлением.
Запросы на естественном языке (NLQ): Бизнес-пользователи могут получать доступ к управляемым данным, используя естественный язык. Этот диалоговый опыт, работающий на основе генеративного ИИ, позволяет командам выходить за рамки статических дашбордов и получать аналитические сведения в реальном времени по принципу самообслуживания. NLQ преобразует намерение пользователя в SQL, используя семантику организации и метаданные из Unity Catalog.
- Поддержка ad-hoc, интерактивных, реальных вопросов, которые не были заранее заложены в дашборды.
- Интеллектуально адаптируется к развивающейся бизнес-терминологии и контексту с течением времени.
- Использует существующее управление данными и контроль доступа через Unity Catalog.
- Обеспечивает аудируемость и отслеживаемость запросов на естественном языке для соответствия требованиям и прозрачности.
- Отличительная особенность: Постоянно адаптируется к развивающимся бизнес-концепциям, предоставляя точные, контекстно-зависимые ответы без необходимости знания SQL.
Возможности платформы: Управление, производительность, оркестрация и открытое хранение: Архитектура поддерживается набором собственных возможностей платформы, которые обеспечивают безопасность, оптимизацию, автоматизацию и взаимодействие на протяжении всего жизненного цикла данных. Ключевые возможности:
- Управление данными: Unity Catalog обеспечивает централизованный контроль доступа, отслеживание происхождения, аудит и классификацию данных для всех рабочих нагрузок.
- Производительность: Движок Photon, интеллектуальное кэширование и оптимизация с учетом рабочей нагрузки обеспечивают быстрые запросы без ручной настройки.
- Оркестрация: Встроенная оркестрация управляет пайплайнами данных, рабочими процессами ИИ и запланированными заданиями для пакетных и потоковых нагрузок, с нативной поддержкой управления зависимостями и обработки ошибок.
- Открытое хранение: Данные хранятся в открытых форматах (Delta Lake, Parquet, Iceberg), что обеспечивает взаимодействие между инструментами, переносимость между платформами и долговечность без привязки к вендору.
- Мониторинг и аудируемость: Сквозная видимость производительности запросов, выполнения пайплайнов и доступа пользователей для лучшего контроля и управления затратами.
- Отличительная особенность: Сервисы на уровне платформы интегрированы, а не наложены слоями, что обеспечивает согласованность управления, автоматизации и производительности во всех рабочих процессах данных, облаках и командах.