Идеальная облачная среда озера данных и DaaS: возможности и риски

--

Чтобы добавить в наши курсы для ИТ-архитекторов и дата-инженеров еще больше практических примеров, сегодня разберем ключевые требования к современному озеру данных и самые последние тренды в аналитике Big Data. Что такое DaaS, зачем это нужно и каковы риски.

7 преимуществ развертывания Data Lake в облаке

При том, что Data Lake уже не самая новая архитектура данных, о чем мы недавно писали, она до сих пор активно используется во многих предприятиях, позволяя организовать наглядные дэшборды с важными бизнес-показателями и системы машинного обучения из «сырых данных». Современное озеро данных представляет собой не просто масштабируемое и надежное хранилище, но и механизмы для сбора и организации данных, а также инструменты для их обработки и анализа. Облачные решения отлично подходят для озер данных, предоставляя неограниченные ресурсы сразу по запросу — организации платят только за то, что используют. Это позволяет динамически поддерживать любое количество пользователей и рабочих нагрузок без ущерба производительности. Кроме того, облачная сервисы и инфраструктура экономят средства, позволяя избежать дорогостоящих предварительных инвестиций в оборудование, программное обеспечение и другую инфраструктуру, а также затрат на обслуживание, обновление и обеспечение безопасности по сравнению с локальными решениями.

Таким образом, ключевыми преимуществами развертывания Data Lake в облаке становятся следующие:

- расширенная аналитика — озеро данных позволяет анализировать одни и те же данные разными способами для разных вариантов использования. А облачная экосистема не требует переноса данных и сопутствующих накладных расходов, затрат, усилий или задержек.

разнообразие структуры хранилищ — хотя классическое озеро данных, в отличие от DWH, ориентировано на множество структур данных, оно может поддерживать обработку транзакций с помощью форматов открытых таблиц типа Delta Lake, Apache Hudi или Iceberg, о чем мы писали здесь. Это обеспечивает универсальную возможность удовлетворить потребности различных аналитических и транзакционных приложений.

потоковая обработка в режиме реального времени. Не все данные просто сохраняются в озере данных и анализируются позже. Часто возникает потребность собирать, хранить, обрабатывать и даже анализировать данные в режиме реального времени. Идеальная облачная экосистема Data Lake включает мощные сервисы для сбора, хранения и анализа потоковых данных, а также возможность для этого создавать собственные приложения.

искусственный интеллект и Machine Learning для создания интеллектуальных приложений, таких как прогнозная аналитика и глубокое обучение.

обеспечение безопасности, включая конфиденциальность чувствительных данных и управление доступом к ним.

службы управления данными, которые используются на разных платформах. ETL-конвейеры обеспечивают правильное перемещение данных. Идеальная облачная экосистема озера данных должна иметь механизм ETL, чтобы понимать источники данных, извлекать и подготавливать данные и надежно загружать их в хранилища.

сервисы приложений. Идеальная облачная экосистема Data Lake имеет полнофункциональные утилиты для сценариев использования IoT, мобильных приложений и вызовов API.

Таким образом, современное озеро данных адаптируется к широкому спектру аналитических приложений и пользователей, покрывая все дополнительные потребности предприятия, включая безопасность, контроль доступа и автоматизированная поддержка облачной инфраструктуры. Как эти ключевые требования к Data Lake реализуются в тенденции развития аналитики больших данных и дата-инженерии под названием DaaS (Data as a Service), рассмотрим далее.

Что такое DaaS

Данные как услуга — это стратегия управления данными, которая использует облако для обеспечения хранения, интеграции и обработки данных по сети. DaaS похож на SaaS, стратегию облачных вычислений, которая доставляет приложения пользователям по сети, поэтому им не нужно запускать их локально на своих устройствах. Это устраняет необходимость в локальной установке программного обеспечения и управлении им. Точно так же DaaS отдает на аутсорсинг большинство операций по хранению, интеграции и обработке данных.

По сравнению с локальным хранилищем или озером данных DaaS-подход дает следующие преимущества:

- сокращение времени настройки, поскольку можно практически сразу начать хранение и обработку данных;

— облачная инфраструктура очень надежна, поэтому рабочие нагрузки DaaS менее подвержены простоям и сбоям;

— DaaS является более масштабируемым и гибким, чем локальная альтернатива, поскольку облачным рабочим нагрузкам можно мгновенно выделить больше ресурсов;

— DaaS упрощает оптимизацию управления данными и затрат на их обработку;

— инструменты и службы DaaS-платформ автоматически управляются и обновляются провайдером;

— облачная платформа DaaS позволяет сэкономить на оплате труда специалистов, специализирующихся на настройке инструментов обработки данных и управлении ими.

Однако, помимо преимуществ, которые можно получить с помощью DaaS, у этого подхода есть и некоторые проблемы, которые мы подробно разбирали в этой статье:

- при перемещении данных в облачную инфраструктуру и передаче их по сети, могут возникнуть риски безопасности, которых можно было избежать в локальной инфраструктуре за брандмауэром. Поэтому в облачной инфраструктуре очень важно использовать механизмы аутентификации, хранить данные в определенных регионах и передавать их в зашифрованном виде.

— DaaS-платформы могут ограничивать количество инструментов, доступных для обработки данных;

— передача больших объемов данных в DaaS-решение может занять много времени в случае ограниченной пропускной способности сети.

Тем не менее, современные облачные провайдеры стремятся смягчить или устранить совсем все эти риски, чтобы привлечь на свои DaaS-платформы еще больше пользователей за счет широкого набора различных интерфейсов и инструментов интеграции данных, а также аналитических инструментов. Например, Yandex Cloud, VK Cloud, Google Cloud Platform, Microsoft Azure, AWS и прочие DaaS-платформы крупных облачных провайдеров.

Больше подробностей про организацию Data Lake и другие архитектурные модели хранения и аналитики больших данных вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

- Архитектура Данных

Безопасность озера данных Hadoop на платформе Arenadata

Источники

1. — https://macxima.medium.com/ideal-cloud-based-data-lake-framework-6abfe4135357
2. — https://medium.com/codex/what-is-data-as-a-service-8adc912ef4b0

--

--

Nick Komissarenko https://bigdataschool.ru

Технический тренер компании "Школа Больших Данных" г. Москва, https://bigdataschool.ru co-founder of Big Data School - delivering Big Data, Kafka, Spark!