Кто такой Data Steward: как организовать обеспечение Big Data Quality

--

Кто такой Data Steward: как организовать обеспечение Big Data Quality

Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему за это платят.

Сложности управления данными или зачем помощники Data Quality инженеру

Управление качеством данных не сводится только к обнаружению пропусков, дублей или аномальных значений. Технической стороной этого вопроса обычно занимается инженер по качеству данных (Data Quality Engineer) или тестировщик, однако исходная точка процессов Data Governance лежит в бизнес-плоскости. Управления качеством данных — это сквозной процесс в рамках операционной деятельности всего предприятия. Поэтому, по аналогии с владельцами бизнес-процессов, необходимо выделение владельцев данных. Data Owner отвечает за ввод данных в информационные системы, регулируя процессы управления качеством и безопасности данных в зоне своей ответственности. При этом зона ответственности определяется лишь природой данных и не зависит от программных приложений их использования [1].

Однако владелец данных — это роль без регулярного выполнения определенных функциональных обязанностей. Она предполагает полномочия вносить изменения, а также иметь доступ к бюджету или ресурсам для проведения мероприятий по очистке данных, однако не включает выполнение самих этих операций [2]. Поэтому возникла профессия дата стюарда — специалиста, который определяет требования и решает инциденты с качеством данных в рамках своего бизнес-подразделения. На практике дата-стюарды тесно взаимодействуют с владельцами данных, экспертами предметной области и аналитиками, которые готовят бизнес-требования к отчетам, приложениям, бизнес-терминам, справочникам и расчетам [3].

Чем занимается дата стюард

Глобальное управление данными (Data Governance) сосредоточено на политиках и процедурах высокого уровня, а Data Stewardship — на тактической координации и реализации процессов работы с информацией. В частности, Data Steward отвечает за выполнение политик использования корпоративных данных и их безопасности, связывая ИТ-инженеров с бизнес-подразделениями. Обычно функциональные обязанности дата стюарда включают следующее [4]:

· определение требований к данным на основе бизнес-контекста своего подразделения и способы их использования для достижения корпоративных целей;

· документирование и обеспечение соблюдения правил сбора, хранения и использования данных;

· определение степени доверия к источникам данных;

· обеспечение и гарантия качества корпоративных данных (собранных, хранящихся и используемых);

· контроль инцидентов, связанных с качеством данных;

· выполнение политик и стандартов, установленных программой управления данными;

· обеспечение доступа к нужным данным нужным пользователям в нужное время в зависимости от того, является ли информация личными, корпоративными или конфиденциальными данными и т. д.;

· помощь инженерам и аналитикам данных, а также Data Scientist’ам в проектировании и реализации процессов и процедур для сбора, хранения, использования и безопасности данных.

Таким образом, дата стюард несет ответственность за управление данными внутри своего бизнес-подразделения и использование информации, а также следит за соблюдением правил работы с ней в соответствии с корпоративными программами и политиками управления данными.

Big Data Management, Data Strategy, Data Steward, Data Governance

Как связаны Data Strategy, Data Steward и Data Governance

Что должен знать и уметь Data Steward

При том, что дата стюард позиционируется, в первую очередь, как транслятор между бизнесом и инженерией управления данными, он должен обладать следующими hard skills [5]:

· опыт в программировании и понимание теории баз данных (SQL, NoSQL, NewSQL);

· знание принципов хранения и обработки данных в стеке Big Data — пакетные и потоковые вычисления, Hadoop MapReduce, функциональные возможности Apache Spark, Kafka, NiFi, AirFlow, HDFS, HBase, Hive, Impala и другие средства SQL-on-Hadoop;

· основы проектирования и работы с корпоративными хранилищами и озерами данных (Data WareHouse, Data Lake), а также ETL/ELT-процессами;

· знакомство с инструментами обеспечения качества данных, например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие подобные системы;

· методы и техники бизнес-анализа для выявления и формализации требований к данным;

· нотации моделирования данных, в т.ч. процессные, например, DFD-диаграммы, а также логические модели ERD с целью описания зависимостей между справочниками информационных систем;

· навыки разработки технической документации.

Также стоит отметить soft skills, обязательные для успешного дата стюарда [6]:

· коммуникативные навыки;

· любознательность;

· способности к командному взаимодействию;

· системное мышление;

· знание доменной области.

Сколько стоит Data Stewardship: обзор рынка труда

На апрель 2020 года отечественный рынок труда демонстрирует не слишком высокий спрос на дата стюардов. Большинство вакансий открыты крупными организациями, которые стремятся стать data-driven и тесно работают со стеком технологий Big Data, например, банки (Газпромбанк, Сбербанк), ритейл (X5 Retail Group), телекомы и т.д. При этом функциональные обязанности Data Steward’а в российских компаниях сильно перекликаются с задачами аналитика и инженера данных, а также архитектора Big Data и Data Scientist’а. В большинстве объявлений зарплатная вилка не указана. Зарубежный рынок демонстрирует существенное разнообразие доменных областей: медицина, образование, промышленность, мода и прочие отрасли. Также иностранные HR-менеджеры не скупятся на детали, подробно описывая рабочие задачи и технический бэкграунд желаемого специалиста. Годовая зарплата дата стюарда варьируется от 50 до 100 тысяч долларов, что составляет от 300 до 600 тысяч рублей в месяц [7]. Однако, с учетом цифровизации каждого сектора отечественной экономики, логично спрогнозировать увеличение интереса к дата стюардам на российском рынке труда. Возможно, уже в ближайшем будущем Data Steward станет еще одной востребованной профессией в мире Big Data, которая принесет бизнесу следующие преимущества [4]:

· улучшенное качество данных;

· документация данных;

· четкие политики управления и процессы обработки данных;

· эффективные программы аналитики;

· объективное принятие управленческих решений на основе данных;

· улучшенное соблюдение правил работы с данными;

· снижение ошибок в процессах и решениях, основанных на данных;

· снижение рисков, связанных с требованиями безопасности и конфиденциальности данных.

Как организовать эффективное управление большими данными и обеспечить их качество, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Аналитика больших данных для руководителей
Подготовка данных в процессе Data Mining

расписание компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning

Смотреть расписание занятий

регистрация на компьютерные курсы для руководителей, аналитиков, программистов, администраторов и пользователей Internet of Things, Big Data и Machine Learning

Зарегистрироваться на курс

Источники

1. http://www.tadviser.ru/index.php/Статья:Управление_качеством_данных

2. https://www.nicolaaskham.com/blog/2019/8/2/data-owners-and-data-stewards-what-is-the-difference

3. https://www.e-xecutive.ru/management/itforbusiness/1988069-zachem-bankam-nuzhen-chief-data-officer.amp

4. https://searchdatamanagement.techtarget.com/definition/data-stewardship

5. https://analyticsindiamag.com/data-steward-roles-responsibilities/

6. https://blogs.sas.com/content/datamanagement/2018/11/27/data-steward-concierge-analytics/

7. https://www.salary.com/research/salary/benchmark/data-steward-salary

--

--

Nick Komissarenko https://bigdataschool.ru

Технический тренер компании "Школа Больших Данных" г. Москва, https://bigdataschool.ru co-founder of Big Data School - delivering Big Data, Kafka, Spark!