Кто такой Data Steward: как организовать обеспечение Big Data Quality
Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему за это платят.
Сложности управления данными или зачем помощники Data Quality инженеру
Управление качеством данных не сводится только к обнаружению пропусков, дублей или аномальных значений. Технической стороной этого вопроса обычно занимается инженер по качеству данных (Data Quality Engineer) или тестировщик, однако исходная точка процессов Data Governance лежит в бизнес-плоскости. Управления качеством данных — это сквозной процесс в рамках операционной деятельности всего предприятия. Поэтому, по аналогии с владельцами бизнес-процессов, необходимо выделение владельцев данных. Data Owner отвечает за ввод данных в информационные системы, регулируя процессы управления качеством и безопасности данных в зоне своей ответственности. При этом зона ответственности определяется лишь природой данных и не зависит от программных приложений их использования [1].
Однако владелец данных — это роль без регулярного выполнения определенных функциональных обязанностей. Она предполагает полномочия вносить изменения, а также иметь доступ к бюджету или ресурсам для проведения мероприятий по очистке данных, однако не включает выполнение самих этих операций [2]. Поэтому возникла профессия дата стюарда — специалиста, который определяет требования и решает инциденты с качеством данных в рамках своего бизнес-подразделения. На практике дата-стюарды тесно взаимодействуют с владельцами данных, экспертами предметной области и аналитиками, которые готовят бизнес-требования к отчетам, приложениям, бизнес-терминам, справочникам и расчетам [3].
Чем занимается дата стюард
Глобальное управление данными (Data Governance) сосредоточено на политиках и процедурах высокого уровня, а Data Stewardship — на тактической координации и реализации процессов работы с информацией. В частности, Data Steward отвечает за выполнение политик использования корпоративных данных и их безопасности, связывая ИТ-инженеров с бизнес-подразделениями. Обычно функциональные обязанности дата стюарда включают следующее [4]:
· определение требований к данным на основе бизнес-контекста своего подразделения и способы их использования для достижения корпоративных целей;
· документирование и обеспечение соблюдения правил сбора, хранения и использования данных;
· определение степени доверия к источникам данных;
· обеспечение и гарантия качества корпоративных данных (собранных, хранящихся и используемых);
· контроль инцидентов, связанных с качеством данных;
· выполнение политик и стандартов, установленных программой управления данными;
· обеспечение доступа к нужным данным нужным пользователям в нужное время в зависимости от того, является ли информация личными, корпоративными или конфиденциальными данными и т. д.;
· помощь инженерам и аналитикам данных, а также Data Scientist’ам в проектировании и реализации процессов и процедур для сбора, хранения, использования и безопасности данных.
Таким образом, дата стюард несет ответственность за управление данными внутри своего бизнес-подразделения и использование информации, а также следит за соблюдением правил работы с ней в соответствии с корпоративными программами и политиками управления данными.
Как связаны Data Strategy, Data Steward и Data Governance
Что должен знать и уметь Data Steward
При том, что дата стюард позиционируется, в первую очередь, как транслятор между бизнесом и инженерией управления данными, он должен обладать следующими hard skills [5]:
· опыт в программировании и понимание теории баз данных (SQL, NoSQL, NewSQL);
· знание принципов хранения и обработки данных в стеке Big Data — пакетные и потоковые вычисления, Hadoop MapReduce, функциональные возможности Apache Spark, Kafka, NiFi, AirFlow, HDFS, HBase, Hive, Impala и другие средства SQL-on-Hadoop;
· основы проектирования и работы с корпоративными хранилищами и озерами данных (Data WareHouse, Data Lake), а также ETL/ELT-процессами;
· знакомство с инструментами обеспечения качества данных, например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие подобные системы;
· методы и техники бизнес-анализа для выявления и формализации требований к данным;
· нотации моделирования данных, в т.ч. процессные, например, DFD-диаграммы, а также логические модели ERD с целью описания зависимостей между справочниками информационных систем;
· навыки разработки технической документации.
Также стоит отметить soft skills, обязательные для успешного дата стюарда [6]:
· коммуникативные навыки;
· любознательность;
· способности к командному взаимодействию;
· системное мышление;
· знание доменной области.
Сколько стоит Data Stewardship: обзор рынка труда
На апрель 2020 года отечественный рынок труда демонстрирует не слишком высокий спрос на дата стюардов. Большинство вакансий открыты крупными организациями, которые стремятся стать data-driven и тесно работают со стеком технологий Big Data, например, банки (Газпромбанк, Сбербанк), ритейл (X5 Retail Group), телекомы и т.д. При этом функциональные обязанности Data Steward’а в российских компаниях сильно перекликаются с задачами аналитика и инженера данных, а также архитектора Big Data и Data Scientist’а. В большинстве объявлений зарплатная вилка не указана. Зарубежный рынок демонстрирует существенное разнообразие доменных областей: медицина, образование, промышленность, мода и прочие отрасли. Также иностранные HR-менеджеры не скупятся на детали, подробно описывая рабочие задачи и технический бэкграунд желаемого специалиста. Годовая зарплата дата стюарда варьируется от 50 до 100 тысяч долларов, что составляет от 300 до 600 тысяч рублей в месяц [7]. Однако, с учетом цифровизации каждого сектора отечественной экономики, логично спрогнозировать увеличение интереса к дата стюардам на российском рынке труда. Возможно, уже в ближайшем будущем Data Steward станет еще одной востребованной профессией в мире Big Data, которая принесет бизнесу следующие преимущества [4]:
· улучшенное качество данных;
· документация данных;
· четкие политики управления и процессы обработки данных;
· эффективные программы аналитики;
· объективное принятие управленческих решений на основе данных;
· улучшенное соблюдение правил работы с данными;
· снижение ошибок в процессах и решениях, основанных на данных;
· снижение рисков, связанных с требованиями безопасности и конфиденциальности данных.
Как организовать эффективное управление большими данными и обеспечить их качество, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
Аналитика больших данных для руководителей
Подготовка данных в процессе Data Mining
Источники
1. http://www.tadviser.ru/index.php/Статья:Управление_качеством_данных
2. https://www.nicolaaskham.com/blog/2019/8/2/data-owners-and-data-stewards-what-is-the-difference
4. https://searchdatamanagement.techtarget.com/definition/data-stewardship
5. https://analyticsindiamag.com/data-steward-roles-responsibilities/
6. https://blogs.sas.com/content/datamanagement/2018/11/27/data-steward-concierge-analytics/
7. https://www.salary.com/research/salary/benchmark/data-steward-salary