Uğurlu Data Science layihəsinin quruluşu

Asad Dashdamirli
ABB Data Portal
Published in
6 min readSep 27, 2023

Həyata keçirilə biləcək fikirlərin və transformativ həllərin axtarışının gündəlik iş olduğu data science-da hər bir layihə üçün strukturlaşdırılmış çərçivənin müəyyən edilməsi böyük əhəmiyyət kəsb edir. Bu məqalədə data science proyektinin qurulmasının incəliklərinə nəzər yetirəcək və uğura çatmaq üçün strukturlaşdırılmış çərçivənin müəyyən edilməsinin nəyə görə seçim yox, zərurət olduğuna baxacayıq. İstər təcrübəli data scientist olsanız, istərsə də bu dinamik sahəyə səyahətinizə yeni başlasanız, bu strukturlaşdırılmış yanaşmanın arxasında duran “niyə”ni başa düşmək qarşıdakı səyahəti işıqlandıracaq və uğura çatmaq şansınızı əhəmiyyətli dərəcədə artıracaq.

CRISP-DM (Cross-Industry Standard Process for Data Mining) data science proyektlərini 6 mərhələyə bölür: Biznesin Anlaşılması, Məlumatların Anlaşılması, Məlumatların Hazırlanması, Modelləşdirmə, Qiymətləndirmə, Yerləşdirmə. Bu strukturlaşdırılmış yanaşma proyektin bütün kritik tərəflərinin sistemli şəkildə idarə edilməsini təmin edir.

CRISP-DM Diagram. Inspired by Wikipedia

Data science proyektləri daha çox iterativ proseslərdən ibarət olur. Bu o deməkdir ki hər hansısa mərhələdən alınan fikir əvvəlki mərhələlərdən birinə geri qayıdılmasını tələb edə bilər. CRISP-DM hər bir mərhələdə çeviklik və iterasiyaya imkan verməklə layihənin dəyişən tələblərə və yeni kəşflərə uyğunlaşa bilməsini təmin edir.

Biznesin Anlaşılması

Biznesin Anlaşması mərhələsi CRISP-DM-də ilk addımdır və həll edilməli olan problemi müəyyənləşdirməyə və mövcud biznes kontekstini başa düşməyə yönəlmişdir. Əsas suallara aşağıdakılar daxildir:

  • Problemin tərifi: Data science layihəsi tərəfindən həll edilməli olan problemi və ya fürsəti aydın şəkildə müəyyənləşdirmək.
  • Cari Vəziyyət: Biznesin hazırda problemlə necə məşğul olduğunun qiymətləndirilməsi və təkmilləşdirilə biləcək sahələrin müəyyən edilməsi.
  • Biznes axını: Problemin kontekstini vizuallaşdırmaq üçün hal-hazırki biznes proseslərinin ümumi xəritəsinin yaradılması.
  • Hədəf auditoriyası: Süni intellekt həllindən faydalanacaq olan xüsusi müştərilərin və ya son istifadəçilərin müəyyən edilməsi
  • Gözlənilən Nəticənin Əlçatanlığı: Bu mərhələdə data scientist-lər cari biznes performansı və ya mövcud sənaye standartları əsasında gözlənilən uğurun əldə edilməsinin hansı dərəcədə realistik olduğunu qiymətləndirirlər. Bu qiymətləndirmə layihənin təsiri ilə bağlı real gözləntilər müəyyən etməyə kömək edir.
  • Biznes Ölçülərinin Seçimi: Layihənin uğurunu qiymətləndirmək üçün bir və ya daha çox biznes ölçüləri seçilir. Səyləri cəmləşdirmək və nəticələri effektiv şəkildə çatdırmaq üçün adətən vahid, aydın və müvafiq ölçü seçilir.
  • Riyazi Tənzimləmə: Seçilmiş biznes ölçüsünün riyazi tərtibatı hazırlanmışdır. Bu düstur ölçünü hesablamaq və izləmək üçün dəqiq bir yol təqdim edir.
  • Gözlənilən Həllin İnteqrasiyası: Süni intellekt həllinin mövcud biznes proseslərinə və iş axınlarına necə uyğunlaşacağının təsviri.

Bu mərhələ bütün layihə üçün təməl qoyur, biznes məqsədlərinə uyğunluğu təmin edir və məlumatlara əsaslanan fikirlərin praktikada necə tətbiq ediləcəyi barədə aydın təsəvvür yaradır.

Məlumatların Anlaşılması

Photo by Stephen Dawson on Unsplash

Məlumatların Anlaşılması mərhələsi layihənin məlumatlarını dərindən başa düşməyə yönəlib. Əsas suallara aşağıdakılar daxildir:

  • Hədəf Dəyişənin Təyin Olunması: Maşın öyrənmə (ML) modelinin proqnozlaşdıracağı və ya təsnif edəcəyi dəyişəni müəyyənləşdirmək.
  • Vaxt çərçivələri: Hədəf dəyişəni üçün icra müddətini və daxil edilmiş məlumatlar üçün vaxt pəncərəsini təyin etmək
  • Məlumatların mövcudluğu: Layihəyə başlamaq üçün kifayət qədər tarixi məlumatın olub-olmadığını qiymətləndirmək.
  • Mövzu Fərziyyələri: Mövzu biliklərinə əsaslanan fərziyyələrin yaradılması.

Bu mərhələ məlumatların uyğunluğunu təmin edir, potensial problemləri həll edir və sonrakı məlumatların ilkin işlənməsi və modelin hazırlanmasına rəhbərlik edir.

Məlumatların Hazırlanması

Məlumatların hazırlanması mərhələsi təhlil üçün məlumatların təmizlənməsini, dəyişdirilməsini və strukturlaşdırılmasını əhatə edir. Əsas vəzifələrə məlumatların toplanması və inteqrasiyası, keyfiyyət üçün təmizləmə, təhlilin uyğunluğu üçün transformasiya, lazım olduqda məlumatların ölçülərinin azaldılması, train və test dəstlərinə bölünməsi və dəyişikliklərin sənədləşdirilməsi daxildir. Bu mərhələ məlumatların layihənin sonrakı mərhələlərində modelləşdirmə və təhlil üçün hazır olmasını təmin edir.

Modelləşdirmə

Photo by Steve Johnson on Unsplash

CRISP-DM çərçivəsindəki bu mərhələ bir data science proyektinin önəmli mərhələsidir. Bu mərhələdə data scientist-lər layihə üçün uyğun maşın öyrənməsi və ya statistik modelləri seçirlər. Bu qərar problemin xarakterinə və məlumatlara əsaslanır. Bundan əlavə, modelin performansını optimallaşdırmaq üçün model hiperparametrləri dəqiq tənzimlənir. Hiperparametrlərin tənzimlənməsi üçün adətən çarpaz doğrulama (cross-validation) kimi üsullardan istifadə olunur.

Modelləşdirmə mərhələsi proqnozlaşdırıcı və ya təsviri modellər yaratmaq üçün seçilmiş alqoritmlərin və dəyişənlərin bir araya gəldiyi yerdir. Bu, modellərin yaxşı işləməsinə və layihənin məqsədlərinə cavab verməsinə əmin olmaq üçün geniş eksperimentlərin aparılmasını və qiymətləndirməsini əhatə edir. Bu mərhələdə yaradılmış modellər daha sonra növbəti Qiymətləndirmə mərhələsində qiymətləndirilir və təkmilləşdirilir.

Qiymətləndirmə

Bu mərhələ data science proyekti üçün həlledici addımlardan biridir. Qiymətləndirmə mərhələsinin əsas aspektləri bunlardır:

  • Etalon Əsasında Müvəffəqiyyət: Bu mərhələdə data scientist’lər qurulmuş modellərin mövcud təcrübələr və ya sənaye standartları ilə müqayisə əsasında uğurunu qiymətləndirirlər. Bu müqayisə yeni modelin mövcud vəziyyətə nisbətən əhəmiyyətli təkmilləşdirmələr təklif edib-etmədiyini müəyyən etməyə kömək edir. Etalondan daha yaxşı performansa nail olmaq müvəffəqiyyətin əsas göstəricisidir.
  • Biznes Metrikləri daxil olmaqla Biznes Təsdiqinin Alınması: Data science proyektlərində uğur təkcə texniki mükəmməlliyə nail olmaq deyil, həm də biznes təsdiqini qazanmaqdır. Data scientist’lər layihənin biznes məqsədlərinə uyğun olmasını və maddi dəyər yaratmasını təmin etmək üçün stakeholder’lər ilə sıx əməkdaşlıq edirlər. Buraya proyektin təsirini göstərən spesifik ölçülərin təyin olunması və izlənməsi də daxildir.

Qiymətləndirmə mərhələsi data science nəticələrinin real dünya biznes məqsədləri kontekstində qiymətləndirildiyi yerdir. Bu, məlumat elmi həllinin yalnız təcrid olunmuş vəziyyətdə yaxşı işləməsini deyil, həm də mənalı biznes nəticələrinə çevrilməsini təmin edir.

Yerləşdirmə

Yerləşdirmə data science proyektində son mərhələdir. Bu mərhələdə qurulumuş model və ya həll yolu istifadəyə verilir:

  • Yerləşdirmə Planı: Proyektin qurulmasından yerləşdirilməsinə rahat keçid üçün tələb olunan mərhələlərin, vaxtın və resursların hər tərəfli planının hazırlanması
  • İnteqrasiya və Miqyaslılıq: Artan iş yüklərini və dəyişən tələbləri idarə etmək üçün miqyaslılığı təmin edərək, data science modelini mövcud biznes sistemlərinə inteqrasiyası
  • Monitorinq və Baxım: Məlumatların keyfiyyətinin, model performansının və sistemin sağlamlığının davamlı monitorinqinin həyata keçirilməsi. Davamlı texniki xidmət və yeniləmələr üçün prosedurların qurulması
  • İstifadəçi Təlimi və Dəstəyi: Həllin effektiv istifadəsini təmin etmək üçün son istifadəçiyə təlim və dəstəyin verilməsi
  • Sənədləşdirmə və Təhlükəsizlik: Həllin arxitekturası və məlumat axışı üçün hərtərəfli sənədlərinyaradılması. Həssas məlumatları qorumaq üçün təhlükəsizlik və uyğunluq tələblərinə cavab verilməsi
  • Əlaqə və Keçid: İstifadəçi girişi və fəaliyyətinin qiymətləndirilməsi üçün əks əlaqə mexanizmləri yaradılması. Mülkiyyət və məsuliyyətin davamlı idarəetmə üçün əməliyyatlara və ya müvafiq komandalara keçməsi

Yerləşdirmə mərhələsi data science həllinin işə salındığı yerdir, onun effektivliyini və uzunmüddətli uğurunu təmin etmək üçün diqqətli planlaşdırma, inteqrasiya, monitorinq və dəstək tələb olunur.

Bəs bu prosesin idarə edilməsində hansı çətinliklər yarana bilər?

  • Avtomatlaşdırılmamış iş: Hər mərhələ və mərhələlər arasında keçid avtomatlaşdırılmadan aparılır. Bu o deməkdir ki, data scientist-lər hər bir biznes sualı üçün məlumatları əl ilə toplamalı, təhlil etməli və emal etməlidir. Onlar yenilərini hazırlamaq üçün köhnə modellərini yoxlamalı və hər dəfə əl ilə tənzimləməlidirlər. Performansın azalmasının qarşısını almaq üçün modelin monitorinqinə də çox vaxt ayrılır.
  • Komandalar arasında əlaqənin olmaması: Data scientist-lər effektiv maşın öyrənmə modellərini özləri qura bilərlər. Bununla belə, 2020-ci il “Algorithmia” hesabatında ML modelləri ilə işləyən müəssisələrin 55%-nin heç bir modeli istehsala yerləşdirmədiyi bildirilir. Bunun səbəbi, maşın öyrənmə modelinin biznes istifadəsi üçün uğurlu tətbiqi data scientist-lərin biznes mütəxəssisləri, dizaynerlər, proqramlaşdırıcılar və digər komandalarla əməkdaşlıq etməsini tələb edir. Bu əməkdaşlıq yerləşdirmə prosesini daha mürəkkəb edir.
  • Miqyaslılıq: Məlumatın ölçüsü və ya yerləşdirilən maşın öyrənmə modellərinin sayı artdıqca, bütün prosesi idarə etmək çətinləşir. Hər bir modeli inkişaf etdirmək, idarə etmək və izləmək üçün müxtəlif data scientist komandalarını tələb oluna bilər. Bu səbəblərdən bir təşkilatın maşın öyrənmə tətbiqlərini avtomatlaşdırılmadan yalnız limitli şəkildə genişləndirə bilər.

Biz ABB Bank olaraq data science layihələrimiz üçün bu metodologiyanı qəbul etmişik və onun pozitiv təsirini müşahidə etmişik. Bu strukturlaşdırılmış yanaşma layihənin şəffaflığını və səmərəliliyini artırır və bizə mürəkkəb problemləri effektiv şəkildə həll etməyə imkan verir. CRISP-DM ilə biz, dəqiq məqsədlər müəyyən edir, məlumatların incəlikləri arasında naviqasiya edir və verilənlərə əsaslanan həlləri metodik olaraq inkişaf etdirir və tətbiq edirik. Vacib məqamlardan biri də odur ki, biz CRISP-DM-i xüsusi təşkilatı ehtiyaclarımızı qarşılaması üçün uyğunlaşdıraraq və fərdiləşdirərək, onun şirkətimizin unikal kontekstində qüsursuz inteqrasiyasını və tətbiqini təmin etdik. Bu uyğunlaşma onun çox yönlülüyünü vurğulayır və müştərilərimizə daha yaxşı xidmət göstərmək üçün data science-da ən yaxşı təcrübələrdən istifadə etmək öhdəliyimizi vurğulayır.

--

--