VERİ ANALİTİĞİ (HAFTA 1)

ZeynepAzili
4 min readJul 15, 2023

--

Herkese merhaba. Miuul Veri Analitiği Bootcamp’ine katıldığım bu günlerde öğrendiklerimi pekiştirmek adına bir yazı serisi hazırlamaktayım. Serinin ilk bölümü ile karşınızdayım. Keyifli okumalar dilerim.

Data Analitiğinde veri odaklı(data-driven) stratejiler geliştirmek için elzem 2 başlık vardır:

1- Sürdürülebilir Başarı ( Sustainable Success) için 4 unsur vardır:

* Müşteri deneyimini geliştirmek (survey)

* Verimliliği arttırmak

* Geliri arttırmak

* Gideri azaltmak

2- Büyüme Motoru (Growth Engine)- Otomasyon ve Yapay Zeka

*Müşteri bağlılığını arttırmak (avukat müşteri)

*Çalışan bağlılığını arttırmak,terkini azaltmak

*Proaktif üretimi sağlamak

*Yeni niş pazarlar bulmak

*Hızlı hareket etme kabiliyeti

*Karlılığı arttırmak

VERİ MADENCİLİĞİ

Veri Madenciliği; veri içerisindeki örüntüyü(pattern), bilgiyi(knowledge) keşfedip algoritmayla formulize ettiğimiz bir süreçtir.

Peki makine öğrenmesinden farkı nedir?

Veri madenciliği, mevcut verilerden kuralları elde etmek için kullanılırken, makine öğrenmesi bilgisayara, kuralların nasıl öğrenileceğini ve kavranacağını öğretir.

Bir makine öğrenmesi modelinin yeterince iyi olması için;

  • Accuracy — yeterince doğruluk oranı olmalı
  • Cost — açıklanabilir olmalı ,basit (simplicity) ve maliyeti düşük olmalı, karmaşık bir model olmamalı
  • Recency — modelin güncel olması, tekrarlanabilir olmalı

CRISP-DM (Cross Industry Standard Process for Data Mining) bir veri madenciliği süreç modelidir. CRISP-DM, veri madenciliği projelerini aşamalara bölen, sistematik ve yapılandırılmış bir yaklaşım sunar.

CRISP-DM, 6 ana aşamadan oluşur:

  1. İş Anlayışı (Business Understanding): Bu aşamada, proje hedefleri ve sorunları belirlenir. Proje hedeflerinin ve veri madenciliği çözümünün iş hedefleriyle uyumlu olması sağlanır.

2. Veri Anlayışı (Data Understanding): Bu aşamada, mevcut veri kaynakları gözden geçirilir ve analiz edilir. Veri tipleri, kalitesi ve eksiklikleri değerlendirilir.

3. Veri Hazırlığı (Data Preparation): Bu aşamada, veriler temizlenir, dönüştürülür ve analize hazır hale getirilir. Eksik veriler tamamlanır, gereksiz veriler çıkarılır ve veri formatları birleştirilir.

4. Modelleme (Modeling): Bu aşamada, veri madenciliği teknikleri kullanılarak modele dayalı bir çözüm geliştirilir. Örüntüler ve ilişkileri tanımlamak için çeşitli algoritmalar kullanılır.

5. Değerlendirme (Evaluation): Bu aşamada, geliştirilen modelin performansı ve doğruluğu değerlendirilir. Modelin iş hedeflerine uygun olup olmadığı incelenir.

6. Dağıtım (Deployment): Bu aşamada, modelin gerçek dünya ortamına uygulanması ve kullanılması için gereken adımlar atılır. Modelin takip edilmesi ve sürdürülmesi planlanır.

CRISP-DM, veri madenciliği projelerini planlama, uygulama ve izleme sürecini disiplinli bir şekilde yönetmeyi sağlar. Projelerin başarılı bir şekilde tamamlanması için bir çerçeve sunar ve projelerde tekrarlanabilirlik ve ölçeklenebilirlik sağlar.

Bir “Data Analist” te olması gereken 7 temel özellik nedir ? Bu konuyla ilgili olarak bir Brad PITT filmi olan MoneyBall filminden oldukça güzel iç görüler elde ettik. Birincil şapkam istatistikçi olunca bu tür film ve kitaplardan oldukça etkileniyorum :)

> Doğru soruyu sormak: Mevcut problemi çözmek adına doğru sorunu belirlemek.Bu stratejinize yön verir.

> Storytelling ( Şaşırtma-Hikayeleştirme Sanatı ): Elde ettiğiniz ön görü ve iç görüleri ikna edici bir şekilde yöneticinize can alıcı noktalarıyla söyleyebilmek.

> Sınırlı kaynaklar : Aynı girdilerle farklı çıktılar alınmaz derler yanlış, bazen farklı çıktı almak için sadece oturduğunuz yeri değiştirmeniz yeterlidir, yani veriye başka koltuktan bakmak. (Lift Etkisi)

> Özellik Çıkarımı (Feature Extraction): Analiz yaparken aynı girdilerin birlikte kullanımlarından bambaşka özellikler üretmektir.

> Teknik Yetkinlikler : Excel, Python, Power BI, SQL..

> Sosyal Beceriler (Soft Skills): Strateji, ekip olarak çalışabilme, olgunluk, kendini geliştirme ve güncek tutma becerisi..

> Sektör Bilgisi (Domain Knowledge): Alandaki yetkinliğimiz, iş bilgimiz analizde olması gereken önemli bir unsurdur.

Veri Analitiği tipleri 4 adettir :

1- Betimleyici (Descriptive) Analitik : Geçmişte ne oldu? sorusuna yanıt verir. Veri hakkında tanımlayıcı bilgileri ortaya koymaktadır. Kaç adet satış yaptım? Kaç kişi çalışıyor? Ne kadar ciro yaptık ? vs.

2- Tanısal (Diagnostic) Analitik : Neden oldu ? sorusuna yanıt verir. Bu analitik yöntem, bir sorunun veya durumun arkasındaki kök nedenleri belirlemeyi hedefler. Neden-Sonuç Analizi, Kök Neden Analizi, Tahmin Modelleri vs.

3- Kestirimsel- Tahmine Dayalı (Predictive) Analitik: Ne olacak? sorusuna yanıt verir. Bu yöntem, geçmiş verileri kullanarak gelecekteki olayları tahmin etmek ve olası sonuçları öngörmek için istatistiksel modelleri ve makine öğrenimi algoritmalarını kullanılır. Veri Temizleme, Özellik Seçimi, Modelleme, Model Doğrulama, Tahmin ve Sonuç gibi aşamaları içerebilir. Müşteri Davranışı, Pazar Talebi, Stok Yönetimi, Risk Analizi, Pazarlama Stratejileri vs.

4- Öngörüsel (Prescriptive ) Analitik: Ne yapılmalı? Nasıl yapılmalı ?sorusuna yanıt verir. Bu ürünü nasıl satarım? Bu reklama nasıl tıklatırım ? Tavsiye/öneri sistemleri, Makine Öğrenmesi, Sezgisel Yöntemler, Sinir Ağları, Simülasyon vs.

VERİYİ ANLAMAK

> Yinelenen (tekrarlı) kayıtları kaldırmak. (Duplicate)

> Eksik Veri Analizi (Missing Value)

> Dönüştürme (Transformation)

> Sepetlere Dönüştürme (Bucketing ) / Alt kategorilere ayırma

> Düzenleme/Ayarlama ( Adjusting )

> Aykırı Değer Analizi (Outlier)

> Eksik Veri Analizi (Missing Value)

> Parçalara ayırma (Granularity)

VERİYİ ÖZETLEMEK

> Ortalama: Aritmetik Ortalama (mean), Ortanca (median) , Mod (mode)

> Yaygınlık : Standart Sapma (σ): Varyansın kareköküdür. Varyans(σ2): Bütün değerlerin ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür.

Değişim Katsayısı (coefficient of variation): Diğer önemli bir yayılım ölçüsüdür. Kitle ya da örneklemde değişimin/bulanıklığın ölçüsüdür.Formülü aşağıdaki gibidir.

Değişim Katsayısı: (St. Sapma / Ortalama X 100 ) < %35 olursa tolere edilebilecek bir eşik değeridir. Daha fit, daha homojen bir datamız vardır diyebiliriz.

Korelasyon Katsayısı (r): Bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu katsayı, (-1) ile (+1) arasında bir değer alır.

Feedback vermeyi ve çok daha fazlası için serinin devamını takipte kalmayı unutmayın..

Linkedin: https://www.linkedin.com/in/zeynep-keskin-azili-74b1557b/

--

--

ZeynepAzili

Researcher of Data Science, Data Visualization, Statistics, Machine Learning, Mathematics, Python