Zaman Serisi Ve Veri Tipleri -1

Berk Kayı
Deep Learning Türkiye
5 min readJun 15, 2020

--

Herkese merhaba , bugün bir blog serisinin ilk blog yazısında beraberiz.Bu seri sonunda uçtan uca bir zaman serisi analizi nasıl yapılacağını görmüş olacağız.Makine öğrenmesinde nasıl bir yere sahip olduğunu da incelemiş olacağız.Zaman kaybetmeden başlayalım.

Veri Tipleri

Veri tipleri bizim yapacağımz analize karar verme konusunda ilk aşamadır.İstatistiksel olarak iki türlü veri tipi vardır , bunlar :

  • Nicel veri (quantative data)
  • Nitel veri (qualitative data)

Nitel Veri:

Nitel veriler , nitelikleri olan , ölçülemeyen,kategorik verilerdir. Bu veriler sınıf şeklinde de ifade edilebilir. Örneğin kadın-erkek , başarılı-başarısız ,hasta-sağlıklı gibi veriler nitel verilere örnektir.Eğer verimiz nitel ise sınıflandırma problemimiz var ve bunun için sınıflandırma algoritmalarını veya tekniklerini kullanmamız gerekeceği anlamına gelir. Nitel verileri bağımsız değişken olarak ta kullanabiliriz,yani regresyon probleminde açıklayıcı değişken olarak ta kullanılabilir.Sınıfları belirli olmayan verimizi sınıflara ayırmak istiyorsak kümeleme tekniklerini kullanmamız gerekir.Nitel verilerin iki türü vardır, bunlar:

  • ikili sınıf (binary class):

Örneğin,kadın-erkek şeklindeki veriler ikili sınıftır. Analiz için 1–0 şeklinde dummy değişkene dönüştürmemiz gerekir.

  • çoklu sınıf (multi class):

Örneğin , kısa-orta-uzun boylu insanların bulunduğu veriler çoklu sınıftır. Analiz için nitelik sayısının bir eksiği kadar 1–0 şeklinde dummy değişken oluşturulabilir ,çünkü her nitelik için eklenirse kukla değişken tuzağına düşmüş oluruz. Eğer istersek 1–2–3 şeklinde de dummy değişken oluşturabiliriz.

Gördüğünüz gibi verimizin tipine ve özelliğine göre kullanılıcak tekniği seçiyoruz. Asıl meselemiz zaman serisi olduğu için nitel verilere daha fazla değinmeyeceğim.

Nicel Veri:

Nicel veriler ölçülebilir , niceliksel , sayısal verilerdir.Bu verilere örnek vermem gerekirse , borsada bir hisse senedinin günlük kapanış değerleri , emlak ofisindeki evlerin fiyatları ,kan tahlili sonucunda kişilerin kan değerleri örnek olarak verilebilir. Nicel veriler en temelde regresyon problemlerinde kullanılıyorken, bu verilerin biçimlerine göre kullanılacak teknik değişecektir. Üç türlü Nicel veri biçimi vardır , bunlar:

  • kesit veri
  • zaman serisi verisi
  • panel veri

Kesit Veri:

Nicel verilerin aynı zamanda gerçekleşen , zamanın sabit olduğu verilerdir.Zamanın dahil olmadığı her nicel veri kesit veri olarak sayılabilir.Bu veriler mekansal veriler olarak adlandırılabilir.Örneğin ilgili kitledeki bireylerin gelirleri ile harcamalarının tahmin edildiği bir regresyon problemi örnek verilebilir. Bu tarz problemlerde işin içine zaman dahil olmadığı için statik modeller kullanılır.

veya

t=1,2,3,…,n şeklinde zamanı göstersin , i= 1,2,3,…,n şeklinde indeksi göstersin her iki gösterimde aynıdır çünkü zaman sabittir.Bu şekildeki modeller statik modellerdir.Genelde Makine öğrenmesinde bu tür modeller kullanılır.Veriyi de şu şekilde gösterebiliriz:

zaman sabit olduğu için kaldırabiliriz.

Böyle bir veri artık Regresyon teknikleri ile modellenebilir ve çözülebilir.

Zaman Serisi Verisi:

Zaman serisi verileri , verilerin ardışık olarak dizildiği , belirli tarihlerde veya zamanlarda gerçekleşmiş olan verilerdir.Bu verilerde verilerin sırasının önemi vardır ,değiştirilmemelidir.Bu verilerde mekan sabitken mekanın zamana göre değişimi söz konusudur.Örneğin bir bankada kredi kartı kullanıcılarının aylık toplam yapılan harcamaları zaman serisine örnektir.Önceki dönemlerde yapılan harcamalar bu ayda yapacağı harcama miktarı konusunda bilgi vereceği için önceki dönemlerin gecikmelerinin alındığı modeller kullanılır.Bu tür modellere dinamik modeller denmektedir.tek değişkenin gecikmesinin kullanıldığı , ilgili başka bir değişkenin gecikmesinin kullanıldığı yada her iki değişkeninde gecikmeli olduğu modeller kullanılabilir.

otoregresif model
dağıtılmış gecikmeli model
otoregresif dağıtılmış gecikmeli model
otoregresif dağıtılmış gecikmeli model

t=1,2,3,…,n şeklinde zamanı gösterirse yan taraftaki modellerin herbiri kullanılabilir .İleride daha farklı modellerde inceleyeceğiz. Veriyi aşağıdaki gibi görebiliriz:

Yukarıda da gözükütüğü gibi bir önceki dönemin gecikmesi alınarak yeni bir değişken oluşturuluyor.Önceki dönemlerin şimdiki döneme olan etkisi modellenmek hedeflenir.Aklıma şu söz geldi;

“Gelecek , bugün ne yaptığına bağlıdır…” Mahatma Gandhi

Panel Veri:

Hem kesit hem de zaman serisinin dahil olduğu verilerdir.Burada zaman da mekan da değişkendir , sabit değildir.Bu verilerde her mekan veya indis içindeki verilerin sıralarının önemi vardır fakat mekanların sırasının bir önemi yoktur.Örneğin 10 kişinin bir yıl içinde aldıkları aylık maaşlar örnek verilebilir.Burada her kişi tek başına ele alınırsa zaman serisi olacaktır. Bir ay içerisinde 10 kişinin maaşı ele alınacak olursa bu da kesit veri olacaktı.Her ikisi de dahil olunca bu veri panel veri veya karma veri olmakta.Bu tarz verileri dinamik olarak ta ele alabiliriz statik olarak ta ele alabiliriz.Statik model:

dinamik model ise,

Aynı şekilde bağımlı değişkenin de gecikmlei olduğu model kullanılabilir.Statik model artık kesit verisi olmuştur çünkü zaman sabittir.Veriyi görücek olursak :

Görüldüğü üzere her kişi farklı bir zaman serisi gibi .her kişinin 2020 yılındaki maaşları üzerinden bir analiz yapacak olsaydık bu da kesit veri olacaktı.

Zaman Serisi

Zaman serisi verisi nasıl olur öğrendiğimize göre şimdi zaman serisini biraz anlamaya odaklanalım.Asıl amacımız hangi analizi veya tekniği kullanırsak kullanalım seriden en çok bilgiyi çıkarmaya çalışmaktır.Her dönemin farklı bir karakteristiği vardır yani her veri farklı zamanlarda gerçekleştiği için farklı bilgi verebilir. Örneğin tedarik zincirinde bulunan bir firmanın tek seferlik yeni bir firma ile anlaşması sonucu o ay normalde olan gidişattan çok daha fazla satış yapması örnek verilebilir.Bu dönem ayrı bir şekilde incelenmeli.Görüldüğü üzere her dönemin bir karakteristiği var.Bu sebeple makine öğrenmesinde alışık olduğummuz bazı şeyler burda sözkonusu değil.Örneğin test-train ayrımı rastgele yapılmamalı çünkü verilerin karıştırılması dönemlerin verdiği bilgiyi ortadan kaldıracaktır.Zaman serisi ikiye ayrılmaktadır,bunlar:

  • zaman alanı (time domain)
  • frekans alanı (frequency domain)
signal processing

Burda da gözüktüğü üzere time domain ve frequency domain iç içedir.Frequency domain ile sinyalleri daha iyi anlayabiliyoruz. Örneğin yapay sinir ağı ile müzik üretilmesinde bu sinyal süreçleri(signal processing) kullanılabilir.Bir başka örnek faylarda oluşan sismik dalgalar bu süreç ile daha rahat anlaşılabilir.Başka bir örnek ise anlık veri çektiğimiz ve bu veriler üzerinde çalışan bir makine öğrenmesi algoritmamız olsun, buraya gelen veriler zaman serisi verileridir ve time domain’e örnektir.Dinamik modeller ile çözülebilir.

Zaman için saniyelik,dakikalık,saatlik,günlük,haftalık,aylık,üç aylık , altı aylık ,çeyreklik,yıllık veriler kullanılabilir.Çok daha küçük zaman dilimleri veya çok daha büyük tarih aralıkları da zaman serisi olarak nitelendirilebilir.Önemli olan konu eşit aralıklı ve sıralı olmasıdır.Son olarak örnek bir zaman serisi grafiği ,yatay eksende zaman değişkeni olacak şekilde aşağıdaki gibidir:

Biz bu blog serisinde time domain ile ilgileneceğiz. hatalarım ve eksiklerim için geri bildirimde bulunursanız çok memnun olurum. Herkese iyi çalışmalar dilerim.

--

--