Veri Bilimi ve ALTIn Kenarları

Alper Demirel
Deep Learning Türkiye
5 min readOct 6, 2020
Veri Bilimi ve ALTIn Kenarları

Bu yazımda sizlere genel olarak veri biliminden ve ALTIn kenarlarından bahsedeceğim. Öncelikle “Veri” ve “Veri Bilimi” hakkında bildiklerimi paylaşarak başlamak istiyorum.

Veri (İng. ve Lat. datum; ç. data), ham (işlenmemiş) gerçek enformasyon parçacığına verilen addır. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir.

Veri; 21. yüzyılın petrolü ve gelecekteki başarının anahtarı olarak görülmektedir. Veriler, günümüzde çoğu yapay zeka uygulamalarında merkezi ve kritik rol oynamaktadır. Bu kavram artık hayatımızın vazgeçilmez bir parçasıdır. Bu madeni çıkarmayı, kullanmayı ve bu madenden benzin, asfalt, LPG gibi değerler üretmeyi öğrenmemiz gerekmektedir. Yani bu dönüşüme kendimizi hazırlamalıyız. Üstümüze üstümüze gelen değişime veya dönüşüme ayak uydurmamız gerektiğini güzel aktaran sevdiğim bir sözü sizlerle paylaşmak istiyorum.

“Dalgaları durduramazsın belki, ama sörf yapmayı öğrenebilirsin.”
— Jon Kabat-Zinn, Massachusetts Üniversitesi Tıp Profesörü

Veri bilimi ise 10 insana “Veri Bilimi Nedir?” diye sorup 10 farklı cevap aldığımız bir alandır. Benim bu alan için en sevdiğim tanım ise şudur:

Verileri analiz etme, yapılandırma, temizleme ve işleme aynı zamanda değerlendirme ve yorumlama sanatına “Veri Bilimi” denmektedir.

Ayrıca bu alanı anlatan ve en çok alıntı yapılan diyagramlardan bir tanesi, veri biliminin bilgisayar bilimi yetenekleri, matematik ve istatistik bilgisi ve belirli bir alanda uzmanlık bilgisinin kesişimi olduğunu söyleyen Veri Bilimci Drew Conway tarafından öne sürülmüştür.

Kaynak: Drew Conway, Veri Bilimi Venn Diyagramı

Veri ve onun bizlere sunduğu teknolojik gelişmelere farklı bir boyut kazandıran veri bilimi alanına yukarıda sizlere kısaca bahsettim. Şimdi ise veri bilimi alanının ALTIn kenarları diye adlandırdığım parçaları basit tanımlamalarla aktarmak istiyorum.

1. Veri Keşfi ve Hazırlanması

Kaynak: https://wiki.smu.edu.sg/1718t1isss608g1/img_auth.php/b/b8/Data_prep.gif

Bu kenar, elimizdeki kirli olan veriyi temizlemeyi ve veri içerisinde yapılacak analiz için manipülasyon işlemleri yapmamızı içermektedir. Veriye dayalı olarak yürütülen herhangi bir proje, temizlik esnasında dikkatli şekilde ele almayı ve tanımlamayı gerektirmektedir. Bu işlemleri gerçekleştirmek için genellikle farklı programlama dillerinin (Python, R, vs.) farklı ve geniş matematik araçları içeren kütüphaneleri bulunmaktadır. Bazı veri bilimciler, veri bilimine ayrılan çabanın %80'inin verinin araştırılmasına ve kirli verilerle uğraşma ile geçirilmesi gerektiğini ve bu sayede verinin daha fazla kullanıma hazır hale getirilebileceğini söylemektedir.

2. Veri Gösterimi ve Dönüşümü

Diğer bir kenarımız olan bu uzmanlık ise veriyi temsil etmenin farklı biçimlerine (metin verileri, grafik tabanlı veriler, vs.) göz atmaktadır. Veri bilimciler kariyerleri boyunca birçok veri kaynaklarıyla çalışmaktadırlar. Bu kaynaklardaki çalışmalarında merkezi bir adımın, orijinal formatlarıyla verilen verileri yeni ve daha açıklayıcı bir biçime yeniden yapılandıran uygun bir dönüşümden geçmesi gerektiği düşünülmektedir.

3. Verilerle Hesaplama

Üçüncü kenar ise veri ile hesaplamalar yapmaktır. David Donoho yazmış olduğu “50 years of Data Science” adlı makalesinde özellikle R ve Python programlama dillerinin verilerle hesaplama yapmak için temel olduğundan bahsetmiştir. Veri bilimcilerin bu dilleri verimli bir şekilde kullanmak için yeni ifadeleri güncel tutmaları ve hesaplama verimliliği ile ilgili daha derin sorunları anlamaları istenmektedir. Özellikle son yıllarda çok popüler olan bulut bilişim hesaplama verimliliğinin artırılmasında çok güçlü bir bileşen haline gelmiştir. İhtiyacımız olan tüm işlevselliği uygulamak için tek bir programlama dili kullanılması gerekilen kurumsal yazılım projeleri aksine, modern veri bilimi projeleri birçok programlama dili ve hesaplama paradigmasını kapsayabilmektedir. Bu uzmanlıkta farklı işler için doğru aracı ne zaman kullanacağımızı bilmek önemli bir özellik olarak gösterilmektedir.

4. Veri Modelleme

Kaynak: https://www.ml.cmu.edu/

Dördüncü kenarımız ise verilerin çeşitli işlemler yapmak için uygun modellere sokulma işlemidir. Bu alan oldukça büyük bir alandır ve günümüzde özellikle “Makine Öğrenmesi” ve onun alt disiplini olan “Derin Öğrenme” algoritmalarıyla hayatımızı kolaylaştıran oldukça güçlü sonuçlar ve değerler üretilmektedir.

“Veri bilimi, deney, modelleme ve hesaplamaya ek olarak bilimsel keşif için dördüncü bir yaklaşım haline geldi.”
- Martha E. Pollack, Bilgisayar Bilimci

5. Veri Görselleştirme ve Sunumu

Kaynak: https://boostlabs.com/blog/10-types-of-data-visualization-tools/

Görselleştirme kelimesi, tablolar, grafikler ve haritalar gibi 2D ve 3D görselleştirmeler ve etkileşimli ortamlar gibi kafamızda birçok gösterim şekline çağrışım yapmaktadır. Bu bölüm bize karmaşık ve büyük boyutlu verilerin görsel bir anlatım ile veriyi daha net kavramamıza olanak sağlamaktadır. Veriyi görselleştirip sunmamızın temel amaçlarından bazıları veri ile ilgili soruları cevaplandırmak, karar vermek, görsel hesaplamalar yapmak, model oluşturmak ve hikayeler anlatmak istemektir. Ayrıca görselleştirme yaparken dikkat etmemiz gereken bazı hususlar bulunmaktadır. Bunlar sadelik ön planda olmalı, veri ile bir anlam veya hikaye oluşturmaya odaklanmalı ve tasarım ile işlev arasında denge kurulmalıdır.

6. Veri Bilimi Hakkında Bilim

Bilim kelimesini belirli bir alanda kullanma hakkına sahip olabilmek için, sürekli gelişen, kanıta dayalı bir yaklaşıma sahip olunmasının gerekliliği söylenmektedir. Bu kapsamda sonuncu kenar olan ve yine David Donoho’nun “50 years of Data Science” makalesinde söz ettiği bu bölüm veri biliminde neyin işe yarayıp neyin yaramadığını ve bu veri keşiflerinden nasıl yararlanılacağını anlamayı ve araştırmayı içermektedir.

Son olarak sizlere veri bilimi hakkındaki ülkemizdeki gözle görülür artış için bilgi vermek istemekteyim. Bu artan ilgiyi görmenin eğlenceli bir yolu “Google Trends” sitesine göz atmaktır. Google Trends, bizlere zaman içinde aratılan anahtar kelime bilgisini ve bu anahtar kelimenin belirli zaman aralıklarındaki değişimini göstermektedir. Veri Bilimi teriminin ülkemizde oldukça popüler ve büyük bir çıkışta olduğunu bu yöntem ile rahatça gözlemleyebilirsiniz.

Kaynak: Google Web Aramada aratılan “Veri Bilimi” alanının 2013–2020 yılları arası büyük değişimi

İkinci olarak ülkemizde yer alan Yeditepe, Sabancı, Koç, İTÜ, Bahçeşehir gibi üniversiteler son yıllarda popülaritesi artan “Veri Bilimi” alanı ile ilgili yüksek lisans programlarını duyurdular. Vermek istediğim son örnek ise ABD’de bulunan Michigan Üniversitesi 8 Eylül 2015'te 35 yeni öğretim üyesini işe alarak bu alanla ilgili 100 milyon dolarlık bir “Veri Bilimi Girişimi”ni duyurmuştur.

Gördüğünüz gibi veri bilimi yeni ve büyüyen bir olgudur. Sizde bu hızla artan alanla ilgilenmek, kendinizi geliştirmek veya bilgi edinmek istiyorsanız hiç zaman kaybetmeden internet aleminde yer alan tonlarca kurs, makale ve diğer bütün kaynaklara göz atabilirsiniz.

Umarım yardımcı olmuştur, tekrar görüşmek dileğiyle!

--

--