Veri Bilimci Kimdir?

Veri bilimci (Data Scientist) Kimdir? Birkaç farklı tanım var ama en beğendiğimiz bir-iki tanımı buraya yazmak istedim.

What is Data science? ‘Building software products (aka data products) whose core functionality relies on applying statistical or Machine learning methods to data.’ What is Data scientist? A person who do above

Bir başka önemli Linkedin mensubu Rogati söyle tanımlamış:

They are half Hacker , Half analyst, They Use DATA to build Products and find insights.

Peki “Data Product” ya da “Software Product” nedir?

En bilinen örnek olarak Google’ı alabiliriz. Yaşınız 35+ ise Altavista’yı hatırlarsınız. Arama motoru olarak Google’dan çok daha önce çıkmıştı ve pazar lideriydi. Peki Google ne yaptı ? Yeni “data product”lar oluşturdu. Bunun en büyük örneği “Pagerank” yapısı. Devamında “Adwords” ve “Google Analytics”i örnek verebiliriz. Linkedin’i bu kadar populer yapanın da“People yo may know” demesi ve yani yine doğal olarak “data product”ı olduğunu söyleyebiliriz.

Bu örnekler dünya çapında, biz bunları nasıl yapalım diyebilirsiniz ama şirketinizde Amazon’un yaptığı gibi bir ürün önerme yapısı oluşturmak sandığınız kadar zor değil. Veriden şirketinize artı sağlayabilecek bir ürün üretebilmek önemli. Bunu yapabilmek için günümüzde ve gelecekte daha fazla fırsatımız olacak zira her geçen gün daha fazla veri oluşuyor.

Veri bilimcileri diğer işlerden ayıran en önemli nokta geleceğe yönelik sorgulama yapabilmesi🙂. Yıllardır veritabanı kullanıyoruz . Bu veritabanlarında verilemizi sorguluyoruz. Bu sorgulamalar geçmişe yapılan sorgulamalar, oysa veri bilimciler bu verileri doğru kullanarak geleceğe yönelik tahminler yapabilirler.

Veri bilimci olmak isteyen bir adayın analitik düşünebilme yetkinliğinin olması, veritabanı, matematik ve istatistik, temel programcılık bilgilerine sahip olması, teknik birimler ve iş birimleri ile kolay ve etkili iletişim kurması gerekir.

Bu tanımların sonunda Veri Bilimci olmak için neler öğrenmeliyim sorusunun cevabı bizce şu şekilde:

1-Birtakım araclar ve diller . Öncelikle SQL ile başlayalım. SQL bilmeyi bu işlerin en üstüne yazmalı diye düşünüyoruz. R ve Python öğrenmek. Rstudio ,Zeppelin iyi toollar. Notebook , Docker üzerinde çalışmak github kullanmayı öğrenmek başlangıç aşamasında önemli

https://www.github.com

https://hub.docker.com/

https://www.rstudio.com/products/rstudio/download/

2-Hadoop’a yatkın olmalısınız ki terabyte — petabyte skalasındaki verilerle çalışabilesiniz. HDFS temel özellikleri öğrenilmeli. HDFS sisteme nasıl veri atarım, veriyi nasıl çekerim gibi temel komutlara çalışmak lazım.

HDFS özelikle batch işlerde artık en önemli platform. Verinin saklanması için tercih edilebilecek en ucuz platform olan bu mimari sayesinde maliyeti son derece düşük sunuculardan yatay büyüyebilen Clusterlar oluşturuyoruz. Temeli Google’ın dosya sistemine dayanıyor ve Hadoop platformu günümüzde en büyük 6 telekominikasyon şirketinin 5'inde, en büyük 7 bankanın 6'sında tercih edilmiş durumda. Her geçen gün hadoop platformunu tercih eden firma sayısı artıyor. Bizler Spark da kullansak sc.textfile(”) ile verilerimizi bu platformdan direkt okuyabiliyoruz. Hadoop platformunu tercih eden ve Türkiye’de de aktif danışmanlığını yaptığım ve / veya eğitimler verdiğim onlarca firma olduğunu söyleyebilirim. Bu konuda Hortonworks ve Cloudera temel platform sağlayıcı şirketler.

3- Sqoop’u öğrenilmelisiniz. Apache Sqoop Databaseden HDFS’e ve yine HDFS’ten veritabanına verilerimizi aktarabilir. Örneğin, Oracle veritabanımızda duran bir tablomuzu Sqoop sayesinde HDFS platformumuza ve/veya Hive’a aktarabiliriz.

https://sqoop.apache.org/

4-Doğru veriye ulaşmak lazım Doğru verinin formatı, niceliği ve niteliği çok önemli. Basit bir örnek vermek gerekirse; tarihin 05-Nisan-2017 ile Nis-05 şeklinde olması ya da lokasyonun IST istanbul ISTANBUl IStanBUL olması gibi (bu verileri temizlemek ve düzenli tek format oluşturmak) Bu konulara eğilmek lazım.

5-Veri dönüşümünde zorlanmamak için Hive ve Pig’ı iyi bilmek gerekir. Hadoop platformunda belki de ilk öğrenilmesi gereken Hive. Hive, SQL gibi herkesin kolayca yazdığı düşünebilir ama yapısı gereği ciddi tuning ihtiyaçları olan bir mimari.

6-Spark’ı iyi öğrenmek. SPARK ve yine Spark. Alternatif olarak üretilen platformlara rağmen Spark’ın vazgeçilmez olduğunu düşünüyorum. Daha önce öğrendiğiniz Pyhton ve R size bu konuda büyük avantaj sağlayacaktır. ML ve Mllibleri sayesinde Makine Öğrenmesi tarafında da iddialı olan bu platform son derece önemli bir başlığımız.

7-Veriyi doğru analiz etmek için istatiksel metodları ve Makine öğrenmesi algoritmalarını iyi öğrenmek gerekir.

Yukarıdaki listeye bir iki madde daha eklenebilir, bununla beraber Veri Bilimi’nin tek bir disiplinden oluşmadığı açık. Bu sebepledir ki kendini iyi ve doğru yetiştirmiş Veri bilimcileri IT sektörünün en aranan isimleri olacaklarrını söylemek mümkün.

Zekeriya Beşiroğlu

--

--

İstanbul Data Science Academy
İstanbul Data Science Academy

İstanbul Data Science Academy, veri bilimi ve analitiği alanında yetkin ve yetenekli uzmanlar yetiştirmek üzere kurulmuş bir girişimdir.