Veri Mühendisi Kimdir?

Veri bilimciyi bir yazılım mühendisinden daha fazla istatistik bilgisi olan ve bir istatistikçiden de daha fazla yazılım bilen kişi olarak tanımlayabiliriz. Bu doğrultuda Veri Mühendisi kime denir, neler bilmelidir buna bakalım.

Veri bilimciler ve veri mühendisleri birbirlerine yakın çalışması gereken roller.

Veri mühendisi için sevdiğimiz bir tanımı paylaşalım.

Yazılım mühendisine göre daha fazla istatistik bilmesi, bir veri bilimciye göre daha fazla sistem ve yazılım bilmesi gereken kişi.

Veri bilimi sürecini kısaca aşağıdaki adımlardan oluşur:

Veriyi Hazırlama → Test ve Train verileri →Model →Değerlendirme

Veri mühendisliği ise ham veri kısmından başlar. Veriyi veri bilimcilerin rahatlıkla kullanabileceği hale getirmeye ve birlikte çalışmaya kadar devam eder.

Bu roller bazı şirketlerde aynı kişiler tarafından yerine getirilebilir, bununla birlikte şirket büyüdükçe bu mümkün ve doğru olmayacaktır. Günümüzde her şirket veri mühendisine de, veri bilimciye de eskiye nazaran yüksek oranda ihtiyaç duymaktadır. Bu roller klasik IT rollerinde farklı yapan iş birimine direkt katma değer sağlayan roller olmalarıdır.

Peki veri mühendisliği neden gerekli?

Sadece basit analitik yetmez, veriyi bir asset haline getirmemiz lazım.

İnanılmaz büyük fakat nasıl analiz edeceğini bilmeyen ya da bu büyük veri içerisinden henüz anlamlı bir veri çıkaramamış binlerce şirket var. Diğer taraftan en başarılı şirketlere baktığınızda aslında veriyi iyi kullanan, veriden ürün çıkartan şirketler olduklarını görüyoruz. Ülkemizin bu alanda ciddi ihtiyaçları var. Benim gördüğüm kadarı ile veriyi iyi kullanıp bir ürün çıkaran şirket sayımız henüz çok az.

Gerçek veri bilimi için çok iyi veri mühendisliği gerekiyor. Verinin çok çeşitli oluştuğunu düşündüğümüzde bu ihtiyacı daha iyi anlayabiliriz. Bu işleri otomatize etmemiz de önemli bir diğer konu.

Günümüzde sistemleri özetlemek gerekirse:

KAYNAK VERİ AŞAMASI

Batch ve Streaming olarak ikiye ayıralım.

Batch tarafta klasik kaynaklarımızı, yani RDBMSleri , NOSQL leri , FTP leri ve API ile jsonları düşünebiliriz.

Streaming tarafını ise IOT datası , Applicationlar , kafka gibi düşünebiliriz.

SÜREÇ AŞAMASI

SQL, data extraction , partition, cleaning, encrpytion , split , compress , metadata , enrich ve stream processing çok önemli.

Bu konularda python , java , NIFI , Spark , Kafka , flink , Informatica(Big Data Management) , pentaho avantaj sağlayacak ürünler.

ANALİZ AŞAMASI

Presto, Hive , Python , R , Elasticsearch , SOLR , Hbase’i , Tensorflow’u yazabiliriz.

Bütün bunlarla beraber Lambda ve Kappa mimarisi bir kurum için hayati öneme sahip. Yeni nesil veri tutmayan, Column oriented çalışmayan birçok şirket görüyorum.

Konumuza dönelim Nasıl Veri Mühendisi Olurum, neleri bilmek avantaj sağlar?

  1. Programlama bilgisi : Örnek vermek gerekirse Java , python olabilir. Benim tercihim kesinlikle python olurdu.
  2. Veritabanı ve SQL bilgisi : Oracle , Mysql , Postgresql , Teradata …. Önemli olan bu veritabanlarında SQL sorguları yazabilme kabiliyeti
  3. ETL ve Datawarehouse : ETL tecrübesi çok büyük bir avantaj. Tercihim Informatica , talend ,pentaho, Odi
  4. Operating Sistem Bilgisi : Linux/ Unix’te temel komutları bilmek son derece önemli, fazlası büyük avantaj
  5. Big Data bilgisi : Başta Hadoop ekosistemi, Presto, Hive, Hbase, Impala, Pig, Sqoop devamında ranger sentry …
  6. Big Data Real Time işler : Günümüzün en önemli farklarından bir tanesi anlık işleri yakalama ve process edip analiz etme gerekliliği. SPARK , Kafka , Nifi en önemli gördüklerim
  7. MODEL ve Veri Bilimi : Python , R , Rapid Miner , Dataiku , Knime gördüğüm en önemli ürüler ve teknolojiler.

Buradan Özetle

Bu kabiliyetlerin çok önemli olduklarını görüyoruz. Tabii ki yukarıda yazdıklarımın tamamını bilmek çok zor ama ne kadar çok başlıkta yetkinliğiniz artarsa, o kadar aranan kişi olursunuz.

Bir veri mühendisi kariyerine nasıl devam edebilir? 3 yıldan sonra Kıdemli Veri Mühendisi ve bence 10 yıl üzerinde yukarıda bahsettiğim maddelerde yetkinliği varsa Veri Mimari olarak devam edebilir.

Veri mühendisi olma yolculuğunuzda başarılar dilerim.

Zekeriya Beşiroğlu

--

--

İstanbul Data Science Academy
İstanbul Data Science Academy

İstanbul Data Science Academy, veri bilimi ve analitiği alanında yetkin ve yetenekli uzmanlar yetiştirmek üzere kurulmuş bir girişimdir.