Büyük Veri Mühendisliği Nedir? İyi bir dataengineer olmak için neler öğrenmeliyim ?

Zekeriya Besiroglu
İstanbul Data Science Academy
4 min readDec 13, 2021

Sevgili Arkadaşlar Merhaba

Uzun zaman önce kendi blog sayfamda yazmaya başladım. Bu medium daki ilk yazım.

Bu yazımda sizler ile veri mühendisliği , büyük veri mühendiliği üzerine konuşmak istiyorum. En çok aldığım sorulara cevap vermek istiyorum.

Bu alanda şimdi belki bir çok arkadaşımız konuşuyor ama henüz Dünya için yeni iken ben sizleri bu alana yönlendirmek için 2019 yılında bir makale yazmıştım. https://www.linkedin.com/pulse/data-engineer-kimdir-nas%C4%B1l-olunur-bir-kariyer-plan%C4%B1-besiroglu/

2019 yılından bugüne tabiki bir takım değişimler oldu.

Bugünün şartlarında neler yapmalıyız paylaşmak istiyorum.

Öncelikle çok basit anlamda veri mühendisliği sizlere anlatmak istiyorum.

Arkadaşlar düşünün petrol bulduk veya doğalgaz bulduk. Siz bu petrolu direk aracınızda kullanabiliyor musunuz?

Neler yapılması lazım. Doğalgaz Karadenizde derinliklerde çok iyi bir pipeline kurulması lazım. Nasıl yani ? Öncelik ile denizin altından alınmalı belki bir egde noktaya oradan bir merkeze(data lake) ve oradan işlenerek amacına göre ayrılmalı. Yani Ham data ile bizlerin kullanacağı analiz edeceği , üzerinde veri bilimi araştırmaların yapılacağı , şirketteki dashboardlara aktarılacağı , önemli kullanıcıların harika raporlar hazırlayacağı hale gelene kadar bir çok aşamadan geçmeli.

İşte bizler veri mühendisleri olarak bu pipeline ları en iyi şekilde hazırlayanan kişiler olmalıyız.

Belki veri biliminde çeşitli eğitimlerde kaggle gibi platformda hazır csv datalar ile çalışıyorsunuz. Gerçek dünyanın bu tarz küçük ve hazır veriler ile alakası malesef çok az. Veri genelde çok karmaşık , bozuk , kirli …….

Data Driven decisions inanılmaz önemli. Biz bu alanda Türkiye’nin en önemli bankalarında iki tanesinin yüzlerce uzmanına eğitimler veriyoruz.

Peki bizler neler öğrenmeliyiz. Bu süreç kolay mı? Hiçbir şey kolay değil. Emek vermeniz gerekiyor. Bu basit bir titanic veri setinde kimler ölecek kimler kalacak sorusundan çok daha complex bir iş. Belki de en güzel yanı bu. Bir iş ne kadar zorlaşıyor ise bizim gibi öğrenmeye aç ve her gün üstüne katmak isteyen uzmanlara sektörde 22 seneyi bile geçse hala zevk verebiliyor. Tabiki de günden güne tecrübeniz çok kıymetli oluyor.

1- SQL ve NOSQL öğrenmeliyiz. SQL tarafında mümkün ie Oracle , PostgreSQL (kurumsal pazarda %70 varan oranda kullanılan veri tabanları)Nosql altında ElasticSearch , Redis , Cassandra , Hbase , Druid ,Couchbase , Neo4j gibi.

2-OLTP den DWH e kadar Data modeling. Benim gözümde database bilmeden büyükveri yi nasıl anlayacaksın? O yüzden OLTP OLAP Modern Datawarehouse mimarisi çok önemli.

3-Unix , Linux Bash Script ve tabiki Scala olmuyor ise Python. iyi bir data engineer iki satır kod yazabilmeli.

4-Big data Teknolojileri . Her ne kadar bazıları Cloud ile yer değiştirse de bu mimariyi ve ürünleri bilenler her zaman iki adım önde olacaklar.

Özgür Umut Vurgun , Ensar Erdoğan ve Veysel Yüksel arkadaşlarımın katkısı ile bütün büyük kitapçılarda bulabileceğiniz Büyük veri kitabımız hala etkili.

5- Spark . Spark . Spark . Flink. Nereden bakarsanız bakın büyük resime bakmak lazım. Kim ne derse desin sabaha kadar buradayız :)

6- Kafka , Nifi ,Airflow , Trino bence sizlere büyük fark katacaktır.

7- ETL (informatica ve ODI bilgisi)

8- Artık Olmaz ise Olmaz CLOUD teknolojileri. Benim tercihim tabiki GoogleCloud. ürün olarak birbirlerine yakın ürünlere sahipler fakat Dünya Network altyapısının google üzerinden yürüdüğü , Bigquery gibi harika ötesi bir ürünü ve ML tarafındaki gücü.

9- CI/CD . Serverless ne demek. Serverless bir pipeline nasıl oluşturum ve Kubernetes

Aklıma ilk gelenler bunlar. Bu kadar konu öğrenilir mi? Tabiki Evet . Yukarıdaki konuların bir kaç tanesinde bile iyi iseniz önünüz inanılmaz açık demektir. Data Engineering en güzel tarafı gün geçtikçe kıymetli bir uzman olmanız.

Genç Arkadaşlarım IT dünyası gibi dinamik her şeyin auto larının geldiği bir alanda tecrübenin kıymetli olacağı alanlara yönelmeleri.

Gelelim işin birde kazanç tarafına . Türkiyede bu alanda yapılmış malesef ciddi çalışmalar olmadığı için örneğimi ABD den vermek istiyorum. Amerika’nın ve Dünyanın en büyük IK sitelerinden indeed.com

Saygılarımla.

Zekeriya Beşiroğlu

Google Certified Instructor For Data Engineering & Machine Learning.

Istanbul Data Science Academy

--

--

Zekeriya Besiroglu
İstanbul Data Science Academy

Big Data Architect Google Certified Data Engineer / ML Instructor Google Cloud Authorized Trainer