Kaggle’dan Çalışan Bir Veri Bilimcisi ile Röportaj, Rachael Tatman

Bartu Demirkiran
kesisenyollardernegi
5 min readFeb 9, 2019

English Version: Interviewing a Data Scientist at Kaggle, Rachael Tatman

Feragat: Rachael iş vereni Kaggle’ı temsil etmez ve cevaplar tamamen onundur.

Merhaba okuyucu,

Kaggle’da çalışan harika bir veri bilimcisi olan Rachael ile bir röportaj gerçekleştirdik. Racheal sorularımızı cevapladı. Okumaktan zevk alacağınızı ve veri bilimi hakkında daha fazla bilgi edineceğinizi umuyoruz. Zamanınızı çalmama adına kendisini burada uzun uzun tanıtmayıp, sizi direkt sorularla başbaşa bırakıyorum. Merak edebileceğinizi düşünerek, LinkedIn’ini buraya bırakıyorum.

Veri bilimi yıllardır ilgi gören bir alan olmasına karşın tam bir tanıma sahip değil. Veri bilimi sizin görüşünüze göre nedir?

Veri bilimi üç alt başlıkta değerlendirebileceğim çok genç bir alan. Biri veri analizi (Data Analysis). Veri analizi datayı inceleyen, altında yatan örüntüleri anlayan ve bu sonuçları anlatan alandır. İkincisi veri mühendisliği (Data Engineering). Bu alan ise datanın saklanması, gerekli yerlere aktarılmasını ve kullanılmak için yapılanmasını sağlayan alandır. Kişisel olarak veri temizleme işlemlerini de veri mühendisliği alanında değerlendiriyorum. Ve sonuncusu ise makine öğrenmesi. Bu alanın amacı bazı görevleri model eğiterek otomatik hale getirmek ve bunları işleyişe koymak. Günümüzde, veri bilimi genel olarak bir çok başka alandan bilgi gerektiriyor. Örneğin, size bir veri kümesi (dataset) verilebilir ve sizden bu kümenin veri analizine hazır hale gelebilmesi için tekrar yapılanması ve transform edilmesi (diğer bir deyişle veri mühendisliği) istenebilir. Yeterince analiz yaptıktan sonra verinin hangi özelliklerinin ve hangi metriklerin aydınlatıcı olduğuna karar verebilir ve bu bilgiyi makine öğrenmesi modeline besleyebilirsin.

Bir kaç yıl öncesine kadar veri bilimi iş pozisyonları genel olarak doktora derecesini şart koşuyordu. Doktoraya sahip olmak yardımcı olacaktır tabiki, ama 2019 yılında her veri bilimcinin doktorası olması gerektiğini düşünüyor musunuz?

Hayır! Doktora derecesi soru sormaya ve bağımsız çalışmayı-ki bu veri biliminde yararlı olabilir- öğrenmeye yardımcı olabilir. Doktora derecesi aynı zamanda çok spesifik bir alan hakkında derinlemesine bilgi sağlayacaktır, ama bu veri biliminde muhtemelen yararlı olmayacaktır. En azından Amerika’da doktora derecesi CV incelemesini geçmenizi sağlayabilir ama sonrasında önemini kaybediyor. Kendi adıma formlarda Ph.D. ünvanımı kullanmayı sevdiğimi söyleyebilirim ama.

Matematik ve istatistik veri bilimi için önemli alanlar. Peki siz, veri bilimi için hangi alanların en önemli olduğunu düşünüyorsunuz?

Sanıyorum ki bu değişken. Matematik bilgisi, özellikle lineer cebir bilmek yapay sinir ağlarında yarar sağlayabilir. Bunun yanında veri ile ilgilenen hemen hemen herkesin iyi istatistiksel çıkarım (statistical inference) bilmekten fayda göreceğini düşünüyorum. Yine kişisel olarak matematik bilgisi dışında bazı derin bilgilere sahip olmanın veri ile uğraşırken fayda sağlayacağını düşünüyorum. Özellikle nitel verilerle çalışmak, nasıl net ve yanıtlanabilir sorular soracağınızı öğrenmenize yardımcı olabilir. Tarihten edebiyata kadar uzanan geniş bir yelpazeden gelen herhangi bir bilgi; yeni problemlere nasıl yaklaşacağınıza, örüntüleri tanımanıza ve tanımlamanıza yardımcı olabilir.

Dilbilimcisi olarak matematik ve istatistik bilimini nasıl öğrendiniz? Sıra dışı sayabileceğimiz bir öneriniz var mı?

Dürüst olmak gerekirse, dilbilimi eğitimim sırasında çokça matematik ve istatistik öğrendim. Semantik formal mantık ve lambda hesabı (formal logic and lambda calculus) içerir, fonoloji set teorisini, fonetik ise sinyal yorumlamasını ve akustiğini içerir. Temel dilbilim eğitimim sırasında titiz ve resmi modelleme konusunda iyi bir eğitim aldım ve bu alanlarda rahat hissediyorum. Deneyleri dizayn ederken ve veriyi analiz ederken de istatistik eğitimi aldım.

Burada alabileceğimiz ana ders bence şu, öğrenmek istediğiniz temel bilimleri öğrenmeye hevesli olduğunuz konulara bağlayabilirseniz, öğrenme eylemi çok daha kolay bir hale geliyor. Bu fonolojik çeşitlilik, çikolata, kriket skorları veya büyükbabanızın dükkanındaki müşteriler olabilir. Ne olursa olsun sevdiğiniz bir konu hakkındaki veri ile başlamanızı öneririm.

İşinizde hangi dilleri kullanmayı tercih ediyorsunuz? Eğer başka bir dili öğrenmek isteseydiniz, bu dil hangisi olurdur?

Bu gerçekten de yaptığımız göreve bağlı. Tablo verileri için genelde R ve Tidyverse’i tercih ediyorum. Bu dilde çok fazla zaman tasarrufu sağlayan fonksiyon var. Her gün yaptığım programlama işinde ise genellikle Python.

Yeni bir dil öğrenmek, hmm, Perl olabilir. Perl dilinde çok fazla doğal dil işlemek için çok fazla kaynak var. Bir çok görev Python’a göre çok daha hızlı olabiliyor. Diğer taraftan Perl kodu okumak korkunç bir deneyim olabiliyorken yazmanında çok eğlenceli olacağını düşünmüyorum. Yani bu konuda pek bir acelem de yok.

Şu an iyi bir tecrübeye sahip olduğunuzu biliyorum ama şu anda veri bilimine adım atmak isteyen bir çok harika insan var. Zamanda yolculuk yapacağınızı ve veri bilimi hakkında bir şey bilmeyen halinize danışman olacağınızı varsayalım. Veri bilimini öğrenmek için kendinize nasıl yol çizerdiniz?

Her şeyi hemen öğrenmek zorunda hissetmeyin. Birkaç giriş seviyesindeki dersi yaptıktan sonra, yine sevdiğiniz konular hakkında küçük bir kaç proje yapın ve bu konuların sizi heyecanlandırdığından emin olun. Çözmeye çalıştığım sorunlar hakkında spesifik sorulara sahip olmak veya belli bir şey yapmaya çalışmak benim öğrenmeme yardım ediyor. Ek olarak, çalıştığım konunun aklımda bir uygulaması varsa okuduğum konuları çok daha iyi hatırlıyorum!

İş mülakatına hazırlanan bir veri bilimcesine tavsiyeleriniz nelerdir?

Her şey için hazırlıklı olun. Henüz veri bilimi için belli bir mülakat formatı yok. Bazen yazılım mühendisliği (matematik ve istatistik sorusu olmayan) tipinde mülakatlar da aldım, gradient-descent algoritmasını çıkarmam da gerekti. Yani diyeceğim o ki, mülakatlara hazırlanırken çeşitil alanlarda okumalar yapın. Aynı zamanda, çalışmanızı belli alanlara odaklamak adına mülakatı yapan kişiye hangi tarzda sorular soracağını sormak da gayet makul. Son olarak kendinize iyi de davranın! Ben mülakatlardan sonra kendime bir eğlence gezisi, yeni bir kitaba başlama gibi ödüller vermeye çalışıyorum. Bu sayede aklımı dağıtıyorum ve dinlenmeme yardımcı oluyorum.

Tipik başarılı bir Kaggle profili nasıl görünür? Başarılı bir profile sahip olmanın iş başvurusu sırasında avantajı nelerdir? Gerçekten harika Kaggle profili olanların hiç bir çaba sergilemeden iş başvurusu aldıkları gerçek mi?

Başarılı bir profil için bir çok yol var. Bazı insanlar belli tip yarışmalara odaklanırken diğerleri detaylı kernel yazmaya çalışıyorlar, bir kısmı da forumlarda insanların sorularını yanıtlıyor. Ben şahsen bir hikayeyi açıklayan bir kernel yazanların profillerini incelemeyi çok seviyorum. Bu kernel’lardaki kodu açıklayan, anlamama yardımcı yazılar olması da bir artı oluyor. Bir de hakkında bir sürü kernel olmayan veri kümeleri üzerinde çalışan insanların profillerini de seviyorum. Örneğin, yeni yüklenmiş Uruguay’daki otoyollar hakkında bir veri kümesi üzerinde zaman serisi analizi yapan biri popüler veri kümeleri ile çalışan birine göre daha çok ilgimi çekiyor. Ama bu tamamen kişisel.

Birinin sadece Kaggle üzerindeki profili sayesinde iş teklifi alacağını düşünmüyorum. Bir recruiter’ın direkt olarak ulaşması gerçekten nadir olan bir durum. Bildiğime göre çoğu kişi forumlarda veya buluşmalarda biriyle tanışma yoluyla Kaggle’ı kullanarak iş bulmuşlar.

Veri bilimi çok geniş bir alan. Bazı veri bilimciler sevmedikleri projelere katılabilir. Bunun sonucu olarak, daha çok seveceklerini düşündükleri bir projeye katılmak isteyecekler. Bu adayın başvurduğu işe alım yapacak kişi olduğunuzu varsayalım. Bu adayın, istatistik veya yazılım mühendisliği tecrübeli birine göre avantajı var mıdır?

Kişisel olarak ünvanların, deneyim, öğrenme ve gelişme isteği kadar önemli olduğunu düşünmüyorum. Eğer ben birini işe alıyor olsaydım, işe aldığım kişinin daha önce çalıştığı projelere daha fazla önem verirdim. Bu projelerin iş projeleri olduğu kadar hobi projesi olabileceği de söylenmeli tabii. Bu cevap çok fazla Amerika odaklı olabilir. Amerika dışında veri bilimi işleri nasıl işliyor pek emin değilim.

--

--