Bir Datascientist Adayının Günlüğü
Kariyerime Veri bilimci olarak devam etme kararı aldıktan sonra, kendimi bu alanda geliştirmek için en iyi seçeneklerden birisi olan Data Science Bootcamp programına katıldım. Istanbul Datascience Academy’nin kurucusu olan Zekeriya Beşiroğlu’nu Bigdata user group etkinlikleri sayesinde tanıdım.
300 saatlik eğitim süresi olan programa, 22 Şubat itibariyle 20 kişi olarak başladık. Daha ilk haftada dolu dolu içeriklerle Python, Bash Shell, Git & Github iş akışı, Python, pandas ve Matplotlib ile veri dönüştürme konuları detaylı bir şekilde öğrenip ikinci hafta sonunda ilk projemiz olacak EDA (Exploratory Data Analysis) projesi hazırlayarak sınıfta sunumlarımızı gerçekleştirdik.
Veri bilimci olmak adına çıktığım yeni macerada sizlere eğitim süremiz boyunca yapacağımız 5 projeden ve öğrendiklerimden bahsederek bu güzel macerayı paylaşmayı hedeflemekteyim.
Bugün sizlere ilk projem olan AirBnb datası kullanarak New York’ta Nerede kalınır sorununa cevaben hazırladığım EDA projesinden bahsedeceğim.
Son zamanlarda adını sıklıkla duymaya başladığımız ve duymaya devam edeceğimiz Yıkıcı İnovasyon(Disruptive Innovation) kavramına en güzel örneklerden birisi de Airbnb. Pazardaki baskın oyuncular karlılığa odaklanırken, daha ucuz, daha kolay, daha küçük ve / veya kullanışlı olan bir ürünü farklı bir müşteri segmentine sunarak pazarı bozar. Ve zamanla sektördeki büyük ve baskın oyuncuların hedef kitlesindeki müştrileri de kazanarak yıkıcı bir yenilik yaratmış olur.
Airbnb kendini; kişilerin dünya çapında benzersiz konaklama yerlerini listelemesi, keşfetmesi ve rezerve etmesi için güvenilir bir topluluk platformu olarak tanımlıyor. Dijitalleşen dünyada herhengi bir oteli veya evi olmadan geliştirdiği servis konsepti ve uygulamasıyla otelcilik sektöründeki büyük işletmelere rakip ve tehdit unsuru olmayı başardı.
New York City, 50.000'den fazla kiralık daire listesiyle Airbnb’nin en büyük iç pazarıdır. 2008 yılında kuruluşundan bu yana New York’ta hem kiralık listesini hem de rezervasyon yapan gezginlerin sayısını her yıl exponansiyel olarak arttırdı.
proje için datayı airbnb nin kendi open data veri sitesinden elde ettim ve EDA projem için listening datasını kullandım. İkinci projemde de konaklama yerlerini yer aldığı veriyi konaklayanların yorumlarına göre değerlendirip, Kaggle üzerinde yer alan NYC 2020 etkinlik verisini de ekleyerek göre en iyi konaklama alternatifini analiz etmeyi planlamaktayım.
Kısaca veri setinden bahsedecek olursam, konaklama bilgilerinin yer aldığı data seti içinde boş kayıtlar bulundurmayan, konuk evi, ücret, mahalle,konuk evi sahibinin adı, en az konaklama günü, ortalama kouk yorumu ve yılda kaç gün müsait olduğu bilgileri yer almaktadır.
ilk analizim new york verisi içinde yer alan mahallerde konaklama yerlerinin sayısını bularak mahalle ve konaklama evi bazında ücret aralıklarını gösterdim. Yaptığım analizde Manhattan oda tipine göre bütün ev sayısının istinai olarak en fazla olduğu mahalle olarak ön planı çıktı. Ayrıca Manhattan konuk evi olarak da en fazla konuk evinin yer aldığı mahalle olarak çıktı.
İkinci analizimde oda tiplerine ve mahallerere göre konuk evlerinin ücret dağılımlarını gösterdim. Bu analizlerde en pahalı oda tipi bütün ev tipinde, mahalle olarak da manhattan da olduğu çıktı.
Yaptığım bu çalışmanın sonucu olarak oda fiyatlarının bölgeye ve oda tipine göre değiştiği ancak bunun bölgede ki toplam oda sayısı ile ilişkili olmadığını söylebiliriz.
Yapacağım ikinci projede ilk projede kullandığım veriye, müşteri yorumlarını içeren veri seti ile NYC 2020 etkinlikleri verini içeren veri setini ekleyip, müşteri yorumlarını da olumlu yada olumsuz olarak analiz edip, tercih edilecek etkinliğe göre en uygun oteli sunmayı planlamaktayım.
Bu yolculuğumda beni takip etmeye (follow’ a basmayı) unutmayınız :)