Federe Öğrenme (Federated Learning)

Published in

Data Runner

5 min readDec 5, 2019

Hepimizin bildiği üzere AI pazarına bulut tabanlı AI çözümleri ve API’ler sunan Google, Amazon ve Microsoft gibi teknoloji devleri hakimdir. Geleneksel AI yöntemlerinde kullanıcı verileri modellerin eğitildiği sunuculara gönderilir. Eğitilen modeller sonucunda çıktılar elde edilirken, diğer bir yandan veri mahremiyeti kavramı tartışılmaya başlanmış 2016 yılında ilk olarak Google tarafından yazılan bir makalede federe öğrenme kavramı literatüre girmiştir.

Bugüne kadar makine öğrenmesi tekniklerini Denetimli(Supervised), Denetimsiz(Unsupervised),Yarı denetimli(Semi-Supervised) ve Pekiştirmeli öğrenme(Reinforcement Learning) olarak 4 ana başlık altında incelemiştik.

Bugünlerde ise birey ve toplulukların, kamu ve özel kuruluşlarının hatta devletlerinin güvenle uygulayabileceği, şuan ki kullanılmakta olan öğrenme türlerinin eksik kaldığı mahremiyet alanını koruma altına alan diğer bir makine öğrenme tekniği federe öğrenmedir.

Teknolojik gelişmeler hayatımızı kolaylaştırırken diğer taraftan yavaş yavaş mahremiyet alanlarımızı ihlal etmesi hem bireyler hem de kurumlar için büyük sorunlar teşkil etmektedir. Örneğin klavyelerimizin yazışmalarımızdan öğrenerek bir sonraki yazacağımız kelimeleri önermesi, Netflix’in pazarlama tekniği izleme tercihlerimize göre dizi/film önerilerine dizi ve filmlerden aldığı kesitleri afişe etmesi, daha da ileri boyutu Amerika’da faaliyet gösteren sektörün önemli perakende şirketlerinden biri olan Target Company’nin müşterilerinin satın alma alışkanlıklarını analiz ederek hamile olma olasılığı yüksek ve ne zaman doğum yapabileceklerinin tahmin ederek hamileliklerinin belirli evrelerine göre kuponlar yollamaya başlar. Bu kuponlardan biri Minneapolis şehrinde yaşayan lise öğrencisinin evine gelince kızın babası mağaza müdürünü arayarak durumu sorar ardından kızından bilgi alır. Bu olaydan sonra Target yetkilileri bu gibi durumların müşterilerini rahatsız edeceğini düşünerek gönderimlerine dikkat etmeye başladılar. Bu yaşananlar kişisel verileri korumanın ve mahremiyetinin ne kadar önemli olduğu ile ilgili bize fikir verebilir.

Ayrıca kurum ve kuruluşlarının veri mahremiyetinden dolayı sahip oldukları verileri paylaşmak istememeleri veri çeşitliliğini ve büyüklüğünü azaltmakta makine öğrenmesi çalışmalarını kısıtlamakta, verimliliği düşürmekte ve araştırma sonuçlarını etkilemektedir.

İşte bu noktada federe öğrenme imdadımıza yetişmektedir…

Federe Öğrenme Nedir ?

Federe öğrenme, birden fazla birbirinden bağımsız cihazdan gelen verilerin anonimleştirilmiş bir şekilde tutulduğu sunucu ya da sunucular üzerinde algoritma eğiten bir makine öğrenmesi tekniğidir.

Klasik makine öğrenme modelleri, eğitim verilerinin bir makinede veya bir veri merkezinde toplanmasını gerektirir. Örneğin, bir e-ticaret başlangıcı, tüketicisinin bir ürünü satın alma eğilimini anlamak için bir model geliştirmek istediğinde, modelleri web sitesinden veya uygulamasından toplanan veriler üzerinde çalıştırır.

Federe öğrenme, makine öğrenme sürecini en üste tutar. Cep telefonlarının, cihazdaki eğitim verilerini kullanarak ve verileri cihazda tutmasını sağlayan ortak bir modeli öğrenmelerini sağlar. Verileri bulutta saklama gereksinimi ile makine öğrenmesi yapma ihtiyacını ortadan kaldırır.

Federe Öğrenmede Gizlilik Nasıl Korunur?

Federe öğrenmede gizliliğin sağlanması için güvenlik modelleri ve analizleri gereklidir.

Bunlar;

1- Secure Multiparty Computation ( SMC ): Önemli bir şifreleme kümesi olan SMC, iki veya daha fazla tarafın toplu olarak bazı hesaplamalar yapmasına ve herhangi bir tarafın hassas veri girişini açığa vurmadan elde edilen çıktıyı almasına izin verir. Örneğin; maaş bilgilerini birbirleriyle paylaşmak istemeyen üç iş arkadaşı ortalama maaşlarını hesaplamak isterler bunun için SMC yapısından yararlanarak, maaş bilgilerini sisteme girerler. Sisteme girilen kullanıcı bilgisi rasgele sayılarla maskelenerek üç parçaya ayrılır. Elde edilen veriler sunucuda kullanıcı bağımsız olarak işçilerin maaş ortalamasını hesaplamasına olanak sağlar.

2- Differential Privacy / K- anonymity : Differential privacy yöntemi verilere gürültü eklemeyi ya da üçüncü taraf bireyi ayırt edemediği sürece belirli hassas nitelikleri gizlemek için genelleme yöntemlerini kullanır.

3- Homomorphic Encryption : Makine öğrenimi süresince şifreleme mekanizması, değişim(exchange) yoluyla kullanıcıların veri gizliliğinin korumaktadır.

Federe Öğrenme Çeşitleri

Federe öğrenme büyük ölçüde Tek Taraflı(Single -Party) ve Çok Taraflı(Multi-Party) olarak iki başlık altına sınıflandırılabilir. Tek Taraflı bir sistemde, dağıtılmış veri akış ve toplama sistemlerini yöneten yalnızca bir varlık vardır. Bu, bir akıllı telefon veya IoT uygulaması, ağ cihazları, dağıtılmış veri ambarları, çalışanlar tarafından kullanılan makineler vb. gibi çeşitli şekillerde olabilir. Modeller, tüm istemci cihazlar arasında aynı yapıya sahip veriler üzerinde federe şeklinde eğitilmiştir ve çoğu durumda ,her veri noktası cihaz veya kullanıcı için benzersizdir. Örneğin, bir uygulamada kullanıcılar için müzik öneren bir müzik öneri motoru bu şekilde federe edilir.

Çok Partili bir sistemde, iki ya da daha fazla kuruluş federe öğrenme yoluyla bireysel veri kümelerinde paylaşılan bir model yetiştirmek için bir ittifak oluşturur. Verilerin gizli tutulması, katılımcı birimlerin ortak bir hedefe ulaşması için federe öğrenme önemli bir katma değer sağlar. Veri yapıları ve parametreleri genellikle benzerdir ancak aynı olmaları gerekmez ve model girişlerini standart hale getirmek için her müşteride çok fazla ön işleme gerekir. Model ağırlıkları toplamak ve müşteriler arasında güven oluşturmak için altyapının sağlanmasında tarafsız bir üçüncü taraf bulunabilir. Örneğin, birden fazla banka, hassas müşteri verilerini birbirleriyle paylaşmadan federe öğrenme ile ortak güçlü bir sahtekarlık tespit modeli eğitebilir.

Bugünlerde Federe Öğrenme

Birçok sektör ve endüstriye umut ışığı tutmakta olan federe öğrenme, sadece teknoloji sektöründe değil sağlık,finans,kamu gibi diğer sektörle de kullanılmaya başlanmıştır.

Güçlü grafik işlemci üreticisi olarak bilinen NVIDIA şirketi, mahremiyet taşıyan hasta verilerinin hastahane içinde kalmasını sağlayan Clara federe öğrenme tekniği(Clara FL) geliştirdi. American College of Radiology, King’s College London ve UCLA Health dahil olmak üzere, bazı üst düzey sağlık hizmeti sunan kurumlarda bulunan radyologlar tarafından kullanılmaya başlanan Clara FL, önceden eğitilmiş modelleri kullanarak ve öğrenme tekniklerini aktarırken radyologlara etiketleme konusunda yardımcı olarak karmaşık 3D çalışmaları için zamanı saatlerden dakikalara indirmektedir.

Çinde Google’un yasaklanmasıyla çinde arama motoru hizmeti sunan Baudi şirketi, AI’ı ürünlerine dahili olarak uygulamak amacıyla geliştirdikleri bir platform olan PaddlePaddle (PArallel Distributed Deep LEarning)’ın yeni sürümü olan PaddlePaddle 1.6’yı federe öğrenme araçları ve daha fazlasıyla piyasaya sürdü. Açık kaynak FedAvg ve Differential Privacy tabanlı SGD algoritmalarını kullanan, merkezi olmayan bir veri grubundaki model eğitimi için dağıtılmış öğrenmeyi mümkün kılan PaddleFL federe öğrenmeyi kapsamaktadır.

Dünyada böyle gelişmeler olur Türkiye’de nasıl adımlar atılıyor dersiniz? Federe öğrenmenin sağlık sektörüne katkısı göz ardı edilmedi, 27 Eylül 2019 tarihinde İstanbul Üniversitesi Tıp Fakültesi önderliğinde gerçekleşen deepAIm etkinliğinde, Nükleer tıpta yapay zeka, etik sorunlar, Radiomics ve Genomics gibi birçok farklı konular tartışılırken sağlık alanında federe öğrenme önemi vurgulanarak “Öğrenme ve hizmetin ayrılması. Yasal ve etik sorun çözücü. Hastaların kişisel bilgileri yerine hastalıklarını öğrenen modelin öğrenme bilgisi ana sunucuya atılması gerek.” diye konuşuldu.

Sadece sağlık sektöründe değil aynı zamanda devlet kurumlarında da çalışmalar yapılmaya başlanmış olup ,T.C Dijital Dönüşüm Ofisi tarafından hayata geçirilen AçıkVeri Projesi ile birlikte anonimleştirilmiş ve mahremiyeti sağlanmış veriler vatandaşların ve bilim insanlarının kullanımına açılacak. Sadece yapay zeka ve yenilikçi teknolojilerin geliştirilebilmesi için bireylere yardımcı olmakla kalmayacak, aynı zamanda üniversitelerde çeşitli yayınlar, kitaplar vb. akademik çıktılarda kullanılabileceği gibi planlama, politika geliştirme, yeni teşvik mekanizmaları oluşturulması, olası yeni iş birliklerinin kurulması ve bürokratik süreçlerin azaltılmasında kullanılabilecek.

Bu yazımı yazmamda bana ilham kaynağı olan Dr.öğr.üyesi Şebnem Özdemir’e teşekkürü borç bilirim.

Kaynakça

7-Medium

8- Shiftdelete