Derin Öğrenmede Sentetik Veri

Ali Mert Erdoğan
MIS Profundum
2 min readMay 4, 2022

--

Son yıllarda derin öğrenme çalışmaları büyük bir ilgi toplamakta ve görüntü işleme, doğal dil işleme, robotik kontrol gibi alanlarda başarılı bir şekilde uygulanmaktadır. Bu çalışmaların başarısının temelinde backpropagation gibi gelişmiş algoritmaların yanında, büyük veri ve işlemci teknolojilerindeki de yer almaktadır. Başarılı uygulamalara rağmen hala teoride ve pratikte hala bazı güçlüklerle karşılaşılmaktadır. Derin Sinir Ağlarının (DNN) tüm parametrelerinin optimize edilmesi için çok büyük miktarda veriye ihtiyaç duyulabilmektedir. Algoritmalar ve işlemci kapasiteleri ile ilgili zorluklardan ziyade etiketli veri konusu bu çalışmalardaki önemli darboğazlardan. Örneğin görüntü sınıflandırma, nesne yakalama gibi derin öğrenme yaklaşımı ile çözülebilen problemler için büyük veri kümelerinin inşa edilmesi gerekmektedir. Son dönemde sentetik veri bu zorluklara karşı umut verici bir kavram olarak karşımıza çıkmaktadır. Bu kavramı görüntü işleme üzerinden açıklamaya çalışalım.

Bu alandaki çalışmalar için büyük eğitim verisetleri inşa etmenin oldukça zorlu bir süreç olduğu açık. Örneğin herhangi bir hastalığın varlığını radyolojik görüntüler üzerinden tespit edecek olan bir DCNN (Deep Convolutional Neural Network) eğitebilmek için hastalıklı görüntülerin ve hastalıklı bölgelerin uzman hekimler yardımıyla belirlenmesi ve etiketlenmesi gerekmektedir. Binlerce imgedeki hastalıklı yapıların ImageJ gibi araçlar yardımıyla dikdörtgen çerçeve içerisine alınması ve hastalığın görseller üzerinde belirlenmesi gerekmektedir. Bu tip bir çalışma büyük bir zaman ve maliyet kalemi anlamına gelmektedir.

Eğitim için bir verisetinin oluşturulmasında yaşanan bu zorlukları engellemek ve istenilen sınıflandırma veya nesne tespiti işlemlerini gerçekleştirebilmek için yapay görüntülerden oluşan sentetik bir veriseti oluşturulabilmektedir. Böyle bir sentetik bir verisetinin oluşturulması için sinir ağları temelli farklı yöntemler kullanılabilmekte. Örneğin son dönemde ismini sıkça duyduğumuz GAN (Generative Adversarial Network) isimli mimari bu yöntemlerden birisidir. Bu mimaride generator ve discriminator olarak anılan iki ana yapı bulunmaktadır ve generator bir görüntü üretirken discriminator ise generatorün ürettiği bu görüntünün gerçek mi yoksa sahte mi olduğunu belirler. GAN modelleri oldukça komplike ve diğerler metotlara göre çok daha fazla işlem gücü gerektirirken detaylı ve gerçekçi sentetik veri üretme potansiyeline sahiptirler. Sinir ağları temelli yöntemlerden bir diğeri ise denetimsiz öğrenme algoritmalarından Variational Auto-Encoder isimli mimaridir. Benzer amaçla kullanılan yöntemlerden bir diğeri ise Difuzyon Modelleridir (Diffusion Models).

Görüntü işleme örneğinin dışında doğal dil işleme, biyoinformatik gibi alanlarda da sentetik veriseti oluşturulmasına ve kullanılmasına ilişkin çalışmalar bulunmaktadır. Ayrıca sentetik veri kavramı veri mahremiyeti gibi etik konularda da avantaj sağlamaktadır. Sentetik veri kavramına ve derin öğrenme açısından önemine ilişkin detaylı bilgiye sahip olmak için bu yazının da kaynağı olan, araştırmacı Sergeĭ Igorevich Nikolenko’nun ‘Synthetic Data for Deep Learning’ isimli kitabını inceleyebilirsiniz.

--

--