Bilgi Çağında Yeni Bir Zirve: Gerçek ve Sentetik Veri Arasında Yolculuk

Zübeyde Tanrıverdi
Academy Team
Published in
5 min readDec 14, 2023

Günümüzde, bilgi çağında hızla ilerleyen teknoloji, veriye dayalı çözümleri ve yapay zekayı geliştirmeye devam ediyor. Bu bağlamda, sentetik veri kavramı önemli bir dönemeç olarak karşımıza çıkıyor. Sentetik veri, gerçek dünya verilerinin benzerlerini oluşturan ve bu sayede algoritmaların daha etkili bir şekilde eğitilmesine olanak tanıyan bir yaklaşımı ifade ediyor. Sentetik veri, bilgisayarlarımızın insan benzeri öğrenme yeteneklerini artırarak, gelecekteki teknolojik atılımların kapılarını aralıyor. Sentetik veri üretme teknikleri, makine öğrenimi modellerinin eğitim verilerini daha kolay elde etmelerine imkan tanımakta bu da sentetik verilerin gerçek verilere alternatif bir seçenek olarak umut verici hale gelmesine neden olmaktadır. Ancak, sentetik verilerin gerçek dünya sorunlarına tam çözüm olup olamayacağı kesin bir gerçek değildir; bununla birlikte, sentetik verilerin sağladığı önemli avantajlar bu alternatifin değerini artırır.

Gerçek veriler, bireylerin günlük aktiviteleri, teknolojik kullanımı, web gezinmesi ve çevrimiçi alışveriş gibi gerçek dünya etkileşimleriyle anlık olarak oluşur. Ayrıca, çevrimiçi ve çevrimdışı anketlerle de toplanabilirler. Sentetik veriler ise tam tersine dijital ortamlarda üretilmektedir. Bu veriler, gerçek dünyadaki herhangi bir olaydan elde edilmeyen kısımlar dışında, gerçek verilerin temel özelliklerini taklit edecek şekilde üretilmiştir.

Bu makalede, sentetik verinin yükselişini ve bu yenilikçi yaklaşımın neden veri bilimciler, yapay zeka uzmanları ve endüstri liderleri arasında heyecan uyandırdığını inceleyeceğiz.

Sentetik veri nedir?

Gerçek dünyadaki olaylar tarafından üretilmek yerine yapay olarak üretilen bilgilerdir. Algoritmalar kullanılarak oluşturulan bu veriler matematiksel modelleri doğrulamak ve makine öğrenimi modellerini eğitmek için kullanılır. Sentetik veri, doğal veri setlerinin eksik olduğu veya zor elde edildiği durumlarda, özellikle büyük veri setlerini oluşturmak için kullanışlıdır. Bu sistemleri eğitmek için gereken büyük ve çeşitli veri setlerine ulaşmanın mümkün olmadığı, kişisel veriler veya uyumluluk riskleri nedeniyle gizli tutulması gerektiği durumlarda yapılır. Sağlık, imalat, tarım, finans gibi alanlarda yaygın olarak kullanılmaktadır.

Sentetik veri türleri nelerdir?

• Tamamen sentetik veriler: Orijinal veri içermez, tamamen yapay olarak oluşturulur ve gerçek dünya verilerinden türetilmez. Yapay zeka modellerini eğitmek veya test etmek için kullanılan bu veri, genellikle belirli bir konsepti temsil eden ancak gerçek bir örneği olmayan verileri içerir. Örneğin, bilgisayar grafikleri veya benzeri simülasyonlar kullanılarak üretilen tamamen sentetik görüntüler. Bu, gerekli tüm değişkenlerin mevcut olduğunu ancak verilerin tanımlanamayacağını gösterir.

• Kısmen sentetik veriler: Hassas bilgiler dışında orijinal verilerdeki tüm bilgileri korur. Gerçek verilerden çıkarılır, bu nedenle bazen gerçek değerlerin seçilmiş sentetik veri setinde kalması muhtemeldir. Gerçek dünya verilerinin bir kısmını içerirken, diğer kısımları yapay olarak oluşturulan verilerle tamamlar. Bu yaklaşım, özellikle gerçek dünya verilerinin sınırlı olduğu durumlarda modellerin genelleme yeteneklerini artırmak için kullanılır. Örneğin, mevcut gerçek görüntülerin üzerine eklenen sentetik nesneler veya bilgiler.

• Hibrit sentetik veriler: Veri seti hem gerçek dünya verilerini içerebilir hem de bu gerçek verilere ek olarak sentetik olarak üretilmiş verileri içerebilir. Bu tür bir birleştirme, veri setini çeşitlendirmek, modelin genelleme yeteneğini artırmak veya sınırlı gerçek veri durumlarını simüle etmek amacıyla kullanılabilir.

Sentetik veri örnekleri nelerdir ?

Metin verileri: Yapay olarak oluşturulmuş metin verileridir. Genellikle gerçek verilerin mevcut olmadığı veya hassas bilgiler içerdiği doğal dil işleme (NLP) ve metinle ilgili diğer görevlerde kullanılır.

Tablo şeklindeki veriler: Sentetik tablo verileri yazılım testi veya veri bilimi projeleri için gerçek verileri taklit etmek üzere oluşturulur. Bu veriler, ilişkisel veri tabanı tabloları boyunca satırlar ve sütunlar halinde yapılandırılmıştır ve kuruluşların gerçek dünya veri kümelerindeki boşlukları veya eksik değerleri doldurmasına yardımcı olabilir.

Medya: Görüntüler veya videolar gibi sentetik ortamlar , gerçek dünya görüntüleri veya videoları gerektiren nesne algılama ve tanıma görevleri için kullanılır.

Ses Verileri: Ses verileri, konuşma tanıma sistemleri veya ses analizi uygulamalarında kullanılır.

Zaman Serisi Verileri: Zaman serisi verileri, finansal piyasalardaki fiyat hareketlerini tahmin etmek için kullanılabilir.

Coğrafi Veriler: GPS verileri gibi coğrafi veriler, harita uygulamalarında ve konum tabanlı hizmetlerde kullanılır.

Genomik Veriler: Tıbbi araştırmalarda ve hastalıkların genetik temellerinin anlaşılmasında kullanılır.

Ağ Verileri: İnternet trafiğini analiz etmek ve ağ güvenliği için kullanılır.

Sentetik veri oluşturma için yaygın kullanılan bazı yöntemler:

1. Makine öğrenimi (ML) tabanlı modeller,

2. Aracı tabanlı modeller

3. Elle tasarlanmış yöntemler.

1. ML tabanlı modeller: ML tabanlı modellerle sentetik veri oluşturmanın birkaç farklı yöntemi vardır. En yaygın olanlardan bazıları şunlardır:

GAN (Generative Adversarial Network), bir jeneratör(üreteç) ve diskriminatör(ayırt edici ağı) içeren bir derin öğrenme modelidir. Jeneratör, gerçek verilere benzer veriler üretmeye çalışırken, diskriminatör, gerçek ve üretilen verileri birbirinden ayırmaya çalışır. Bu şekilde, üreteç ve ayırt edici ağ sürekli olarak birbirleriyle rekabet ederler ve bunun sonucunda daha gerçekçi sentetik veriler üretilebilir.

VAE (Variational Autoencoder), bir veri noktasının dağılımını modelleyen bir derin öğrenme modelidir. VAE, bir veri noktasını bir gizli uzayın bir noktasına eşler ve ardından bu noktadan yeni veri noktaları üretebilir. Bu şekilde, VAE, veri setinin temel özelliklerini yakalayabilir ve bu özelliklere dayalı olarak sentetik veriler üretebilir.

RBM (Restricted Boltzmann Machine), bir tür olasılık modelleme yöntemidir. RBM, gizli ve gözlemlenen değişkenler arasındaki ilişkileri modellemek için kullanılır. RBM, öğrenme süreci boyunca verilerin olasılık dağılımını modellemek için kullanılır ve bu da sentetik verilerin üretilmesine olanak sağlar. Veri oluşturma süreci, sentetik verilerin üretilmesi için kullanılan yöntemleri ve veri seti seçimini kapsayan bir süreçtir.

GMM (Gaussian Mixture Models), normal dağılım gibi istenen özelliklere sahip gerçekçi sentetik veriler oluşturmak için istatistiksel bir metodoloji kullanır. Belirli olaylarla karşılaşma olasılığı gibi ayrık bir dağılıma sahip veriler için yaygın olarak kullanılır.

2. Aracı tabanlı modeller: Bir sistemi oluşturan bireysel etmenlerin (varlıkların veya ajanların) davranışlarını ve etkileşimlerini simüle eden modellerdir. Her bir etmen, belirli kurallara ve davranışlara sahiptir, ve bu etmenlerin etkileşimi genel sistem davranışını belirler. Trafik simülasyonu, epidemiyolojik modeller ve piyasa simülasyonu, aracı tabanlı modellere örnek teşkil eder. Bu örneklerde, her araç, birey veya yatırımcı bir etmeni temsil eder ve bu etmenlerin belirli davranışları (örneğin, trafikte hareket etme kuralları, hastalığın bulaşma olasılıkları, finansal piyasadaki alım-satım stratejileri) sentetik verilerin oluşturulmasına katkıda bulunur. Bu tür modeller, sistemlerin karmaşıklığını anlamak, test etmek ve optimize etmek için kullanılır.

3. Elle tasarlanmış yöntemler

Rule-based Methods (Kural Tabanlı Yöntemler): Belirli koşullara ve kriterlere dayalı olarak kurallar oluşturan ve bu kurallara göre kararlar alan yöntemlerdir. Önceden belirlenmiş kurallar kullanılarak veri işleme ve analizi yapılabilir.

Parametrik modeller: Veri dağılımını matematiksel olarak temsil eden modellerdir ve bu modeller kullanılarak sentetik veriler oluşturulur.

Rastgele Örnekleme: Bu yöntemde var olan veri setinden rastgele örnekler alınarak sentetik veriler oluşturulur; örneğin, insanların yaşlarından oluşan bir veri kümesinden rastgele seçilen yaş değerleriyle yeni sentetik veri noktaları üretilebilir.

Lineer enterpolasyon: İki bilinen nokta arasındaki değerleri bir doğru üzerinde hesaplayarak yeni noktalar oluşturan bir yöntemdir, bu da mevcut veri aralıklarını doldurarak daha düzgün bir veri seti elde etmeyi sağlar.

Sonuç olarak gelecek, sentetik veri oluşturma teknikleri ve bu verinin kullanım alanları üzerinde daha fazla keşif ve gelişimle şekillenecektir. Endüstri liderlerinin bu alana olan ilgisi ve yatırımları, sentetik verinin daha etkili ve çeşitli bir şekilde kullanılmasına katkıda bulunacaktır. Sentetik veri, veri bilimi dünyasında heyecan verici bir yolculuğun sadece başlangıcıdır ve ilerleyen zamanlarda daha da önem kazanacaktır.

Bir sonraki yazıda Sentetik verilerle ilgili olarak, avantaj-dezavantajları, veri sentezi araçları ve kullanım alanları konusuna değineceğiz.

Sentetik verilerle dolu bu kısa yolculuğunuzu keyifli bulmanız umuduyla!

Referanslar

https://en.wikipedia.org/wiki/Synthetic_data

https://www.turing.com/kb/synthetic-data-generation-techniques)

https://hashdork.com/tr/sentetik-veri-%C3%BCretimi/

https://syntheticus.ai/guide-everything-you-need-to-know-about-synthetic-data

https://www.researchgate.net/publication/371168626_Yapay_Zeka_Destekli_Klinik_Arastirmalarda_Sentetik_Veri_Kullanimi_Using_Synthetic_Data_in_Artificial_Intelligence-supported_Clinical_Research

*Resimler copilot ile üretildi

--

--