BERT vs ELMo-BiDAF

Mehmet Haliloglu
2 min readAug 23, 2020

--

Merhaba arkadaşlar,

Doğal Dil İşleme’de son zamanlarda popülerlik haline gelen BERT, ELMo ve BiDAF modüllerin makalaleleri için özet yazdım. Önceki özet yazılarımda BERT,ELMo ve BiDAF’ı inceledik. Bu yazımda ise farklılıkları ve benzerlikleri inceleyeceğiz.

  • BERT, kelimeleri alt kelimelere ayırır ve bunlar daha sonra modele girdi olarak verilir. ELMo karakter tabanlı girdi kullanır.
  • BERT merkezinde transformatör kullanırken, ELMo biLSTM kullanır ve BiDAF LSTM kullanır.Transformatör kullanımının eğitime paralel hale getirilmesini sağlar, bu da büyük miktarda veri ile çalışırken önemli bir faktördür.
  • BERT, yeni maskeli dil modelleme tekniği nedeniyle son derece çift yönlüdür. Öte yandan ELMo, sağdan sola ve soldan sağa LSTM’lerin bir birleşimini kullanır.
  • BERT multi-head attention(dikkat) kullanıyor. BiDAF ise attention kullanıyor.
  • BİDAF’ta sadece dizideki diğer kelimelere ne kadar dikkat etmemiz gerektiğine dikkat ediyoruz.
  • BERT’de öz ilgiyi kullanan transformatörler kullanıyoruz. Öz dikkat(attention) katmanı, kodlayıcının belirli bir kelimeyi kodlarken giriş cümlesindeki diğer kelimelere bakmasına yardımcı olur.
  • Bert’in görevi Maskeli Dil Modeli ve Sonraki cümle tahminidir, Elmo’nun görevi ise Çift Yönlü Dil Modeli’dir.
Bert neden daha iyi çalışıyor ?
  • BERT, çift yönlü bir Transformer kullanır. ELMo, aşağı akış görevlerine yönelik özellikler oluşturmak için bağımsız olarak eğitilmiş soldan sağa ve sağdan sola LSTM’lerin birleştirilmesini kullanır. BERT temsilleri, tüm katmanlarda hem sol hem de sağ bağlamda birlikte koşullandırılır BERT, ince ayar(fine-tuning) yaklaşımlarıdır, ELMo ise özellik tabanlı bir yaklaşımdır. Bu yüzden Bert daha iyi çalışıyor.

Referanslar

Bu yazıyı yazmama vesile olan, başta Ahmet Melek olmak üzere tüm PragmaCraft’a teşekkür ediyorum. :)

--

--