­čôÜDo─čal Dil ─░┼člemenin Yak─▒n┬áTarihi

Yapay Sinir A─č─▒ Temelli Do─čal Dil┬á─░┼čleme

Bu yaz─▒ DeepMindÔÇÖda ara┼čt─▒rmac─▒ olarak ├žal─▒┼čan Sebastian Ruder ve Stellenbosch UniversityÔÇÖde ├Â─čretim g├Ârevlisi olan Herman Kamper taraf─▒ndan Deep Learning Indaba 2018 ÔÇśda yap─▒lan Do─čal Dil ─░┼člemenin S─▒n─▒rlar─▒ oturumunda sunulduktan sonra kaleme al─▒nan ÔÇśA Review of the Neural History of Natural Language ProcessingÔÇÖ makalesinin ├ževirisi ve yorumlanmas─▒ ile olu┼čturulmu┼čtur. ÔşÉ

Yapay Zeka uygulamalar─▒n─▒n iyiden iyiye hayat─▒m─▒zda yer ald─▒─č─▒ bu g├╝nlerde ├žal─▒┼čmalar─▒n i├žerisinde yer alan ┼čansl─▒ geli┼čtiriciler olarak, her g├╝n ak─▒l almaz bir uygulamayla kar┼č─▒la┼č─▒yoruz. G├Âr├╝nt├╝ i┼člemeden, do─čal dil i┼člemeye hemen her alandaki bu geli┼čmeler heyecan─▒m─▒z─▒ art─▒r─▒rken, takip etmeyi de bir hayli zorla┼čt─▒r─▒yor ­čĄľ

─░┼čleri biraz daha kolayla┼čt─▒ral─▒m ve bir ├ž─▒rp─▒da (kendi ├žal─▒┼čt─▒─č─▒m alana pozitif ayr─▒mc─▒l─▒k yaparak­čśŐ) do─čal dil i┼čleme alan─▒nda son zamanlarda sinir a─člar─▒ temelli geli┼čmelere g├Âz gezdirelim o zaman ­čĹÇ

Resim Kayna─č─▒

­čÄ» Hat─▒rlatmakta fayda var ki, bu yaz─▒ yakla┼č─▒k son 15 senelik s├╝re├žte ortaya ├ž─▒km─▒┼č 8 kilometre ta┼č─▒n─▒ ele almaktad─▒r! Bu s├╝re├žte burada bahsedilenlerin haricinde de ara┼čt─▒rmac─▒lar taraf─▒ndan ortaya konmu┼č bir├žok ├Ânemli ├žal─▒┼čma mevcuttur. Bak─▒┼č a├ž─▒s─▒ olarak yaln─▒zca sinir a─č─▒ temelli ├žal─▒┼čmalardan bahsedilmi┼čtir ve bu tutumun di─čer y├Ântemlerin ├Ânemli olmad─▒─č─▒ y├Ân├╝nde bir anlamla e┼č de─čer olmad─▒─č─▒ Ruder taraf─▒ndan ├Âzellikle belirtilmi┼čtir. Zira bahsi ge├žen sinir a─č─▒ temelli geli┼čmelerin bir├žo─ču d├Âneminin sinirsel olmayan yakla┼č─▒mlar─▒na dayan─▒yor ­čśŐ


­čôî 2001ÔÇŐÔÇöÔÇŐSinirsel Dil Modelleri (Neural Language┬áModels)

Dil modellemesi nam-─▒ di─čer language modelling, metin i├žerisinde verilen bir kelimeden sonra gelecek olan kelimenin tahmin edilmesi g├Ârevidir. Ak─▒ll─▒ klavyeler, e-posta yan─▒t ├Ânerisi (Kannan et al., 2016), yaz─▒m denetimi, vb. somut pratik uygulamalar─▒ olan en basit dil i┼čleme g├Ârevlerindendir.

Hal b├Âyle olunca, bu g├Ârevle ilgili zengin bir ├žal─▒┼čma ge├žmi┼či olmas─▒ da beklenen bir durum olarak kar┼č─▒m─▒za ├ž─▒k─▒yor ­čśŐ

Klasik yakla┼č─▒mlar n-gramlara dayan─▒rken, g├Âr├╝nmeyen n-gramlar ile ba┼ča ├ž─▒kabilmek i├žin ise yumu┼čatma(smoothing) kullan─▒l─▒r (Kneser & Ney, 1995).

┼×ekil-1'de g├Âsterilen, 2001 y─▒l─▒nda Bengio ve arkada┼člar─▒ taraf─▒ndan geli┼čtirilen ilk sinirsel dil modeli, bir ileri beslemeli sinir a─č─▒ ├Ârne─čidir.

┼×ekil 1: ─░leri beslemeli bir sinir a─č─▒ dili modeli (Bengio ve di─č., 2001;┬á2003)

Bu modelde, C tablosuna bak─▒larak ├Ânceki n kelimenin vekt├Âr temsilleri girdi olarak al─▒n─▒r. G├╝n├╝m├╝zde, bu t├╝r vekt├Ârler kelime g├Âmme (word embedding) olarak bilinir. Bu kelime g├Âmmeleri bir gizli katman─▒ beslemek ├╝zere bir araya getirilir. Gizli katman─▒n ├ž─▒kt─▒s─▒ ise Softmax katman─▒n─▒n girdisi olur.

Model hakk─▒nda daha fazla bilgi i├žin bu yaz─▒ya bir g├Âz atabilirsiniz ÔťĘ

Daha sonralar─▒ dil modelleme g├Ârevinde ileri beslemeli sinir a─člar─▒n─▒n yerini tekrarlayan sinir a─člar─▒ (RNNÔÇÖler; Mikolov ve di─č., 2010) ve uzun k─▒sa s├╝reli bellek a─člar─▒ (LSTMÔÇÖler; Graves, 2013) almaya ba┼člam─▒┼čt─▒r.

Son y─▒llarda klasik LSTMÔÇÖin geni┼čletilmi┼č hali ile olu┼čturulmu┼č bir├žok yeni dil modelinin ├Ânerildi─či g├Âr├╝lse de, klasik LSTM g├╝├žl├╝ bir temel olmaya devam etmektedir (Melis ve di─č., 2018).

Hatta Bengio ve arkada┼člar─▒n─▒n klasik ileri beslemeli sinir a─č─▒ bile baz─▒ ortamlarda daha sofistike modellerle rekabet edebiliyor, ├ž├╝nk├╝ bunlar tipik olarak sadece en son s├Âzc├╝kleri g├Âz ├Ân├╝nde bulundurmay─▒ ├Â─čreniyor. (Daniluk ve di─č., 2017).

ÔÇťSonu├žta bu dil modelleri hangi bilgileri yakal─▒yor?ÔÇŁ sorusunun cevab─▒n─▒ daha iyi anlamak ise aktif bir ara┼čt─▒rma alan─▒ olarak kar┼č─▒m─▒za ├ž─▒k─▒yor (Kuncoro ve di─č., 2018; Blevins ve di─č., 2018).

Dil modellemesinde Tekrarlayan Sinir A─člar─▒n─▒n (Recurrent Neural Networks) tercih edilmesi s─▒kl─▒kla tercih edilen bir yakla┼č─▒md─▒r ve bu yakla┼č─▒m bir├žok ki┼či taraf─▒ndan ilk kez Andrej KarpathyÔÇÖnin blog yaz─▒s─▒nda anlatt─▒─č─▒ Resim Yorumlama (Image Captioning) g├Ârevindeki ba┼čar─▒l─▒ sonucu ile tan─▒nm─▒┼čt─▒r.

ÔşÉ Resim yorumlama ile ilgili T├╝rk├že dilinde Hacettepe Bilgisayarl─▒ G├Âr├╝ Laboratuvar─▒ ara┼čt─▒rmac─▒lar─▒ taraf─▒ndan geli┼čtirilen uygulamay─▒ incelemek i├žin buyrun ­čśŐ

Dil modellemesi, Yann LeCunÔÇÖun kestirimci ├Â─črenme dedi─či ve sa─čduyuyu kazanman─▒n ├Ân ┼čart─▒ oldu─čunu belirtti─či denetimsiz bir ├Â─črenme ┼čeklidir.

┼×├╝phesiz ki dil modellemeyle ilgili en dikkat ├žekici husus ise basit yap─▒s─▒na kar┼č─▒n, bu yaz─▒da ele al─▒nan daha sonraki ilerlemelerin bir├žo─čunun ├žekirde─čini olu┼čturuyor olmas─▒d─▒r:

­čöŞ Kelime g├Âmmeleri (word embeddings): Word2vecÔÇÖin amac─▒, dil modellemenin basitle┼čtirilmesidir.

­čöŞ S─▒radan s─▒raya modeller(sequence-to-sequence models): Bir seferde bir kelimeyi tahmin ederek bir ├ž─▒kt─▒ dizisi olu┼čturur.

­čöŞ ├ľnceden e─čitilmi┼č dil modelleri (Pre-trained language models): Bu y├Ântemler, transfer ├Â─črenme (transfer learning) i├žin dil modellerinden temsilleri kullan─▒r.

Tersten bakacak olursak, asl─▒nda NLPÔÇÖdeki en ├Ânemli say─▒lan geli┼čmelerin bir├žo─ču, bir dil modellemesi bi├žimine indirgenmi┼čtir.

Ger├žek bir do─čal dil anlay─▒┼č─▒ ile hareket edebilmek i├žin, sadece ham metinin bi├žiminden ├Â─črenmek yeterli olmayaca─č─▒ ve yeni y├Ântemlere, modellere ihtiyac─▒m─▒z olaca─č─▒ a┼čikar!


­čôî2008ÔÇŐÔÇöÔÇŐ├çoklu G├Ârev ├ľ─črenme (Multi-tasking learning)

├çoklu g├Ârev ├Â─črenme, birden ├žok g├Ârevde e─čitilmi┼č modeller aras─▒nda parametre payla┼č─▒m─▒ i├žin genel bir y├Ântemdir. Yapay sinir a─člar─▒nda bu i┼člem, farkl─▒ katmanlar─▒n a─č─▒rl─▒klar─▒n─▒ ba─člayarak kolayca yap─▒labilir.

Fikir ilk olarak 1993 y─▒l─▒nda Rich Caruana taraf─▒ndan ├Ânerilen ├žoklu g├Ârev ├Â─črenme, yol takip ve zat├╝rree tahmininde kullan─▒lm─▒┼čt─▒r (Caruana, 1998).

Sezgisel olarak, modellerin bir├žok g├Ârev i├žin faydal─▒ olan temsillerini ├Â─črenmeye te┼čvik edilmesi olarak nitelendirilebilir. Bu yakla┼č─▒m s─▒n─▒rl─▒ say─▒da e─čitim verisi olan ortamlarda genel bir ├Â─črenmenin sa─članmas─▒ i├žin olduk├ža faydal─▒d─▒r ­čĹŹ

├çoklu G├Ârev ├ľ─črenme i├žin detayl─▒ bilgi edinmek i├žin bu blog yaz─▒s─▒na buyrun ÔťĘ

Collobert ve Weston, ├žoklu g├Ârev ├Â─črenme yakla┼č─▒m─▒n─▒ NLP i├žin sinir a─člar─▒na ilk uygulayan ara┼čt─▒rmac─▒lar olarak literat├╝rde yer edinmi┼člerdir. Modellerinde, arama tablolar─▒ (veya kelime g├Âmme matrisleri), a┼ča─č─▒daki ┼×ekil 2'de g├Âsterildi─či gibi, farkl─▒ g├Ârevlerde e─čitilen iki model aras─▒nda payla┼č─▒lmaktad─▒r.

┼×ekil 2: Kelime g├Âmme matrislerinin payla┼č─▒m─▒ (Collobert ve Weston, 2008; Collobert ve di─č.,┬á2011)

Kelime g├Âmmelerinin payla┼č─▒m─▒ modellerin ortak bir yakla┼č─▒mla hareket etmelerine ve genellikle bir modeldeki en b├╝y├╝k parametre say─▒s─▒n─▒ olu┼čturan kelime g├Âmme matrisindeki genel d├╝┼č├╝k seviyeli bilginin payla┼č─▒m─▒na olanak sa─člar.

2008 y─▒l─▒nda Collobert ve Weston taraf─▒ndan yay─▒nlanan makale ile ortaya at─▒lan fikrin asl─▒nda ├žoklu g├Ârev ├Â─črenmenin kullan─▒m─▒n─▒n d─▒┼č─▒nda, son zamanlarda yayg─▒n olarak benimsenen ├Ânceden e─čitilmi┼č kelime g├Âmmeleri ve metinler i├žin evri┼čimsel sinir a─člar─▒n─▒n (CNNÔÇÖler) kullan─▒lmas─▒ gibi fikirlere de ├Ânc├╝l├╝k etmesi bak─▒m─▒ndan ├Ânemli bir kilometre ta┼č─▒ oldu─čunu s├Âyleyebilmek m├╝mk├╝nd├╝r. Nitekim ICML 2018'de verilen Test of Time ├Âd├╝l├╝ de bu s├Âylenenin ispat─▒ niteli─čindedir ­čĆů

┼×imdilerde ├žok farkl─▒ do─čal dil i┼čleme g├Ârevlerinde kullan─▒lan ├žoklu g├Ârevli ├Â─črenme, mevcut veya ÔÇťyapayÔÇŁ g├Ârevlerden yararlanmak suretiyle olduk├ža faydal─▒ bir ara├ž haline gelmi┼čtir.

Farkl─▒ yard─▒mc─▒ g├Ârevler hakk─▒nda ayr─▒nt─▒l─▒ bilgi i├žin blog yaz─▒s─▒na g├Âz atabilirsiniz ÔťĘ

Parametrelerin payla┼č─▒m─▒nda genelde parametreler ├Ânceden tan─▒mlanm─▒┼č olsa da, optimizasyon s├╝recinde farkl─▒ parametre payla┼č─▒m ├Âr├╝nt├╝leri de ├Â─črenilebilir (Ruder ve di─č., 2017). Modellerin genelleme yetene─čini ├Âl├žmek i├žin birden fazla g├Ârev ├╝zerinde de─čerlendirilmesinin artmas─▒yla beraber, ├žok g├Ârevli ├Â─črenme de ├Ânem kazanmakta ve son zamanlarda ├žoklu g├Ârev ├Â─črenme i├žin ├Âzel ├Âl├ž├╝tler ├Ânerilmektedir (Wang ve di─č., 2018; McCann ve di─č., 2018).


­čôî2013 ÔÇöKelime G├Âmmeleri (Word embeddings)

Metnin ayr─▒k vekt├Âr g├Âsterimi (sparse vector representation), di─čer bir deyi┼čle kelime-├žantas─▒ modeli (bag-of-words) do─čal dil i┼čleme alan─▒nda uzun bir ge├žmi┼če sahiptir. Kelimelerin veya s├Âzc├╝k g├Âmmelerinin yo─čun vekt├Âr g├Âsterimleri (dense vector representation) ise yukar─▒da da bahsedildi─či gibi 2001 kadar eski tarihlerden itibaren kullan─▒lm─▒┼čt─▒r.

2013 y─▒l─▒nda Mikolov ve di─č. gizli katman─▒ kald─▒rarak ve hedefe yakla┼čt─▒rarak bu kelime g├Âmmelerinin e─čitimini daha verimli hale getirecek bir ├žal─▒┼čmaya imza att─▒lar. ├ľnerdikleri bu de─či┼čiklikler ├žok basit olmas─▒na ra─čmenÔÇŐÔÇöÔÇŐverimli word2vec uygulamas─▒ ile birlikteÔÇŐÔÇöÔÇŐb├╝y├╝k ├Âl├žekli bir kelime g├Âmme e─čitimini ger├žekle┼čtirmelerine olanak sa─člad─▒.

Word2vec ┼×ekil 3'te g├Âr├╝lebilece─či iki ┼čekilde sa─član─▒r: continuous bag-of-words (CBOW) ve skip-gram. Ama├žlar─▒nda farkl─▒l─▒k g├Âsteren bu 2 yakla┼č─▒mdan biri ├ževreleyen kelimelere dayanarak merkez kelimeyi ├Âng├Âr├╝rken, di─čeri ise tam tersini yapar.

┼×ekil 3: Continuous bag-of-words ve skip-gram mimarileri (Mikolov et al., 2013a;┬á2013b)

Bu g├Âmmeler kavramsal olarak ileri beslemeli bir sinir a─č─▒ ile ├Â─črenilenlerden farkl─▒ olmasa da, ├žok b├╝y├╝k bir korpus ├╝zerinde e─čitim ile birlikte ┼×ekil 4'te g├Âr├╝ld├╝─č├╝ gibi cinsiyetler, fiillerin zamana g├Âre ├žekimleri, ├╝lkeler-ba┼čkentler gibi kelimeler aras─▒ndaki ├Âzel ili┼čkilerin de yakalanmas─▒na olanak tan─▒r.

┼×ekil 4: word2vec taraf─▒ndan yakalanan ili┼čkiler (Mikolov ve di─č. 2013a;┬á2013b)

Bu ili┼čkiler ve bunlar─▒n arkas─▒ndaki anlam, kelime g├Âmmelerine kar┼č─▒ ilgi uyand─▒rd─▒ ve ara┼čt─▒rmac─▒lar bir├žok ├žal─▒┼čmada bu do─črusal ili┼čkilerin k├Âkenini ara┼čt─▒rmak konusunda efor sarf etti. (Arora ve di─č., 2016; Mimno ve Thompson, 2017; Antoniak ve Mimno, 2018; Wendlandt ve di─č., 2018). Ancak daha sonraki ├žal─▒┼čmalarda g├Âr├╝ld├╝ ki, ├Â─črenilen ili┼čkiler ├Ân yarg─▒ i├žeriyordu (Bolukba┼č─▒ ve di─č., 2016) ­čśĺ

Word2vecÔÇÖin yakalad─▒─č─▒ ili┼čkiler sezgisel ve neredeyse sihirli olarak ifade edilebilecek nitelikler kazand─▒r─▒rken sonraki ├žal─▒┼čmalar, asl─▒nda bu durumun word2vec ile ilgili ├Âzel bir durum olmad─▒─č─▒n─▒ g├Âstermi┼čtir. ├ľyle ki, kelime g├Âmmeleri matris faktorizasyonu yoluyla da ├Â─črenilmekteydi (Pennington ve di─č., 2014; Levy ve Goldberg, 2014) ve dahas─▒ uygun d├╝zenlemeler ile SVD ve LSA gibi klasik matris faktorizasyon yakla┼č─▒mlar─▒ da benzer sonu├žlar elde edebilmekteydi (Levy ve di─č., 2015).

Bu tarihten itibaren art─▒k ara┼čt─▒rmac─▒lar kelime g├Âmmelerinin farkl─▒ y├Ânlerini g├Ârmek ├╝zere bir├žok ├žal─▒┼čmada bulundular.

Bu konudaki trendler ve gelece─če do─čru bir bak─▒┼č i├žin blog postuna g├Âz atabilirsiniz ÔťĘ.

Ancak bir├žok geli┼čme olmas─▒na ra─čmen, word2vec hala en pop├╝ler se├žim olarak kar┼č─▒m─▒za ├ž─▒kmakta ve g├╝n├╝m├╝zde yayg─▒n olarak kullan─▒lmaktad─▒r ­čśÄ

Word2vecÔÇÖe eri┼čim art─▒k kelime d├╝zeyinin ├Âtesine ge├žilmesine yol a├žt─▒ ve bu kez de negatif ├Ârneklemli skip-gram kullan─▒larak c├╝mle temsilleri elde edildi (Mikolov ve Le, 2014; Kiros ve di─č., 2015). ├ľtesine ge├žilen yaln─▒zca kelime d├╝zeyi de de─čildi, bu yakla┼č─▒mla do─čal dil i┼člemenin de ├Âtesine ge├žilerek a─člarda (Grover ve Leskovec, 2016)┬á,biyolojik dizilerde (Asgari ve Mofrad, 2015) daha bir├žok farkl─▒ uygulama alan─▒nda da geli┼čmelerin ├Ân├╝ a├ž─▒ld─▒ Ôťî

Heyecan verici bir di─čer nokta ise, ├žapraz dilde aktar─▒m─▒ etkinle┼čtirmek i├žin farkl─▒ dillerin kelime g├Âmmelerini ayn─▒ uzaya yans─▒t─▒lmas─▒! B├Âylelikle en az─▒ndan benzer diller i├žin -tamamen g├Âzetimsiz bir ┼čekilde- iyi bir ├Âng├Âr├╝ye sahip olmak m├╝mk├╝n hale geliyor (Conneau ve di─č., 2018; Artetxe ve di─č., 2018; S├Şgaard ve di─č., 2018) ve b├Âylelikle d├╝┼č├╝k kaynak dilleri ve denetlenmeyen makine ├ževirisi uygulamalar─▒n─▒n yolu a├ž─▒l─▒yor (Lample ve di─č., 2018; Artetxe ve di─č., 2018). Genel bir bak─▒┼č i├žin (Ruder ve di─č., 2018) de─čerlendirme makalesini de okuyabilirsiniz.


­čôî 2013ÔÇŐÔÇöÔÇŐDo─čal Dil ─░┼čleme i├žin Sinir┬áA─člar─▒

2013ÔÇô2014 y─▒llar─▒nda art─▒k sinir a─č─▒ modelleri do─čal dil i┼čleme g├Ârevleri i├žin kullan─▒lmaya ba┼člarken, temelde ├╝├ž ana t├╝r sinir a─č─▒ en yayg─▒n kullan─▒lanlar halini ald─▒. Bunlar; tekrarlayan sinir a─člar─▒, evri┼čimli sinir a─člar─▒ ve ├Âz yinelemeli sinir a─člar─▒d─▒r.

Ôťů Tekrarlayan sinir a─člar─▒ (Recurrent Neural Networks- RNN)

Tekrarlayan sinir a─člar─▒, do─čal dil i┼člemede s├╝rekli kar┼č─▒la┼č─▒lan dinamik giri┼č dizileriyle ba┼ča ├ž─▒kmak i├žin a┼čikar bir se├žimdir. Vanilla RNNÔÇÖler (Elman, 1990) kaybolan ve patlayan gradyan sorununa kar┼č─▒ daha dayan─▒kl─▒ olduklar─▒n─▒ kan─▒tlayarak, ├žok k─▒sa bir s├╝rede klasik uzun s├╝reli bellek a─člar─▒n─▒n yerini almay─▒ ba┼čarm─▒┼člard─▒r (Hochreiter & Schmidhuber, 1997).

2013'ten ├Ânce RNNÔÇÖlerin e─čitilmesinin zor oldu─ču d├╝┼č├╝n├╝l├╝yordu, ancak Ilya SutskeverÔÇÖin doktora tezi ise bu itibar─▒ de─či┼čtirmenin yolunda ├Ânemli bir ├Ârnekti.

┼×ekil 5: Bir LSTM a─č─▒ (Kaynak: Chris┬áOlah)

├çift y├Ânl├╝ bir LSTM (Graves ve di─č., 2013), tipik olarak hem sol hem de sa─č ba─člamla ba┼ča ├ž─▒kmak i├žin kullan─▒l─▒r.

Ôťů Evri┼čimli Sinir A─člar─▒ (Convolutional Neural Networks)

Evri┼čimli sinir a─člar─▒ (CNNÔÇÖler) bilgisayarl─▒ g├Âr├╝de yayg─▒n olarak kullan─▒l─▒rken, ayn─▒ zamanda do─čal dile de uygulanmaya ba┼člam─▒┼člard─▒r (Kalchbrenner ve di─č., 2014; Kim ve di─č., 2014). Metin i├žin bir evri┼čimli sinir a─č─▒ yaln─▒zca iki boyutta ├žal─▒┼č─▒r ve filtrelerin sadece zaman boyutunda hareket etmeleri gerekir.

NLPÔÇÖde kullan─▒lan tipik bir CNN ┼×ekil 6'da g├Âstermektedir.

┼×ekil 6: Metin i├žin bir Evri┼čimli Sinir A─č─▒ (Kim,┬á2014)

Evri┼čimli sinir a─člar─▒n─▒n bir avantaj─▒, RNNÔÇÖlerden daha fazla paralelle┼čebilmeleridir. ├ç├╝nk├╝ her zaman dilimindeki durum, RNNÔÇÖdeki t├╝m ge├žmi┼č durumlardan ziyade yaln─▒zca yerel ba─člama (evri┼čim i┼člemi yoluyla) ba─čl─▒d─▒r.

CNNÔÇÖler, daha geni┼č bir ba─člam─▒ yakalamak i├žin geni┼člemi┼č evri┼čimler kullan─▒larak daha geni┼č al─▒c─▒ alanlar ile geni┼čletilebilir (Kalchbrenner ve di─č., 2016).

CNNÔÇÖler ve LSTMÔÇÖler de birle┼čtirilebilir ve istiflenebilir (Wang ve di─č., 2016), hatta evri┼čimler bir LSTMÔÇÖi h─▒zland─▒rmak i├žin de kullan─▒labilir (Bradbury ve di─č., 2017).

Ôťů ├ľz yinelemeli Sinir A─člar─▒ (Recursive Neural Networks)

RNNÔÇÖler ve CNNÔÇÖler dili bir dizi olarak ele al─▒r. Dilsel bir bak─▒┼č a├ž─▒s─▒na g├Âre, dil do─čas─▒ gere─či hiyerar┼čik bir yap─▒dad─▒r: Kelimeler, bir dizi ├╝retim kural─▒na g├Âre ├Âz yinelemeli olarak birle┼čerek y├╝ksek dereceli ifadeler ve c├╝mlecikler olu┼čtururlar.

Dil bilimsel bir ilham kayna─č─▒ olarak, c├╝mleleri bir diziden ziyade a─ča├ž olarak ele alma fikri ┼×ekil 7'de g├Âsterilen ├Âz yinelemeli sinir a─člar─▒na (Socher ve di─č., 2013) yol a├žar.

┼×ekil 7: ├ľzyinelemeli bir sinir a─č─▒ (Socher ve di─č.,┬á2013)

├ľz yinelemeli sinir a─člar─▒, c├╝mleyi soldan sa─ča veya sa─čdan sola i┼čleyen RNNÔÇÖlerin aksine a┼ča─č─▒dan yukar─▒ya do─čru bir dizilimin g├Âsterimini olu┼čturur. A─čac─▒n her d├╝─č├╝m├╝nde, alt d├╝─č├╝mlerin temsillerini olu┼čturarak yeni bir g├Âsterim hesaplan─▒r. Bir a─ča├ž RNNÔÇÖde farkl─▒ bir i┼člem emri empoze etti─či ┼čeklinde g├Âr├╝lebildi─činden, LSTMÔÇÖler do─čal olarak a─ča├žlara geni┼čletilmi┼čtir. (Tai ve di─č., 2015).

Hiyerar┼čik yap─▒larla ├žal─▒┼čmak i├žin yaln─▒zca RNNÔÇÖlerin ve LSTMÔÇÖlerin geni┼čletilmesi s├Âz konusu de─čildir. S├Âzc├╝k g├Âmme i┼člemleri sadece yerel de─čil, gramer ba─člam─▒nda da ├Â─črenilebilir (Levy ve Goldberg, 2014); dil modelleri s├Âz dizimsel bir y─▒─č─▒na dayanan kelimeler ├╝retebilir (Dyer ve di─č., 2016) ve ├žizge evri┼čimli sinir a─člar─▒ bir a─ča├ž ├╝zerinde de ├žal─▒┼čabilir (Bastings di─č., 2017).


­čôî2014ÔÇŐÔÇöÔÇŐSeq2Seq┬áModeller

Sutskever ve arkada┼člar─▒ taraf─▒ndan 2014 y─▒l─▒nda ├Ânerilen Seq2Seq ├Â─črenme, bir sinir a─č─▒ kullanarak bir diziyi di─čerine e┼člemek i├žin ├Ânerilen genel bir ├žer├ževe olarak tan─▒mlanabilir.

Bu ├žer├ževede ├Âncelikle bir ┼čifreleyici (encoder) sinir a─č─▒ bir c├╝mleyi sembol sembol i┼čler ve bir vekt├Âr ┼čeklinde temsil edecek ┼čekilde s─▒k─▒┼čt─▒r─▒r. Ard─▒ndan ┼čifre ├ž├Âz├╝c├╝ sinir a─č─▒ (decoder) ┼×ekil 8'de g├Âr├╝lebilece─či gibi ├Ânceden tahmin edilen sembol├╝ her ad─▒mda girdi olarak alarak, kodlay─▒c─▒ durumuna g├Âre ├ž─▒kt─▒y─▒ sembol sembol tahmin eder.

┼×ekil 8: Seq2Seq model (Sutskever et al.,┬á2014)

Makine ├ževirisi bu ├žer├ževenin katil uygulamas─▒ olarak ortaya ├ž─▒kt─▒. 2016'da Google, monolitik c├╝mle temelli makine ├ževirisi modellerini sinirsel makine ├ževirisi modelleriyle de─či┼čtirmeye ba┼člad─▒─č─▒n─▒ duyurdu (Wu ve di─č., 2016). Jeff DeanÔÇÖe g├Âre, bu 500.000 sat─▒rl─▒k c├╝mle tabanl─▒ makine ├ževirisi kodunun 500 sat─▒rl─▒k bir sinir a─č─▒ modeli ile de─či┼čtirilmesi demekti!

Esnekli─či nedeniyle bu ├žer├ževe, art─▒k kodlay─▒c─▒ ve kod ├ž├Âz├╝c├╝n├╝n rol├╝n├╝ ├╝stlenen farkl─▒ modellerle birlikte do─čal dil ├╝retme g├Ârevlerinin kurtar─▒c─▒ ├žer├ževesidir. ├ľnemli noktalardan biri ise kod ├ž├Âz├╝c├╝ modelinin sadece bir dizide de─čil, ayn─▒ zamanda iste─če ba─čl─▒ g├Âsterimlerle de ko┼čulland─▒r─▒labilmesidir. Bu, ├Ârne─čin ┼×ekil-9'da g├Âr├╝ld├╝─č├╝ gibi bir g├Âr├╝nt├╝ye dayal─▒ ba┼čl─▒k (Vinyals ve di─č., 2015)┬á, bir tabloya dayal─▒ metin (Lebret ve di─č., 2016) ve kaynak koddaki de─či┼čime dayal─▒ bir a├ž─▒klama olu┼čturmaya olanak sa─člar (Loyola ve di─č., 2017).

┼×ekil 9: Resme dayal─▒ bir ba┼čl─▒k olu┼čturma (Vinyals et al.,┬á2015)

Seq2Seq g├Âre ├Â─črenme, ├ž─▒kt─▒lar─▒n belirli bir yap─▒ya sahip oldu─ču do─čal dil i┼člemede yayg─▒n olan yap─▒land─▒r─▒lm─▒┼č tahmin g├Ârevlerine uygulanabilir. Biraz daha basitle┼čtirmek i├žin ├ž─▒kt─▒, se├žim b├Âlgeleri ┼×ekil 10'da g├Âr├╝lebilece─či gibi do─črusalla┼čt─▒r─▒lm─▒┼čt─▒r.

Yapay sinir a─člar─▒ yeterli miktarda e─čitim verisi verildi─činde, se├žim b├Âlgelerinin ayr─▒┼čt─▒r─▒lmas─▒ i├žin bir do─črusalla┼čt─▒r─▒lm─▒┼č ├ž─▒kt─▒ ├╝retmeyi (Vinyals ve di─č., 2015) ve bunun yan─▒ s─▒ra adland─▒r─▒lm─▒┼č varl─▒k tan─▒may─▒(Gillick ve di─č., 2016) ├Â─črenebildi─čini kan─▒tlad─▒.

┼×ekil 10: Bir se├žim b├Âlgesi ayr─▒┼čt─▒rma a─čac─▒n─▒ do─črusalla┼čt─▒rmak (Vinyals et al.,┬á2015)

Diziler i├žin kodlay─▒c─▒lar ve kod ├ž├Âz├╝c├╝ler genel olarak RNNÔÇÖlere dayan─▒r, ancak elbette di─čer modellerde kullan─▒labilir. Yeni mimarilerin a─č─▒rl─▒kl─▒ olarak, Seq2Seq mimarileri i├žin Petri kab─▒ g├Ârevi g├Âren makine ├ževirisi g├Ârevi i├žin ortaya ├ž─▒kt─▒─č─▒ g├Âr├╝l├╝yor.

Son modellere bak─▒ld─▒─č─▒nda derin LSTMÔÇÖler (Wu ve di─č., 2016), evri┼čimli kodlay─▒c─▒lar (Kalchbrenner ve di─č., 2016; Gehring ve di─č., 2017), sonraki b├Âl├╝mde tart─▒┼č─▒lacak olan d├Ân├╝┼čt├╝r├╝c├╝ (Transformer) (Vaswani ve di─č., 2017) ve LSTM -Transformer kombinasyonu (Chen ve di─č., 2018) kar┼č─▒m─▒za ├ž─▒kmaktad─▒r.


­čôî2015ÔÇŐÔÇöÔÇŐDikkat (Attention)

Dikkat (Bahdanau ve di─č., 2015), n├Âral makine ├ževirisindeki (NMT) temel yeniliklerden biridir ve NMT modellerinin klasik ifade tabanl─▒ makine ├ževirisi sistemlerinden daha ├╝st├╝n performans g├Âstermesini sa─člayan temel fikirdir.

Seq2Seq ├Â─črenmenin bilinen en temel darbo─čaz─▒, kaynak dizinin t├╝m i├žeri─činin sabit boyutlu bir vekt├Âre s─▒k─▒┼čt─▒r─▒lmas─▒n─▒ gerektirmesidir. Dikkat, kod ├ž├Âz├╝c├╝n├╝n gizli durumlardaki kaynak dizisine geri d├Ânmesine izin vererek bunu hafifletir. Bu daha sonra, a┼ča─č─▒daki ┼×ekil 11'de g├Âr├╝lebilece─či gibi kod ├ž├Âz├╝c├╝ye ek girdi olarak a─č─▒rl─▒kl─▒ bir ortalama olarak sunulur.

┼×ekil 11: Dikkat(Bahdanau et al.,┬á2015)

Farkl─▒ t├╝rde dikkat mekanizmalar─▒n─▒n mevcut oldu─čunu s├Âyleyebilmek m├╝mk├╝nd├╝r (Luong ve di─č., 2015). H─▒zl─▒ca bir g├Âz atmak isterseniz buraya buyrun ­čśŐ

Dikkat, girdilerin belirli b├Âl├╝mlerine g├Âre karar verilmesini gerektiren herhangi bir g├Ârev i├žin yayg─▒n olarak uygulanabilir ve faydal─▒ olabilme potansiyeli olduk├ža y├╝ksektir.

Se├žim b├Âlgesi ayr─▒┼čt─▒rma (consituency parsing)(Vinyals ve di─č., 2015), okudu─čunu anlama (Hermann ve di─č., 2015) ve tek ad─▒mda ├Â─črenme (one-shot learning) (Vinyals ve di─č., 2016) gibi farkl─▒ uygulamalarda kullan─▒lm─▒┼čt─▒r.

Girdinin bir dizi (sequence) olmas─▒ gerekmez, ancak ┼×ekil 12'de g├Âr├╝lebilen resim yaz─▒s─▒ olu┼čturmada (Xu ve di─č., 2015) oldu─ču gibi di─čer g├Âsterimlerden olu┼čabilir.

Dikkatin faydal─▒ bir yan etkisi olarak, girdilerin hangi k─▒s─▒mlar─▒n─▒n dikkat a─č─▒rl─▒klar─▒na g├Âre belirli bir ├ž─▒kt─▒ i├žin uygun oldu─čunu inceleyerek nadirenÔÇŐÔÇöÔÇŐÔÇö sadece y├╝zeysel olarakÔÇŐÔÇöÔÇŐmodelin i├ž ├žal─▒┼čmalar─▒na bir bak─▒┼č a├ž─▒s─▒ kazand─▒rd─▒─č─▒ g├Âzlenebilir.

┼×ekil 12: ÔÇťFrizbiÔÇŁ kelimesini olu┼čtururken modelin nelere dikkat etti─čini g├Âsteren resim yaz─▒lama modelinde g├Ârsel dikkat. (Xu ve di─č.,┬á2015)

Dikkat, sadece giri┼č s─▒ras─▒na bakmakla da s─▒n─▒rl─▒ de─čildir; daha fazla ba─člamsal olarak hassas kelime g├Âsterimleri elde etmek i├žin c├╝mle veya belgedeki ├ževreleyen kelimelere bakmak i├žin self-attention kullan─▒labilir. Sinirsel makine ├ževirisi i├žin mevcut en son model olan Transformer mimarisinin ├Âz├╝nde de ├žoklu dikkat katmanlar─▒ vard─▒r (Vaswani ve di─č. 2017).


­čôî 2015ÔÇŐÔÇöÔÇŐBellek tabanl─▒ a─člar (Memory-based Network)

Dikkat(attention) modelin ge├žmi┼č gizli durumlar─▒ndan olu┼čan bulan─▒k bellek olarak g├Âr├╝lebilir ve bu mekanizmada bellekten neyin al─▒naca─č─▒n─▒ model se├žer. Dikkat hakk─▒nda ayr─▒nt─▒l─▒ bilgi almak ve bellek ile ba─člant─▒s─▒n─▒ kavrayabilmek i├žin bu makaleye g├Âz atabilirsiniz. Daha a├ž─▒k bir belle─če sahip bir├žok model ├Ânerilmi┼čtir. Sinirsel Turing Makineleri (Graves di─č., 2014), Bellek A─člar─▒ (Weston di─č., 2015), U├žtan Uca Bellek A─člar─▒ (Sukhbaatar ve di─č., 2015), Dinamik Bellek A─člar─▒(Kumar di─č., 2015), Sinirsel Diferensiyellenebilen Bilgisayar (Graves ve di─č., 2016), ve Tekrarlayan Varl─▒k A─č─▒ (Henaff ve di─č., 2017) gibi bir├žok farkl─▒ varyantlar─▒ mevcuttur.

Haf─▒zaya, dikkat ile benzer ┼čekilde g├╝ncel duruma benzerlik temelinde eri┼čilir ve genellikle ├╝zerine yaz─▒labilir ve okunabilir. Modeller, haf─▒zay─▒ nas─▒l uygulad─▒klar─▒ ve kulland─▒klar─▒ konusunda farkl─▒l─▒k g├Âsterir. ├ľrne─čin, U├žtan Uca Bellek A─člar─▒ (End-to-end Memory Networks) giri┼či birden ├žok kez i┼čler ve ├žoklu ├ž─▒kar─▒m ad─▒mlar─▒n─▒ etkinle┼čtirmek i├žin haf─▒zay─▒ g├╝nceller. Sinirsel Turing Makineleri ayr─▒ca s─▒ralama gibi basit bilgisayar programlar─▒n─▒ ├Â─črenmelerini sa─člayan lokasyon bazl─▒ bir adresleme sistemine sahiptir. Bellek tabanl─▒ modeller genellikle, uzun zaman dilimlerinde bilginin tutulmas─▒n─▒n dil modellemesi ve okudu─čunu anlama gibi yararl─▒ olmas─▒ gereken g├Ârevlere uygulan─▒r. Haf─▒za kavram─▒ ├žok y├Ânl├╝d├╝r: Bir bilgi taban─▒ veya bir tablo haf─▒za i┼člevi g├Ârebilir ve bir haf─▒za da girdinin tamam─▒na veya belirli k─▒s─▒mlar─▒na g├Âre doldurulabilir.


­čôî 2018ÔÇŐÔÇöÔÇŐ├ľnceden E─čitilmi┼č Dil Modelleri (Pretrained language┬ámodels)

├ľnceden e─čitilmi┼č kelime g├Âmmeleri ba─člamdan ba─č─▒ms─▒zd─▒r ve sadece modellerdeki ilk katman─▒ ba┼člatmak i├žin kullan─▒l─▒r. Son y─▒llarda, bir ├žok denetimsiz ├Â─črenme g├Ârevi i├žin de ├Ânceden e─čitilmi┼č sinir a─člar─▒ kullan─▒lm─▒┼čt─▒r.(Conneau ve di─č.., 2017; McCann ve di─č., 2017; Subramanian ve di─č., 2018) Buna kar┼č─▒l─▒k, dil modelleri sadece etiketsiz metin gerektirir; b├Âylece e─čitim milyarlarca belirte├že (tokens), yeni alana ve yeni dile ├Âl├žeklenebilir. ├ľnceden e─čitilmi┼č dil modelleri ilk kez 2015 y─▒l─▒nda ├Ânerildi (Dai ve Le, 2015); ancak son zamanlarda bir├žok g├Ârev i├žin de olduk├ža faydal─▒ olduklar─▒ g├Âr├╝ld├╝. Dil modeli g├Âmmeleri bir hedef modelde ├Âznitelikler olarak kullan─▒labilir (Peters ve di─č., 2018) veya bir dil modeli hedef g├Ârev verilerine g├Âre ayarlanabilir (Ramachandran ve di─č., 2017; Howard ve Ruder, 2018). Dil modeli g├Âmmelerinin eklenmesi ┼×ekil 13'te g├Âr├╝ld├╝─č├╝ gibi bir├žok farkl─▒ g├Ârevde state-of-the-artÔÇÖa g├Âre b├╝y├╝k bir geli┼čme sa─člar.

┼×ekil 13: State-of-the-artÔÇÖa g├Âre dil modeli g├Âmmelerinde geli┼čmeler (Peters ve di─č.,┬á2018)

├ľnceden e─čitilmi┼č dil modellerinin daha az veri ile ├Â─črenmeyi m├╝mk├╝n k─▒ld─▒─č─▒ g├Âr├╝lm├╝┼čt├╝r. Dil modelleri yaln─▒zca etiketsiz veri gerektirdi─činden, etiketlenmi┼č verilerin az oldu─ču durumlar i├žin ├Âzellikle faydal─▒d─▒r.

├ľnceden e─čitilmi┼č dil modellerinin potansiyeli hakk─▒nda daha fazla bilgi i├žin bu yaz─▒y─▒ okuyabilirsinizÔťĘ.


­čôîDi─čer kilometre ta┼člar─▒

Yukar─▒da bahsedilenler kadar yayg─▒n olmasa da, yinede geni┼č etkiye sahip olan di─čer ├žal─▒┼čmalardan da burada bahsedelim ­čśŐ

Ôťů Karakter tabanl─▒ g├Âsterimler

Karakter tabanl─▒ bir kelime g├Âsterimi elde etmek i├žin karakterlerin ├╝zerinde bir CNN veya LSTM kullanmak, ├Âzellikle morfolojik bilgilerin zengin oldu─ču veya ├žok fazla bilinmeyen kelime i├žeren g├Ârevler i├žin olduk├ža yayg─▒nd─▒r. Karakter tabanl─▒ g├Âsterimler ilk ├Ânce part-of-speech tagging, dil modellemesi i├žin(Ling ve di─č., 2015) ve dependency parsing (Ballesteros di─č., 2015) i├žin kullan─▒lm─▒┼čt─▒r. Daha sonraki yap─▒lan ├žal─▒┼čmalara bak─▒ld─▒─č─▒nda ise art─▒k dizi etiketlemesi (Lample ve di─č., 2016; Plank ve di─č., 2016) ve dil modellemesi (Kim ve di─č., 2016) g├Ârevleri i├žin temel bile┼čen haline geldi─či g├Âr├╝lm├╝┼čt├╝r. Karakter tabanl─▒ g├Âsterimler, artan hesaplama maliyetiyle sabit bir kelime hazinesiyle ba┼ča ├ž─▒kma gereksinimini azalt─▒r ve tamamen karakter tabanl─▒ sinirsel makine ├ževirisi gibi uygulamalar─▒ m├╝mk├╝n k─▒lar (Ling ve di─č., 2016; Lee ve di─č., 2017).

Ôťů ├çeki┼čmeli ├Â─črenme (Adversarial Learning)

├çeli┼čmeli ├Â─črenme makine ├Â─črenmesi alan─▒nda f─▒rt─▒nalar estirirken, do─čal dil i┼člemede de farkl─▒ ┼čekillerde kullan─▒lm─▒┼čt─▒r. Yaln─▒zca modelleri ara┼čt─▒rmak ve ba┼čar─▒s─▒zl─▒k sebeplerini anlamak i├žin bir ara├ž olarak de─čil, ayn─▒ zamanda onlar─▒ daha sa─člam hale getirmek i├žin de giderek daha yayg─▒n bir ┼čekilde kullan─▒lmaktad─▒r (Jia & Liang, 2017). En k├Ât├╝ durumdaki bozulmalar (Miyato ve di─č., 2017; Yasunaga ve di─č., 2018) ve etki alan─▒ ile ilgili kay─▒plar (Ganin ve di─č., 2016; Kim ve di─č., 2017), modelleri daha sa─člam hale getirebilecek kullan─▒┼čl─▒ d├╝zenleme y├Ântemleri olarak kar┼č─▒m─▒za ├ž─▒k─▒yor. ├çeki┼čmeli ├╝retici a─člar(GAN) hen├╝z do─čal dil ├╝retimi i├žin ├žok etkili olmasa da(Semeniuta ve di─č., 2018), da─č─▒l─▒mlar─▒n e┼čle┼čtirilmesinde etkili oldu─ču g├Âr├╝lm├╝┼čt├╝r(Conneau ve di─č., 2018).

Ôťů Peki┼čtirmeli ├Â─črenme (Reinforcement Learning)

Peki┼čtirmeli ├Â─črenmenin zaman ba─č─▒ml─▒l─▒─č─▒ olan e─čitim s─▒ras─▒nda veri se├žimi (Fang ve di─č., 2017; Wu ve di─č., 2018) ve dialog modelleme (Liu ve di─č., 2018)gibi g├Ârevler i├žin yararl─▒ oldu─ču g├Âsterilmi┼čtir┬á. Peki┼čtirmeli ├ľ─črenme ayr─▒ca ├Âzetleme (Paulus ve di─č, 2018; Celikyilmaz ve di─č., 2018) ve makine ├ževirisinde (Ranzato ve di─č., 2016) ├žapraz entropi gibi bir ta┼č─▒y─▒c─▒ kayb─▒ optimize etmek yerine ROUGE veya BLEU gibi diferansiyellenemeyen bir biti┼č metri─čini do─črudan optimize etmek i├žin olduk├ža etkili oldu─ču da g├Âr├╝lm├╝┼čt├╝r (Wang ve di─č., 2018).


­čôî Sinirsel olmayan (Non-neural) kilometre ta┼člar─▒

1998 ve sonraki y─▒llarda, halen aktif olarak ara┼čt─▒r─▒lan bir s─▒─č semantik ayr─▒┼čt─▒rma bi├žimi olan anlamsal rol etiketleme g├Ârevini sa─člayan FrameNet projesi tan─▒t─▒lm─▒┼čt─▒r (Baker ve di─č., 1998).

2000'li y─▒llar─▒n ba┼č─▒nda ise, Do─čal Dil ├ľ─črenimi Konferans─▒ (CoNLL) ile birlikte d├╝zenlenen b├Âl├╝mleme (chunking) (Tjong Kim Sang ve di─č., 2000), isimlendirilmi┼č varl─▒k tan─▒ma (named entity recognition) (Tjong Kim Sang ve di─č., 2003), ba─č─▒ml─▒l─▒k ayr─▒┼čt─▒rma(dependency parsing) (Buchholz ve di─č., 2006) gibi temel NLP g├Ârevlerindeki ara┼čt─▒rmalar alanda kataliz├Âr etkisi yaratt─▒. CoNLL i├žin payla┼č─▒lan g├Ârev veri k├╝melerinin bir├žo─ču, bug├╝n hala alan ├žal─▒┼čmalar─▒n─▒n de─čerlendirmesi i├žin standartt─▒r.

2001 y─▒l─▒nda en h─▒zl─▒ dizi etiketleme y├Ântemlerinden biri olan ko┼čullu rastgele alanlar (conditional random fields/CRF; Lafferty ve di─č., 2001) tan─▒t─▒ld─▒ ve bu y├Ântem ICML 2011'de Test-of-time ├Âd├╝l├╝ne lay─▒k g├Âr├╝ld├╝. CRF katman─▒, adland─▒r─▒lm─▒┼č varl─▒k tan─▒ma(named entity recognition) gibi etiket ba─č─▒ml─▒l─▒klar─▒yla ilgili dizi etiketleme problemleri i├žin son teknoloji modellerin ├žekirdek bir par├žas─▒ olarak kullan─▒lmaktad─▒r(Lample ve di─č., 2016).

2002 y─▒l─▒nda, makine ├ževirisi sistemlerinin ├Âl├žeklenmesini sa─člayan ve bug├╝nlerde makine ├ževirisi de─čerlendirmesinde standart metrik olan iki dilli de─čerlendirme alt ├Âl├že─či (BLEU; Papineni ve di─č., 2002) ├Ânerilmi┼čtir. Ayn─▒ y─▒l, yap─▒land─▒r─▒lm─▒┼č preceptron (Collins, 2002) tan─▒t─▒ld─▒ ve b├Âylelikle bug├╝n ki yap─▒land─▒r─▒lm─▒┼č perceptron ├žal─▒┼čmalar─▒n─▒n temeli at─▒lm─▒┼č oldu. Ayn─▒ konferansta en pop├╝ler ve en ├žok incelenen do─čal dil i┼čleme g├Ârevlerinden biri olan duygu analizi de tan─▒t─▒ld─▒ (Pang ve di─č., 2002). Bu ├╝├ž bildiri de NAACL 2018'de Test-of-time ├Âd├╝l├╝n├╝ almaya hak kazand─▒. Ayr─▒ca, dilsel kaynak (linguistic resource) PropBank (Kingsbury ve Palmer, 2002) da ayn─▒ y─▒l tan─▒t─▒ld─▒. PropBank, FrameNetÔÇÖe olduk├ža benzer, ancak fiillere odaklanan bir yap─▒ya sahiptir ve anlamsal rol etiketlemede s─▒kl─▒kla kullan─▒l─▒r.

Bug├╝n hala konu modellemede (topic modelling) standart bir y├Ântem olan ve makine ├Â─črenmesinde s─▒kl─▒kla kullan─▒lan Latent Dirichlet Allocation (LDA; Blei ve di─č., 2003) geli┼čtirildi.

2004 y─▒l─▒nda yap─▒land─▒r─▒lm─▒┼č verideki korelasyonu yakalamak i├žin SVMÔÇÖlerden daha uygun olan maksimum marj modelleri (max-margin model) ├Ânerildi (Taskar ve di─č., 2004a; 2004b)

2006 y─▒l─▒nda, ├žoklu a├ž─▒klamalara ve y├╝ksek etkile┼čimli anla┼čmalara sahip ├žok dilli bir korpus olan OntoNotes (Hovy ve di─č., 2006) tan─▒t─▒ld─▒. OntoNotes, ba─č─▒ml─▒l─▒k ayr─▒┼čt─▒rma (dependency parsing) ve e┼čde─čerlik ├ž├Âz├╝mlemesi (coreference resolution) gibi ├že┼čitli g├Ârevlerin e─čitimi ve de─čerlendirilmesi i├žin kullan─▒lm─▒┼čt─▒r.

Milne ve Witten 2008'de WikipediaÔÇÖn─▒n makine ├Â─črenmesi y├Ântemlerini zenginle┼čtirmek i├žin nas─▒l kullan─▒labilece─čini a├ž─▒klad─▒. O tarihlerden bug├╝ne kadar, Wikipedia varl─▒k ba─člama ve netle┼čtirme, dil modelleme, bilgi taban─▒ olarak veya ba┼čka ├že┼čitli bir├žok g├Ârev i├žin makine ├Â─črenmesi metotlar─▒n─▒n e─čitimi i├žin en faydal─▒ kaynaklardan biri olarak kullan─▒lm─▒┼č ve kullan─▒lmaya devam etmektedir.

2009 y─▒l─▒nda uzak denetim (distant supervision) fikri (Mintz ve di─č., 2009) ├Ânerildi. Uzak denetim, b├╝y├╝k korpuslardan otomatik olarak ├Ârnekler ├ž─▒karmak i├žin kullan─▒labilecek g├╝r├╝lt├╝l├╝ kal─▒plar ├╝retmek i├žin bulu┼čsal bilgilerden veya mevcut bilgi tabanlar─▒ndan gelen bilgileri kullan─▒r. Uzak denetim, yo─čun bir ┼čekilde kullan─▒lm─▒┼č olan di─čer g├Ârevlerin yan─▒ s─▒ra ├Âzellikle ili┼čki ve bilgi ├ž─▒karma ve duygu analizinde yayg─▒n kullan─▒lan bir tekniktir.

2016 y─▒l─▒nda, ├žok dilli bir treebanks koleksiyonu olan Evrensel Ba─č─▒ml─▒l─▒klar (Universal Dependencies) v1 (Nivre ve di─č., 2016) tan─▒t─▒ld─▒. Evrensel Ba─č─▒ml─▒l─▒klar projesi, bir├žok dilde tutarl─▒ ba─č─▒ml─▒l─▒─ča dayal─▒ a├ž─▒klamalar olu┼čturmay─▒ ama├žlayan bir topluluk ├žabas─▒ olarak de─čerlendirilebilir. Ocak 2019 y─▒l─▒ itibari ile Evrensel Ba─č─▒ml─▒l─▒klar v2, 70'den fazla dilde 100'den fazla a─ča├žtan olu┼čan bir yap─▒dad─▒r.


Do─čal dil i┼čleme alan─▒nda sinir a─člar─▒ tabanl─▒ kilometre ta┼člar─▒ diye bahsedilebilecek ├žal─▒┼čmalar─▒n derlendi─či bu yaz─▒n─▒n orjinaline buradan eri┼čebilirsiniz.

­čĺÄ Bu kapsaml─▒ derlemi bizlere sunan ve T├╝rk├žele┼čtirmem esnas─▒nda deste─či i├žin Sebastian RuderÔÇÖe ├žok te┼čekk├╝r ederim.

­čĺÄ I would like to thank awfully Sebastian Ruder for presenting this comprehensive review and for his support during the Turkish translation.


­čŹÇ Yaz─▒ hakk─▒nda g├Âr├╝┼čleriniz, ├Ânerileriniz ve katk─▒lar─▒n─▒z i├žin ┼čimdiden te┼čekk├╝rler! Keyifli okumalar ÔśĽ