[Week 2— Collection Reviews]
We collect our data. But there is a problem with collected reviews, misspelling words. Misspellings need to be corrected to ensure the safety of the comments we collect. We need to do a simple natural language processing for it. We found a ready-made Python code that converts from ASCII to Turkish for correcting mistakes using in Turkish characters which is one of the most common typing mistakes.
Gelen hamburger cok soguktu bekletip yolluyorlar.
Gelen hamburger çok soğuktu bekletip yolluyorlar.
— — — — — — — — — — — — — — — —
Abartmiyorum 13 dakikada geldi bu kadar cabuk bizde beklemiyorduk kapi calinca sasirdik.
Abartmıyorum 13 dakikada geldi bu kadar çabuk bizde beklemiyorduk kapı çalınca şaşırdık.
— — — — — — — — — — — — — — — —
Mcten ne zaman extra sos istesem ucret almadan gönderdi. Musteri memnuniyeti cok iyi. Elinize saglık cok lezzetliydi.
Mcten ne zaman extra sos istesem ücret almadan gönderdi. Müşteri memnuniyeti çok iyi. Elinize sağlık çok lezzetliydi.
— — — — — — — — — — — — — — — —
Hizli eksiksiz servis lezziti de tam fakat fiyatlarin artmasi bazi menulerin kalkmasi uzdu.
Hızlı eksiksiz servis lezziti de tam fakat fiyatların artması bazı menülerin kalkması üzdü.
— — — — — — — — — — — — — — — —
Patatesler berbatti, soguk ve asiri tuzluydu.
Patatesler berbattı, soğuk ve aşırı tuzluydu.
To reduce the number of feature sets, we found Turkish stop words that have no significant effect to mean. Thus, we able to separate the basic words from the comments without loss of meaning.
acaba
ama
ancak
arada
artık
…
eğer
elbette
en
etmesi
etti
…
öyle
oysa
pek
rağmen
sana
sanki
şayet
…
yine
yoksa
zaten
zira