Google Sheet မှာ Google App Script သုံးပြီး ပုံတွေနဲ့ PDF ဖိုင်တွေက စာသားတွေကို ဆွဲထုတ်ပြတဲ့ OCR tool ဖန်တီးခြင်း

Mie Maung
Moments of My Life
Published in
3 min readMay 30, 2018

ကျွန်တော်တို့ အတော်များများအတွက်တော့ ပုံနှိပ်ထားတဲ့ စာလုံးတွေကို scan ဖတ်ထားတဲ့ ရုပ်ပုံဖိုင်တွေက ဖြစ်ဖြစ်၊ ပြင်လို့မရအောင် flat လုပ်ထားတဲ့ pdf ဖိုင်တွေကနေ ဖြစ်ဖြစ် စာသားတွေကို ဆွဲထုတ်ယူနိုင်ဖို့ဆိုတာ အမြဲတောင့်တခဲ့ရတဲ့ မျှော်လင့်ချက် တစ်ခုပါ။ ဒီလိုလုပ်ပေးတဲ့ OCR နည်းပညာကို အင်္ဂလိပ်စာအတွက် ရတာကို မြင်ဖူးခဲ့စဉ်ကတည်းက ငါတို့ မြန်မာစာအတွက်လည်း ဒီလိုရရင် သိပ်ကောင်းမှာပဲလို့ မျှော်လင့်ခဲ့ကြ မချင့်မရဲ ဖြစ်ခဲ့ကြရတာပါ။ ခုတော့ ယူနီကုဒ် မြန်မာစာစနစ်ရဲ့ အထောက်အပံ့နဲ့အတူ ဒီမျှော်လင့်ချက်က တစ်စိတ်တစ်ပိုင်း ပြည့်ဝလာခဲ့ပါပြီ။

ဒီလို ဖြည့်ဆည်းပေးလာသူကတော့ Google ပဲ ဖြစ်ပါတယ်။ Printer တွေ scanner တွေနဲ့ တိုက်ရိုက်ချိတ်ပြီး သုံးလို့ မရသေးဘဲ အင်တာနက် ချိတ်ဆက်ထားဖို့ လိုသေးပေမယ့်လည်း အတိုင်းအတာတစ်ခုအထိ အဆင်ပြေလှတာမို့ သုံးနည်းကို ဘာသာပြန် မျှဝေပေးလိုက်ပါတယ်။

ဒီလို သုံးဖို့အတွက် Google ရဲ့ အခမဲ့ အကောင့်တစ်ခုတော့ ရှိဖို့လိုပါမယ်။ မြန်မာအများစု Gmail သုံးကြတာမို့ ဒီကိစ္စက ပူစရာတော့ မလိုပါဘူး။ ပြီးရင် Google ကပဲ အခမဲ့ ပေးသုံးတဲ့ Google Sheet ကို သုံးပြီး လုပ်ရမှာပါ။ မိတ်ဆွေအနေနဲ့ Java Script အခြေခံသိပြီး Google Sheet နဲ့ Google API Console အကြောင်း သိထားရင် ပိုကောင်းတယ်ဆိုပေမယ့် မသိလည်း လိုက်လုပ်လို့ ရလောက်အောင် ရိုးရှင်းပါတယ်။

Google Sheet အသစ်တစ်ခု ဖွင့်ပါ

https://docs.google.com/spreadsheets/u/0/ ကို ကလစ်နှိပ်ပြီး သွားရုံပါပဲ။

Script Editor ထဲ ဝင်ပါ

Tools မီနူးထဲက Script editor… ကို နှိပ်ပါ။

ကုဒ်တွေ ထည့်ပါမယ်

အောက်မှာ ပြထားတဲ့ Java Script ကုဒ်တွေက Google Sheet မှာ မီနူးအသစ်တစ်ခု ဖန်တီးဖို့ပါ။

ရုပ်ပုံရှိတဲ့ URL ကနေ စာသားတွေကို ဆွဲထုတ်ပေးဖို့အတွက် အောက်က ကုဒ်တွေကို ဆက်သုံးရပါမယ်။

URL က ရုပ်ပုံ အများကြီးကို တပြိုင်တည်း စာသား ဆွဲထုတ်ပေးဖို့အတွက်တော့ အောက်က ကုဒ်တွေအတိုင်း function တစ်ခု ထပ်ဖန်တီးရပါတယ်။

ဒီအထိ ပြသွားတဲ့ ကုဒ်တွေကို နားမလည်လို့ စိတ်ရှုပ်နေလား၊ ကျွန်တော်လည်း နားလည်လှတယ် မဟုတ်လို့ ရှင်းမပြတတ်ပါဘူး။ ဒါပေမယ့် စိတ်မပူပါနဲ့လေ၊ အစောက ဖွင့်ထားတဲ့ script editor ထဲက လက်ရှိ ရှိနေတဲ့ စာတွေ အားလုံးကို ဖျက်၊ အောက်က ကုဒ်တွေ အားလုံး အစ အဆုံး copy ကူးပြီး paste လုပ်ထည့်လိုက်ဗျာ။

ပြီးရင် အဲဒီ script project ကို နာမည်ပေးပြီး save လုပ်လိုက်ပါ။

Google Drive API Service ဖွင့်ခြင်း

အစောက လုပ်ထားတဲ့ script editor ရဲ့ Resources ဆိုတဲ့ မီနူးထဲက Advanced Google services… ကို သွားပါ။ ပေါ်လာတဲ့ စာရင်းထဲက Drive API ဆိုတာကို ရှာပြီး On ပေးပါ။

ပြီးရင် အဲဒီ အောက်မှာ အဝါရောင်ကွက်လေးနဲ့ ပြနေတဲ့ Google API Console ကို နှိပ်ပါ။

ထပ်ပွင့်လာတဲ့ browser tab ထဲက Google Drive API ကို ဖွင့်ပြီး Enable ဆိုတာကို နှိပ် ပြီးသွားရင် အဲဒီ tab ကို ပိတ်လိုက်ပါ။

ပြီးရင် အစောက ပွင့်နေတဲ့ Advance Google Services ဆိုတဲ့ box ကို Ok နှိပ်ပြီး ထွက်ပါ။

Google Sheet တွင် စမ်းသပ်ခြင်း

အစောက ဖွင့်ထားတဲ့ Google Sheet ကို ပြန်သွားပြီး refresh လုပ်ပေးပါ။

‘OCR Tool’ ဆိုတဲ့ မီနူးအသစ်တစ်ခု ပေါ်လာပါလိမ့်မယ်။

အသုံးပြုပုံ

ကိုယ် စာသား ဆွဲထုတ်ချင်တဲ့ ရုပ်ပုံရှိတဲ့ URL ကို ကူးယူလာပြီး cell ကွက် တစ်ကွက်ထဲကို paste လုပ်ထည့်ပါ။

၁။ တစ်ပုံချင်းစီ ဖတ်ချင်ရင်

ဖတ်ချင်တဲ့ URL ထည့်ထားတဲ့ cell ကွက်ကို select မှတ်၊

အသစ်ပေါ်လာတဲ့ ‘OCR Tool’ မီနူးထဲက “Extract Cell” ကို နှိပ်ပါ။

မှတ်ထားတဲ့ cell ကွက်ရဲ့ ဘေးကပ်လျှက် column မှာ ဆွဲထုတ်ယူလာပေးတဲ့ စာသားတွေကို တွေ့ရမှာ ဖြစ်သလို နောက်ထပ် ကပ်လျှပ် column မှာတော့ မူရင်း ရုပ်ပုံရော၊ စာသား ဆွဲထုတ်ပေးထားတာပါ ပါတဲ့ Google Doc ဖိုင်ရှိရာ link ကို တွေ့ရပါလိမ့်မယ်။

၂။ ပုံအများကြီးကို တပြိုင်တည်း ဖတ်ချင်ရင်

ဖတ်ချင်တဲ့ cell ကွက်တွေကို select မှတ်

OCR Tools မီနူးထဲက Extract all ကို ရွေးလိုက်ရုံပါပဲ။

အားလုံးပြီးသွားရင်တော့ သူ့ဆီက ထွက်လာတဲ့ Google Doc ဖိုင်ကိုသွား၊ Microsoft Word ရဲ့ format ဖြစ်တဲ့ .docx နဲ့ ဒေါင်းယူလိုက်ရင် ကိုယ်ကြိုက်သလို သုံးလို့ရမယ့် စာသားတွေနဲ့ ဖိုင်တစ်ခု ရလာပြီပေါ့ဗျာ။ ထွက်လာတဲ့ စာသားတွေက ဘာဖောင့်လည်း မမေးနဲ့ဗျာ၊ ယူနီကုဒ်ပဲ ရမယ်ဗျို့။ အဲဒီလုပ်ထားတဲ့ Google Sheet လေးကိုလည်း နာမည်လေး သေချာပေးပြီး သိမ်းထားရင် နောက် လိုအပ်တိုင်း သုံးလို့ရသပေါ့ဗျာ။

ကွန်ပျူတာသုံး မြန်မာစာစနစ် တစ်နေ့တစ်ခြား ပိုလို့ တိုးတက် ထွန်းကားပါစေ။

ဒီနည်းက ကွန်ပျူတာ browser ပေါ်မှာ သုံးမှပဲ အဆင်ပြေပါမယ်။ ဒီနည်းကို စတင် ရေးသား ဖော်ပြပေးခဲ့တဲ့ AIO အဖွဲ့ကိုလည်း ကျေးဇူးအများကြီး တင်ပါတယ်။ မူရင်း ဆောင်းပါးကို ဒီမှာ သွားဖတ်နိုင်ပါတယ်

--

--

Mie Maung
Moments of My Life

I’m a freelance translator, writer and photographer base in Yangon, Myanmar.