Google Sheet မှာ Google App Script သုံးပြီး ပုံတွေနဲ့ PDF ဖိုင်တွေက စာသားတွေကို ဆွဲထုတ်ပြတဲ့ OCR tool ဖန်တီးခြင်း
ကျွန်တော်တို့ အတော်များများအတွက်တော့ ပုံနှိပ်ထားတဲ့ စာလုံးတွေကို scan ဖတ်ထားတဲ့ ရုပ်ပုံဖိုင်တွေက ဖြစ်ဖြစ်၊ ပြင်လို့မရအောင် flat လုပ်ထားတဲ့ pdf ဖိုင်တွေကနေ ဖြစ်ဖြစ် စာသားတွေကို ဆွဲထုတ်ယူနိုင်ဖို့ဆိုတာ အမြဲတောင့်တခဲ့ရတဲ့ မျှော်လင့်ချက် တစ်ခုပါ။ ဒီလိုလုပ်ပေးတဲ့ OCR နည်းပညာကို အင်္ဂလိပ်စာအတွက် ရတာကို မြင်ဖူးခဲ့စဉ်ကတည်းက ငါတို့ မြန်မာစာအတွက်လည်း ဒီလိုရရင် သိပ်ကောင်းမှာပဲလို့ မျှော်လင့်ခဲ့ကြ မချင့်မရဲ ဖြစ်ခဲ့ကြရတာပါ။ ခုတော့ ယူနီကုဒ် မြန်မာစာစနစ်ရဲ့ အထောက်အပံ့နဲ့အတူ ဒီမျှော်လင့်ချက်က တစ်စိတ်တစ်ပိုင်း ပြည့်ဝလာခဲ့ပါပြီ။
ဒီလို ဖြည့်ဆည်းပေးလာသူကတော့ Google ပဲ ဖြစ်ပါတယ်။ Printer တွေ scanner တွေနဲ့ တိုက်ရိုက်ချိတ်ပြီး သုံးလို့ မရသေးဘဲ အင်တာနက် ချိတ်ဆက်ထားဖို့ လိုသေးပေမယ့်လည်း အတိုင်းအတာတစ်ခုအထိ အဆင်ပြေလှတာမို့ သုံးနည်းကို ဘာသာပြန် မျှဝေပေးလိုက်ပါတယ်။
ဒီလို သုံးဖို့အတွက် Google ရဲ့ အခမဲ့ အကောင့်တစ်ခုတော့ ရှိဖို့လိုပါမယ်။ မြန်မာအများစု Gmail သုံးကြတာမို့ ဒီကိစ္စက ပူစရာတော့ မလိုပါဘူး။ ပြီးရင် Google ကပဲ အခမဲ့ ပေးသုံးတဲ့ Google Sheet ကို သုံးပြီး လုပ်ရမှာပါ။ မိတ်ဆွေအနေနဲ့ Java Script အခြေခံသိပြီး Google Sheet နဲ့ Google API Console အကြောင်း သိထားရင် ပိုကောင်းတယ်ဆိုပေမယ့် မသိလည်း လိုက်လုပ်လို့ ရလောက်အောင် ရိုးရှင်းပါတယ်။
Google Sheet အသစ်တစ်ခု ဖွင့်ပါ
https://docs.google.com/spreadsheets/u/0/ ကို ကလစ်နှိပ်ပြီး သွားရုံပါပဲ။
Script Editor ထဲ ဝင်ပါ
Tools မီနူးထဲက Script editor… ကို နှိပ်ပါ။
ကုဒ်တွေ ထည့်ပါမယ်
အောက်မှာ ပြထားတဲ့ Java Script ကုဒ်တွေက Google Sheet မှာ မီနူးအသစ်တစ်ခု ဖန်တီးဖို့ပါ။
ရုပ်ပုံရှိတဲ့ URL ကနေ စာသားတွေကို ဆွဲထုတ်ပေးဖို့အတွက် အောက်က ကုဒ်တွေကို ဆက်သုံးရပါမယ်။
URL က ရုပ်ပုံ အများကြီးကို တပြိုင်တည်း စာသား ဆွဲထုတ်ပေးဖို့အတွက်တော့ အောက်က ကုဒ်တွေအတိုင်း function တစ်ခု ထပ်ဖန်တီးရပါတယ်။
ဒီအထိ ပြသွားတဲ့ ကုဒ်တွေကို နားမလည်လို့ စိတ်ရှုပ်နေလား၊ ကျွန်တော်လည်း နားလည်လှတယ် မဟုတ်လို့ ရှင်းမပြတတ်ပါဘူး။ ဒါပေမယ့် စိတ်မပူပါနဲ့လေ၊ အစောက ဖွင့်ထားတဲ့ script editor ထဲက လက်ရှိ ရှိနေတဲ့ စာတွေ အားလုံးကို ဖျက်၊ အောက်က ကုဒ်တွေ အားလုံး အစ အဆုံး copy ကူးပြီး paste လုပ်ထည့်လိုက်ဗျာ။
ပြီးရင် အဲဒီ script project ကို နာမည်ပေးပြီး save လုပ်လိုက်ပါ။
Google Drive API Service ဖွင့်ခြင်း
အစောက လုပ်ထားတဲ့ script editor ရဲ့ Resources ဆိုတဲ့ မီနူးထဲက Advanced Google services… ကို သွားပါ။ ပေါ်လာတဲ့ စာရင်းထဲက Drive API ဆိုတာကို ရှာပြီး On ပေးပါ။
ပြီးရင် အဲဒီ အောက်မှာ အဝါရောင်ကွက်လေးနဲ့ ပြနေတဲ့ Google API Console ကို နှိပ်ပါ။
ထပ်ပွင့်လာတဲ့ browser tab ထဲက Google Drive API ကို ဖွင့်ပြီး Enable ဆိုတာကို နှိပ် ပြီးသွားရင် အဲဒီ tab ကို ပိတ်လိုက်ပါ။
ပြီးရင် အစောက ပွင့်နေတဲ့ Advance Google Services ဆိုတဲ့ box ကို Ok နှိပ်ပြီး ထွက်ပါ။
Google Sheet တွင် စမ်းသပ်ခြင်း
အစောက ဖွင့်ထားတဲ့ Google Sheet ကို ပြန်သွားပြီး refresh လုပ်ပေးပါ။
‘OCR Tool’ ဆိုတဲ့ မီနူးအသစ်တစ်ခု ပေါ်လာပါလိမ့်မယ်။
အသုံးပြုပုံ
ကိုယ် စာသား ဆွဲထုတ်ချင်တဲ့ ရုပ်ပုံရှိတဲ့ URL ကို ကူးယူလာပြီး cell ကွက် တစ်ကွက်ထဲကို paste လုပ်ထည့်ပါ။
၁။ တစ်ပုံချင်းစီ ဖတ်ချင်ရင်
ဖတ်ချင်တဲ့ URL ထည့်ထားတဲ့ cell ကွက်ကို select မှတ်၊
အသစ်ပေါ်လာတဲ့ ‘OCR Tool’ မီနူးထဲက “Extract Cell” ကို နှိပ်ပါ။
မှတ်ထားတဲ့ cell ကွက်ရဲ့ ဘေးကပ်လျှက် column မှာ ဆွဲထုတ်ယူလာပေးတဲ့ စာသားတွေကို တွေ့ရမှာ ဖြစ်သလို နောက်ထပ် ကပ်လျှပ် column မှာတော့ မူရင်း ရုပ်ပုံရော၊ စာသား ဆွဲထုတ်ပေးထားတာပါ ပါတဲ့ Google Doc ဖိုင်ရှိရာ link ကို တွေ့ရပါလိမ့်မယ်။
၂။ ပုံအများကြီးကို တပြိုင်တည်း ဖတ်ချင်ရင်
ဖတ်ချင်တဲ့ cell ကွက်တွေကို select မှတ်
OCR Tools မီနူးထဲက Extract all ကို ရွေးလိုက်ရုံပါပဲ။
အားလုံးပြီးသွားရင်တော့ သူ့ဆီက ထွက်လာတဲ့ Google Doc ဖိုင်ကိုသွား၊ Microsoft Word ရဲ့ format ဖြစ်တဲ့ .docx နဲ့ ဒေါင်းယူလိုက်ရင် ကိုယ်ကြိုက်သလို သုံးလို့ရမယ့် စာသားတွေနဲ့ ဖိုင်တစ်ခု ရလာပြီပေါ့ဗျာ။ ထွက်လာတဲ့ စာသားတွေက ဘာဖောင့်လည်း မမေးနဲ့ဗျာ၊ ယူနီကုဒ်ပဲ ရမယ်ဗျို့။ အဲဒီလုပ်ထားတဲ့ Google Sheet လေးကိုလည်း နာမည်လေး သေချာပေးပြီး သိမ်းထားရင် နောက် လိုအပ်တိုင်း သုံးလို့ရသပေါ့ဗျာ။
ကွန်ပျူတာသုံး မြန်မာစာစနစ် တစ်နေ့တစ်ခြား ပိုလို့ တိုးတက် ထွန်းကားပါစေ။
ဒီနည်းက ကွန်ပျူတာ browser ပေါ်မှာ သုံးမှပဲ အဆင်ပြေပါမယ်။ ဒီနည်းကို စတင် ရေးသား ဖော်ပြပေးခဲ့တဲ့ AIO အဖွဲ့ကိုလည်း ကျေးဇူးအများကြီး တင်ပါတယ်။ မူရင်း ဆောင်းပါးကို ဒီမှာ သွားဖတ်နိုင်ပါတယ်။